7.7 I.C. para una proporción
El objetivo es construir un intervalo de confianza para la proporción de elementos (p) de una población que poseen una determinada característica (votantes de un partido político, alumnos que usan una determinada red social, elementos defectuosos…) a partir de una muestra aleatoria simple de la población.
De esta forma, consideramos la variableX | P(X=xi) |
---|---|
0 | 1−p |
1 | p |
Es decir, la variable aleatoria que toma los valores 1 y 0 (1 si tiene la característica, con probabilidad p, 0 si no la tiene)
Tomamos entonces una muestra aleatoria simple X1,…,Xn de la variable X∈B(1,p)
Dado el nivel de confianza 1−α,
El intervalo es:
(ˆp−zα/2√ˆp(1−ˆp)n , ˆp+zα/2√ˆp(1−ˆp)n).
Para calcular este intervalo de confianza con R, debemos utilizar la siguiente función:
z.test <- function(x,n,p=NULL,conf.level=0.95,
alternative="two.sided") {
ts.z <- NULL
cint <- NULL
p.val <- NULL
phat <- x/n
qhat <- 1 - phat
if(length(p) > 0) {
q <- 1-p
SE.phat <- sqrt((p*q)/n)
ts.z <- (phat - p )/SE.phat
if(ts.z<0) p.val <- 2*pnorm(ts.z)
else p.val<-2*(1-pnorm(ts.z))
if(alternative=="less") {
p.val <- pnorm(ts.z)
}
if(alternative=="greater") {
p.val <- 1 - pnorm(ts.z)
}
} else {
SE.phat <- sqrt((phat*qhat)/n)
}
cint <- phat + c(
-1*((qnorm(((1 - conf.level)/2) +
conf.level))*SE.phat),
((qnorm(((1 - conf.level)/2) +
conf.level))*SE.phat) )
return(list(estimate=phat,ts.z=ts.z,
p.val=p.val,cint=cint))
}
Esta función no solo calcula el intervalo de confianza para una proporción, sino que realiza un test de hipótesis sobre dicho parámetro, por lo que la utilizaremos en el capítulo siguiente.
Al finalizar un ensayo clínico para un trabajo fin de master, la profesora Chifuentes dispuso de una m.a.s. de 100 pacientes, de las cuales 7 dijeron no haber notado mejoría. Determinar un intervalo de confianza (con un nivel de confianza aproximado del 99%) para p, proporción de pacientes que notan mejoría en la población en general.
¿Qué tamaño muestral n recomendarías para que la longitud del intervalo de confianza (con un nivel de confianza aproximado del 95%) para la proporción p fuera inferior a 0.01 unidades?Solución:
Tenemos que n=100 pacientes y que la proporción muestral es ˆp=93100=0.93
El intervalo de confianza es:
(0.93±2.575√0.93×0.07100)=(0.93±0.0657)=(0.8643,0.9957) Calculado con la función de R:
y=z.test(93,100, conf.level=0.99)
y$cint
## [1] 0.8643 0.9957
Respondemos ahora a la segunda parte del ejercicio:
Cálculo del tamaño muestral necesario para obtener una cierta precisión.
El intervalo de confianza está centrado en ˆp. Quiere esto decir que la longitud máxima del intervalo (llamémosle L)
2⋅zα/2√ˆp(1−ˆp)n≤L⟺n≥4ˆp(1−ˆp)z2α/2L2=4ˆp(1−ˆp)(1.960.01)2 Como ˆp=0.93, obtenemos que n≥10003.53. Hay que preguntarle a 10004 pacientes .