7.7 I.C. para una proporción

El objetivo es construir un intervalo de confianza para la proporción de elementos (\(p\)) de una población que poseen una determinada característica (votantes de un partido político, alumnos que usan una determinada red social, elementos defectuosos…) a partir de una muestra aleatoria simple de la población.

De esta forma, consideramos la variable
\(X\) \(P(X=x_{i})\)
\(0\) \(1-p\)
\(1\) \(p\)

Es decir, la variable aleatoria que toma los valores \(1\) y \(0\) (\(1\) si tiene la característica, con probabilidad \(p\), \(0\) si no la tiene)

Tomamos entonces una muestra aleatoria simple \(X_1,\ldots,X_n\) de la variable \(X\in B(1,p)\)

Dado el nivel de confianza \(1-\alpha\),

El intervalo es:

\[ \left( \widehat{p}- z_{\alpha /2 }\sqrt{\frac{\widehat{p}(1-{\widehat{p}})}{n}} \ , \ \widehat{p}+ z_{\alpha /2} \sqrt{\frac{\widehat{p}(1-{\widehat{p}})}{n}}\right). \]

Para calcular este intervalo de confianza con R, debemos utilizar la siguiente función:

z.test <- function(x,n,p=NULL,conf.level=0.95,
           alternative="two.sided") {
ts.z <- NULL
cint <- NULL
p.val <- NULL
phat <- x/n
qhat <- 1 - phat
if(length(p) > 0) { 
q <- 1-p
SE.phat <- sqrt((p*q)/n) 
 ts.z <-  (phat - p )/SE.phat
if(ts.z<0) p.val <- 2*pnorm(ts.z) 
          else p.val<-2*(1-pnorm(ts.z))
 if(alternative=="less") {
p.val <- pnorm(ts.z)
    }
if(alternative=="greater") {
      p.val <- 1 - pnorm(ts.z)
    }
  } else {
    SE.phat <- sqrt((phat*qhat)/n)
  }
  cint <- phat + c( 
    -1*((qnorm(((1 - conf.level)/2) + 
        conf.level))*SE.phat),
    ((qnorm(((1 - conf.level)/2) + 
        conf.level))*SE.phat) )
  return(list(estimate=phat,ts.z=ts.z,
             p.val=p.val,cint=cint))
}

Esta función no solo calcula el intervalo de confianza para una proporción, sino que realiza un test de hipótesis sobre dicho parámetro, por lo que la utilizaremos en el capítulo siguiente.

Al finalizar un ensayo clínico para un trabajo fin de master, la profesora Chifuentes dispuso de una m.a.s. de \(100\) pacientes, de las cuales \(7\) dijeron no haber notado mejoría. Determinar un intervalo de confianza (con un nivel de confianza aproximado del \(99\%\)) para \(p\), proporción de pacientes que notan mejoría en la población en general.

¿Qué tamaño muestral \(n\) recomendarías para que la longitud del intervalo de confianza (con un nivel de confianza aproximado del \(95\%\)) para la proporción \(p\) fuera inferior a \(0.01\) unidades?

Solución:

Tenemos que \(n=100\) pacientes y que la proporción muestral es \(\hat{p}=\dfrac{93}{100}=0.93\)

El intervalo de confianza es:

\[ \left(0.93\pm 2.575{\sqrt{\dfrac{0.93\times 0.07}{100}}}\right)=\left(0.93\pm 0.0657 \right)=\left(0.8643,0.9957\right) \] Calculado con la función de R:

y=z.test(93,100, conf.level=0.99)
y$cint
## [1] 0.8643 0.9957

Respondemos ahora a la segunda parte del ejercicio:

Cálculo del tamaño muestral necesario para obtener una cierta precisión.

El intervalo de confianza está centrado en \(\hat{p}\). Quiere esto decir que la longitud máxima del intervalo (llamémosle \(L\))

\[ 2\cdot z_{\alpha /2 }{\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}}\leq L\iff n\geq \dfrac{ 4\hat{p}(1-\hat{p}) z_{\alpha /2}^{2} }{L^{2}}=4\hat{p}(1-\hat{p})\left(\dfrac{1.96}{0.01}\right)^2 \] Como \(\hat{p}=0.93\), obtenemos que \(n\ge 10003.53\). Hay que preguntarle a \(10004\) pacientes .