7.6 I.C. para la media (2)
En la práctica, no es habitual conocer la desviación típica, así que esta debe estimarse a partir de la muestra, igual que se estima la media. El intervalo de confianza para la media de una variable aleatoria normal, con desviación típica desconocida, tiene la siguiente forma:
\[ \left( \bar{x}\pm t_{n-1,\alpha /2}\frac{\hat{S}_{n-1}}{\sqrt{n}} \right) , \]
siendo \(t_{n-1,\alpha /2}\) el valor de una \(t\) de Student con \(n-1\) grados de libertad que deja a la derecha \(\alpha /2\) de área (mismo significado que en el caso anterior, pero debemos buscar dicho valor en la densidad \(t\) con \(n-1\) grados de libertad). \(\hat{S}_{n-1}\) es la cuasi-desviación típica muestral, es decir la raiz cuadrada de la cuasi-varianza muestral.
Por ejemplo, supongamos \(\alpha = 0.05\) y el tamaño de muestra es \(10\). El valor del que hablamos es
qt(0.05/2, df=9)
## [1] -2.262
library(ggplot2)
library(mosaic)
plotDist("t", df = 9, groups = x < 2.26, type = "h")
Con los datos del ejemplo anterior, vamos a calcular rápidamente el intervalo de confianza. En R, debemos utilizar la orden t.test
que, en realidad, es para hacer un contraste de hipótesis. Sin embargo, a mayores, obtenemos el intervalo de confianza.
x=c(41.60, 41.48, 42.34, 41.95, 41.86,
42.41, 41.72, 42.26, 41.81, 42.04)
y=t.test(x, mu=0, conf.level=0.9)
y$conf.int
## [1] 41.76 42.13
## attr(,"conf.level")
## [1] 0.9
El intervalo es \((41.76, 42.12)\). Lo hemos calculado para un \(90\) (conf.level
)por ciento de confianza.
Si lo calculamos para un \(95\) y un \(99\) por ciento de confianza, respectivamente, obtenemos:
x=c(41.60, 41.48, 42.34, 41.95, 41.86,
42.41, 41.72, 42.26, 41.81, 42.04)
y=t.test(x, mu=0, conf.level=0.95)
y$conf.int
## [1] 41.72 42.17
## attr(,"conf.level")
## [1] 0.95
y=t.test(x, mu=0, conf.level=0.99)
y$conf.int
## [1] 41.62 42.27
## attr(,"conf.level")
## [1] 0.99
Vemos que los intervalos son \((41.72, 42.17)\) (al \(95\) por ciento), que es un poco más largo que el anterior; y, a la vez, el intervalo al \(99\) por ciento es \((41.62, 42.27)\) que vuelve a ser más grande.
Como parece lógico, si se desea una mayor confianza de que el parámetro buscado esté dentro del intervalo, el intervalo va a salir más grande. La única manera de obtener intervalos más pequeños sería aumentar el tamaño muestral (recordemos que la forma del intervalo es \((\bar{x}\pm t_{n-1,\alpha /2}\dfrac{\hat{S}_{n-1}}{\sqrt{n}}\)), donde la longitud es inversamente proporcional a \(\sqrt{n}\).
Como hemos dicho anteriormente, en la práctica, si de una población no se conoce la media (y por eso intentamos estimarla), es raro conocer la desviación típica. Por ello el intervalo de confianza para la media que calculan, en general, los paquetes estadísticos (como R) es este último.