7.6 I.C. desconociendo la desviación típica

En la práctica, no es habitual conocer la desviación típica, así que esta debe estimarse a partir de la muestra, igual que se estima la media. El intervalo de confianza para la media de una variable aleatoria normal, con desviación típica desconocida, tiene la siguiente forma:

\[ \left( \bar{x}\pm t_{n-1,\alpha /2}\frac{\hat{S}_{n-1}}{\sqrt{n}} \right) , \]

siendo \(t_{n-1,\alpha /2}\) el valor de una \(t\) de Student con \(n-1\) grados de libertad que deja a la derecha \(\alpha /2\) de área (mismo significado que en el caso anterior, pero debemos buscar dicho valor en la densidad \(t\) con \(n-1\) grados de libertad). \(\hat{S}_{n-1}\) es la cuasi-desviación típica muestral, es decir la raiz cuadrada de la cuasi-varianza muestral

Por ejemplo, supongamos \(\alpha = 0.05\) y el tamaño de muestra es 10. El valor del que hablamos es

qt(0.05/2, df=9)
## [1] -2.262
library(ggplot2)
library(mosaic)
plotDist("t", df = 9, groups = x < 2.26, type = "h")

# manipulate(xpnorm(c, mean=0, sd=1), c=slider(-2,2))

Con los datos del ejemplo anterior, vamos a calcular rápidamente el intervalo de confianza:

x=c(41.60, 41.48, 42.34, 41.95, 41.86, 42.41, 41.72, 42.26, 41.81, 42.04)
y=t.test(x, mu=0, conf.level=0.9)

El intervalo es \((41,76, 42.12)\). Lo hemos calculado para un 90 por ciento de confianza.

Si lo calculamos para un 95 y un 99 por ciento de confianza, respectivamente, obtenemos:

x=c(41.60, 41.48, 42.34, 41.95, 41.86, 42.41, 41.72, 42.26, 41.81, 42.04)
y=t.test(x, mu=0, conf.level=0.95)
y$conf.int
## [1] 41.72 42.17
## attr(,"conf.level")
## [1] 0.95
y=t.test(x, mu=0, conf.level=0.99)
y$conf.int
## [1] 41.62 42.27
## attr(,"conf.level")
## [1] 0.99

Vemos que los intervalos son \((41.72, 42.17)\) (al 95 por ciento), que es un poco más largo que el anterior; y, a la vez, el intervalo al 99 por ciento es \((41.62, 42.27)\) que vuelve a ser más grande.

Como parece lógico, si se desea una mayor confianza de que el parámetro buscado esté dentro del intervalo, el intervalo va a salir más grande. La única manera de obtener intervalos más pequeños sería aumentar el tamaño muestral (recordemos que la forma del intervalo es \((\bar{x}\pm t_{n-1,\alpha /2}\dfrac{\hat{S}_{n-1}}{\sqrt{n}}\)), donde la longitud es inversamente proporcional a \(\sqrt{n}\).