6.7 Variables aleatorias obtenidas a partir de la variable normal

Definimos, a continuación, tres variables aleatorias muy utilizadas en la inferencia estadística, y que se construyen a partir de la variable aleatoria normal.

6.7.1 Variable Chi-cuadrado (Pearson)

Se escribe variable \(\chi^{2}.\) El hecho de que su función de densidad dependa de un número entero positivo llamado grados de libertad hace que se hable de la distribución \(\chi _{k}^{2}\) con \(k\) grados de libertad. Así, existe una variable para cada valor de \(k\) mayor o igual a 1. Esta variable aparece cuando se suman \(k\) variables aleatorias independientes con distribución \(N(0,1),\) elevadas al cuadrado.
\[ \chi _{k}^{2}=X_{1}^{2}+X_{2}^{2}+...+X_{k}^{2}, \ \text{con} \ X_{i} \in N \left( 0,1 \right). \]

Esta distribución es necesaria para la construcción de intervalos de confianza y la realización de muchos contrastes de hipótesis.

En la Figura 6.27 dibujamos con R las gráficas de las funciones de densidad de la variable Chi-cuadrado con \(1,2,4,10\) y \(20\) grados de libertad, respectivamente. Fijémonos que, comenzando con uno y dos grados de libertad (df en la gráfica, de degree freedom), donde la función de densidad es parecida a la función de densidad de una variable exponencial, la curva se vuelve asimétrica a la derecha y, a medida que el número de grados de libertad se hace más grande (\(20\) en la gráfica) la curva se va pareciendo a la campana de Gauss. Esto sucede por la definición de la variable: al ser una suma de variables, por el teorema central del límite, la densidad de la suma se va aproximando a la densidad de la variable normal.

curve(dchisq(x, df = 1), xlim = c(0, 20), ylim = c(0, 0.2), 
  xlab = "x", ylab = "Función de densidad")
curve(dchisq(x, df = 2), col = "red", lty = 2, add = T)
curve(dchisq(x, df = 4), col = "blue", lty = 3, add = T)
curve(dchisq(x, df = 10), col = "green", lty = 4, add = T)
curve(dchisq(x, df = 20), col = "magenta", lty = 5, add = T)
abline(h = 0, col = "gray")
legend("topright", c("1", "2", "4", "10", "20"), col = c("black", 
  "red", "blue", "green", "magenta"), lty = c(1, 2, 3, 
  4, 5), bty = "n")
Varias distribuciones Chi-cuadrado para distintos grados de libertad.

Figura 6.27: Varias distribuciones Chi-cuadrado para distintos grados de libertad.

6.7.2 Variable t de Student

William Gosset, el inventor.

Figura 6.28: William Gosset, el inventor.

Aparece a partir de la distribución normal y la Chi-cuadrado, puesto que si \(Z\) es una variable \(N(0,1)\), e \(Y\) es una variable aleatoria independiente de \(Z,\) con distribución Chi-cuadrado con \(n\) grados de libertad, entonces la variable
\[ t_{n}=\frac{Z}{\sqrt[]{Y/n}} \] es una variable con distribución \(t\) con \(n\) grados de libertad. La distribución \(t\) de Student (con \(n\) grados de libertad) es una variable aleatoria cuya función de densidad también tiene forma de campana y es simétrica (Figura 6.29). Es, por lo tanto, muy parecida a la densidad de la variable normal (de hecho, la media o esperanza de cualquier variable \(t\) de Student es cero). Sin embargo, tiene colas más pesadas que la campana de Gauss, lo que significa que el área o probabilidad en los extremos izquierdo y derecho de la curva es mayor que en el caso de la distribución normal. Esto pueden visualizarse en la gráfica siguiente, donde se representan diferentes valores del parámetro \(n\).

Hay que reseñar que, a medida que el número de grados de libertad aumenta, la curva se parece cada vez más a la campana de Gauss, lo cual sucede a partir de valores como \(n=40,\) siendo la coincidencia total para \(n= \infty.\)

curve(dt(x,df=1),xlim=c(-3,3),ylim=c(0,0.4),
      xlab='x',ylab='Función de densidad')
curve(dt(x,df=2),col='red', lty=2,add=T)
curve(dt(x,df=4),col='blue',lty=3, add=T)   
curve(dt(x,df=10),col='green',lty=4, add=T) 
curve(dt(x,df=20),col='magenta',lty=5, add=T)   
abline(h=0, col="gray")
legend("topright",c("1","2","4","10"),
col=c("black","red","blue", "green","magenta"),
lty=c(1,2,3,4,5),bty="n")
Varias distribuciones t para distintos grados de libertad.

Figura 6.29: Varias distribuciones t para distintos grados de libertad.

El interés de esta variable es, igual que en el caso de la variable Chi-cuadrado, su aparición en la construcción de intervalos de confianza y realización de contrastes de hipótesis.

La fórmula de la función de densidad de la variable \(t\) fue publicada en 1908 por William Sealy Gosset (1876-1937), mientras trabajaba en la fábrica de cervezas Guinness, en Dublin. Existe la anécdota de que el origen del seudónimo Student, utilizado por Gosset para escribir el artículo de investigación matemático donde define la variable, vino motivado porque la dirección de la fabrica impedía a los empleados la publicación de trabajos científicos.

6.7.3 Variable F de Fisher-Snedecor

La distribución \(F\) es conocida habitualmente como la distribución \(F\) de Snedecor, o distribución \(F\) de Fisher-Snedecor, en honor a R. Fisher y George W. Snedecor (1881-1974). Su función de densidad es bastante complicada, y depende de dos parámetros \(n_1\) y \(n_2\) que son sus grados de libertad.

Esta distribución aparece a través de la distribución \(\chi^2\), puesto que si \(X\) sigue una distribución \(\chi^2_{n_1}\), e \(Y\) es otra variable (independiente de \(X\)) con distribución \(\chi^2_{n_2}\), entonces la variable \(W\) definida como

\[W=\dfrac{X/n_1}{Y/n_2}\]

sigue una distribución \(F\) con \(n_1\) y \(n_2\) grados de libertad. En la Figura 6.30 vemos algunos casos concretos para la densidad (fuente: wikipedia).

Representación de la función de densidad de la distribución F para algunos parámetros.

Figura 6.30: Representación de la función de densidad de la distribución F para algunos parámetros.

El interés de su estudio corresponde a ser una variable fundamental en la teoría de los contrastes de hipótesis (Anovas).