8.9 Para el cociente de varianzas

Si se quiere contrastar que la proporción de las varianzas de las \(2\) variables \(X\) e \(Y\) es igual a un número concreto (una constante):

\(H_{0}:\frac{\sigma _{2}^{2}}{\sigma_{1}^{2}}=cte,\)

se utiliza el siguiente estimador: \[ T=\frac{\hat{S}_{n-1}^{2}\sigma _{2}^{2}}{\hat{S}_{m-1}^{2}\sigma _{1}^{2}}\ \ \in \ \ F_{n-1,m-1}. \]

Fijémonos que, si lo que interesa es contrastar si las \(2\) variables tienen la misma varianza, entonces esa constante es igual a \(1\), de manera que el estadístico será:

\[ T=\frac{\hat{S}_{n-1}^{2} }{\hat{S}_{m-1}^{2} }\ \ \in \ \ F_{n-1,m-1}, \] esto es, hacer el cociente entre las cuasi-varianzas muestrales. Ese estadístico (si la hipótesis nula de que las varianzas teóricas son iguales es cierta) sigue una distribución \(F\) de Fisher-Snedecor de \(n-1\) y \(m-1\) grados de libertad.

Con los datos del ejercicio anterior, contrastar si las varianzas de las variables originales pueden considerarse iguales o no.
x=c(104,88,100,98,102,92,96,100,96,96)
y=c(100,102,96,106,110,110,120,112,112,90)
var.test(x, y) 
## 
##  F test to compare two variances
## 
## data:  x and y
## F = 0.28, num df = 9, denom df = 9, p-value =
## 0.08
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.07077 1.14703
## sample estimates:
## ratio of variances 
##             0.2849

En este caso, el \(p\)-valor del test es \(0.075\). Atendiendo al valor estándar \(0.05\) de decisión, no podriamos decir que las varianzas son diferentes.

8.9.1 El poder de los gráficos

Hoy en día, con la potencia gráfica de que disponemos con R y programas similares, es absurdo no acompañar este tipo de análisis con una comparativa gráfica que nos ayude en la toma de decisiones.

Para ver si las dos variables que generan las muestras que tenemos tienen medias y/o varianzas similares podemos hacer, simplemente, una comparación de las estimaciones de la densidad:

x=c(104,88,100,98,102,92,96,100,96,96)
y=c(100,102,96,106,110,110,120,112,112,90)
m1=length(x) # tamaño muestra x
m2=length(y) # tamaño muestra y
m=c(rep(1,m1), rep(2,m2))
m=as.factor(m)
datos<- data.frame(m,c(x,y))
names(datos)<- c("muestra","variable")
library(ggplot2)
ggplot(datos)+ geom_density(aes(x=variable),adjust=2) +
  aes(color = muestra)
Densidades de las variables x e y.

Figura 8.9: Densidades de las variables x e y.

Como observamos en la gráfica (Figura 8.9), tanto las medias como las varianzas (variabilidad) son diferentes.

Hagamos ahora un ejemplo con un fichero de datos real, que ya hemos utilizado anteriormente. El fichero “body_dat.csv”, que utilizamos en el capítulo de la distribución normal, contiene datos antropométricos de hombres y mujeres. Vamos a realizar una comparación de la variable estatura (height),

body  <- read_csv("Data/body_dat.csv")
 
body <- within(body, {
  sexo <- factor(sexo, labels=c('mujer','hombre'))
})
 
N=nrow(body)
y=rep(0,N)
y1<-data.frame(y)
names(y1)<-"ceros"
body2 <-bind_cols(body, y1)
 
ggplot(body2)+ 
  geom_density(aes(x=height), adjust=2) + 
  aes(colour = sexo) + labs(title="Altura", y=" " ) +
  theme(legend.position = "top")         +
  geom_point(aes(x=height, y=ceros),  size=1)
Densidad de la estatura de hombres y mujeres.

Figura 8.10: Densidad de la estatura de hombres y mujeres.

Gráficamente (Figura 8.10), observamos que las medias difieren, pero las varianzas no lo parecen.

x1=body2$height[body2$sexo=="mujer"]
x2=body2$height[body2$sexo=="hombre"]
t.test(x1,x2)$p.value
## [1] 9.217e-71
var.test(x1,x2)$p.value
## [1] 0.139