8.9 Para el cociente de varianzas
Si se quiere contrastar que la proporción de las varianzas de las \(2\) variables \(X\) e \(Y\) es igual a un número concreto (una constante):
\(H_{0}:\frac{\sigma _{2}^{2}}{\sigma_{1}^{2}}=cte,\)
se utiliza el siguiente estimador: \[ T=\frac{\hat{S}_{n-1}^{2}\sigma _{2}^{2}}{\hat{S}_{m-1}^{2}\sigma _{1}^{2}}\ \ \in \ \ F_{n-1,m-1}. \]
Fijémonos que, si lo que interesa es contrastar si las \(2\) variables tienen la misma varianza, entonces esa constante es igual a \(1\), de manera que el estadístico será:
\[ T=\frac{\hat{S}_{n-1}^{2} }{\hat{S}_{m-1}^{2} }\ \ \in \ \ F_{n-1,m-1}, \] esto es, hacer el cociente entre las cuasi-varianzas muestrales. Ese estadístico (si la hipótesis nula de que las varianzas teóricas son iguales es cierta) sigue una distribución \(F\) de Fisher-Snedecor de \(n-1\) y \(m-1\) grados de libertad.
x=c(104,88,100,98,102,92,96,100,96,96)
y=c(100,102,96,106,110,110,120,112,112,90)
var.test(x, y)
##
## F test to compare two variances
##
## data: x and y
## F = 0.28, num df = 9, denom df = 9, p-value =
## 0.08
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.07077 1.14703
## sample estimates:
## ratio of variances
## 0.2849
En este caso, el \(p\)-valor del test es \(0.075\). Atendiendo al valor estándar \(0.05\) de decisión, no podriamos decir que las varianzas son diferentes.
8.9.1 El poder de los gráficos
Hoy en día, con la potencia gráfica de que disponemos con R y programas similares, es absurdo no acompañar este tipo de análisis con una comparativa gráfica que nos ayude en la toma de decisiones.
Para ver si las dos variables que generan las muestras que tenemos tienen medias y/o varianzas similares podemos hacer, simplemente, una comparación de las estimaciones de la densidad:
x=c(104,88,100,98,102,92,96,100,96,96)
y=c(100,102,96,106,110,110,120,112,112,90)
m1=length(x) # tamaño muestra x
m2=length(y) # tamaño muestra y
m=c(rep(1,m1), rep(2,m2))
m=as.factor(m)
datos<- data.frame(m,c(x,y))
names(datos)<- c("muestra","variable")
library(ggplot2)
ggplot(datos)+ geom_density(aes(x=variable),adjust=2) +
aes(color = muestra)
Como observamos en la gráfica (Figura 8.9), tanto las medias como las varianzas (variabilidad) son diferentes.
Hagamos ahora un ejemplo con un fichero de datos real, que ya hemos utilizado anteriormente. El fichero “body_dat.csv”, que utilizamos en el capítulo de la distribución normal, contiene datos antropométricos de hombres y mujeres. Vamos a realizar una comparación de la variable estatura (height),
body <- read_csv("Data/body_dat.csv")
body <- within(body, {
sexo <- factor(sexo, labels=c('mujer','hombre'))
})
N=nrow(body)
y=rep(0,N)
y1<-data.frame(y)
names(y1)<-"ceros"
body2 <-bind_cols(body, y1)
ggplot(body2)+
geom_density(aes(x=height), adjust=2) +
aes(colour = sexo) + labs(title="Altura", y=" " ) +
theme(legend.position = "top") +
geom_point(aes(x=height, y=ceros), size=1)
Gráficamente (Figura 8.10), observamos que las medias difieren, pero las varianzas no lo parecen.
x1=body2$height[body2$sexo=="mujer"]
x2=body2$height[body2$sexo=="hombre"]
t.test(x1,x2)$p.value
## [1] 9.217e-71
var.test(x1,x2)$p.value
## [1] 0.139