7.4 Prueba t para muestras pareadas
En los ejemplos 7.1 y 7.2 teníamos dos grupos de estudiantes de dos cursos distintos, pero en muchos tenemos observaciones pareadas o datos interdependientes. Esto es muy típico de investigaciones experimentales en los que medimos la variable dependiente antes y después19 de cambiar la variable independiente. Si, por ejemplo, queremos investigar el efecto de la cafeína sobre el pulso sanguineo podríamos obtener una muestra de personas y tomarles el pulso antes y después de hacerles tomar una taza de café.
En este sacamos las diferencias entre las dos medidas y comparamos estas diferencias con la distribución teórica. La fórmula está en la definición 7.4.
donde:
- \({\bar{X}_D}\): media de las diferencias
- \(s_D\): la desviación estándar de las diferencias
- n: número de pares de observaciones.
Lo que nos va a decir la prueba t en este caso es si la diferencia es significativamente diferente a cero: Si la variable independiente no tiene efecto entonces debería dar lo mismo medir antes o después. Las hipótesis planteadas son, por tanto:
\(H_0: \bar{X}_D = 0\),
\(H_1: \bar{X}_D \neq 0\).
En este ejemplo (Shier 2004) vamos a suponer que tenemos un grupo de veinte estudiantes y queremos investigar el efecto del uso de algún recurso didáctico, por ejemplo un video en YouTube, en su destreza para resolver cierto tipo de problemas matemáticos. Les tomamos un test inicial, pedimos que miren el video y cuando terminen tomamos otro test. Ahora tenemos dos observaciones de cada estudiante. Calculamos la diferencia entre ellos. El resultado de todo esto está resumido en la tabla 7.1.
Nombre | Antes | Después | Diferencia |
---|---|---|---|
Manuel | 18 | 22 | 4 |
Miguel | 21 | 25 | 4 |
José | 16 | 17 | 1 |
Antonio | 22 | 24 | 2 |
Dolores | 19 | 16 | -3 |
Manuela | 24 | 29 | 5 |
Pedro | 17 | 20 | 3 |
Lucía | 21 | 23 | 2 |
Cecilia | 23 | 19 | -4 |
Juan | 18 | 20 | 2 |
Paula | 14 | 15 | 1 |
Francisco | 16 | 15 | -1 |
Angel | 16 | 18 | 2 |
Soledad | 19 | 26 | 7 |
Luis | 18 | 18 | 0 |
Cristina | 20 | 24 | 4 |
Laura | 12 | 18 | 6 |
Carlos | 22 | 25 | 3 |
Carmen | 15 | 19 | 4 |
Javier | 17 | 16 | -1 |
La media de las diferencias es 2.05 con una desviación estándar de 2,837. Entonces tenemos:
\[ t = {{\bar{X}_D}\over{s_D\over{\sqrt{n}}}} = {{2,05}\over{2,837\over{\sqrt{20}}}}=3,231. \]
Buscando este valor en la tabla de valores críticos con 19 (N-1) grados de libertad vemos que sí podemos rechazar la hipótesis nula y concluir que hay una diferencia estadísticamente significativa entre los resultados de los dos tests.
Para reproducir en R lo que hicimos en el ejemplo 7.5 tenemos que tener sumo cuidado con el ingreso de los datos. Ya que hay dos observaciones por estudiante lo más conveniente es ponerlos en un data.frame
. Vamos a incluir los nombres de los estudiantes, si bien no son necesarios para el cálculo sirve mantener la referencia para poder verificar el correcto ingreso de los datos con los tests. Vamos a ingresar los datos a mano aunque en la práctica seguramente se leyera de un archivo externo de R. Usamos la función t.test
con un paramertro adiciónal paired=TRUE
para avisar que son datos pareados.
# Ingresamos los datos
= data.frame(
datos.pre.post Nombre = c('Luis', 'Javier', 'Pedro', 'Soledad', 'Manuel', 'Cecilia', 'Cristina', 'Angel', 'Manuela', 'José', 'Juan', 'Antonio', 'Carmen', 'Carlos ', 'Francisco', 'Miguel', 'Laura', 'Lucía', 'Paula', 'Dolores'),
Pre = c(18, 21, 16, 22, 19, 24, 17, 21, 23, 18, 14, 16, 16, 19, 18, 20, 12, 22, 15, 17),
Post = c(22, 25, 17, 24, 16, 29, 20, 23, 19, 20, 15, 15, 18, 26, 18, 24, 18, 25, 19, 16)
)
# Verificamos la homogeneidad de varianzas
var.test(datos.pre.post$Pre,datos.pre.post$Post)
##
## F test to compare two variances
##
## data: datos.pre.post$Pre and datos.pre.post$Post
## F = 0.60329, num df = 19, denom df = 19, p-value = 0.2795
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.238790 1.524186
## sample estimates:
## ratio of variances
## 0.6032913
# Verificamos que los datos tienen distribución normal
shapiro.test(datos.pre.post$Pre)
##
## Shapiro-Wilk normality test
##
## data: datos.pre.post$Pre
## W = 0.98197, p-value = 0.9569
shapiro.test(datos.pre.post$Post)
##
## Shapiro-Wilk normality test
##
## data: datos.pre.post$Post
## W = 0.94235, p-value = 0.2654
# Realizamos prueba t
t.test(datos.pre.post$Post,datos.pre.post$Pre, paired = TRUE)
##
## Paired t-test
##
## data: datos.pre.post$Post and datos.pre.post$Pre
## t = 3.2313, df = 19, p-value = 0.004395
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 0.7221251 3.3778749
## sample estimates:
## mean of the differences
## 2.05
Vemos que el resultado tiene significanza estadística alta (\(p\leqslant0,01\)). El cálculo de R también nos da un intervalo de confianza al 95%.
Referencias
también se conoce como «medidas repetidas»↩︎