7.4 Prueba t para muestras pareadas

En los ejemplos 7.1 y 7.2 teníamos dos grupos de estudiantes de dos cursos distintos, pero en muchos tenemos observaciones pareadas o datos interdependientes. Esto es muy típico de investigaciones experimentales en los que medimos la variable dependiente antes y después19 de cambiar la variable independiente. Si, por ejemplo, queremos investigar el efecto de la cafeína sobre el pulso sanguineo podríamos obtener una muestra de personas y tomarles el pulso antes y después de hacerles tomar una taza de café.

En este sacamos las diferencias entre las dos medidas y comparamos estas diferencias con la distribución teórica. La fórmula está en la definición 7.4.

Definición 7.4 (Prueba t para muestras dependientes) \[ t = {{\bar{X}_D}\over{s_D\over{\sqrt{n}}}} \]

donde:

  • \({\bar{X}_D}\): media de las diferencias
  • \(s_D\): la desviación estándar de las diferencias
  • n: número de pares de observaciones.

Lo que nos va a decir la prueba t en este caso es si la diferencia es significativamente diferente a cero: Si la variable independiente no tiene efecto entonces debería dar lo mismo medir antes o después. Las hipótesis planteadas son, por tanto:

\(H_0: \bar{X}_D = 0\),

\(H_1: \bar{X}_D \neq 0\).

Ejemplo 7.5 (Prueba t dependiente)

En este ejemplo (Shier 2004) vamos a suponer que tenemos un grupo de veinte estudiantes y queremos investigar el efecto del uso de algún recurso didáctico, por ejemplo un video en YouTube, en su destreza para resolver cierto tipo de problemas matemáticos. Les tomamos un test inicial, pedimos que miren el video y cuando terminen tomamos otro test. Ahora tenemos dos observaciones de cada estudiante. Calculamos la diferencia entre ellos. El resultado de todo esto está resumido en la tabla 7.1.

Tabla 7.1: Resultados de dos tests de matemáticas
Nombre Antes Después Diferencia
Luis 18 22 4
Javier 21 25 4
Pedro 16 17 1
Soledad 22 24 2
Manuel 19 16 -3
Cecilia 24 29 5
Cristina 17 20 3
Angel 21 23 2
Manuela 23 19 -4
José 18 20 2
Juan 14 15 1
Antonio 16 15 -1
Carmen 16 18 2
Carlos 19 26 7
Francisco 18 18 0
Miguel 20 24 4
Laura 12 18 6
Lucía 22 25 3
Paula 15 19 4
Dolores 17 16 -1

La media de las diferencias es 2.05 con una desviación estándar de 2,837. Entonces tenemos:

\[ t = {{\bar{X}_D}\over{s_D\over{\sqrt{n}}}} = {{2,05}\over{2,837\over{\sqrt{20}}}}=3,231. \]

Buscando este valor en la tabla de valores críticos con 19 (N-1) grados de libertad vemos que sí podemos rechazar la hipótesis nula y concluir que hay una diferencia estadísticamente significativa entre los resultados de los dos tests.

Ejemplo 7.6 (Ejemplo en R)

Para reproducir en R lo que hicimos en el ejemplo 7.5 tenemos que tener sumo cuidado con el ingreso de los datos. Ya que hay dos observaciones por estudiante lo más conveniente es ponerlos en un data.frame. Vamos a incluir los nombres de los estudiantes, si bien no son necesarios para el cálculo sirve mantener la referencia para poder verificar el correcto ingreso de los datos con los tests. Vamos a ingresar los datos a mano aunque en la práctica seguramente se leyera de un archivo externo de R. Usamos la función t.test con un paramertro adiciónal paired=TRUE para avisar que son datos pareados.

## 
##  F test to compare two variances
## 
## data:  datos.pre.post$Pre and datos.pre.post$Post
## F = 0.60329, num df = 19, denom df = 19, p-value = 0.2795
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.238790 1.524186
## sample estimates:
## ratio of variances 
##          0.6032913
## 
##  Shapiro-Wilk normality test
## 
## data:  datos.pre.post$Pre
## W = 0.98197, p-value = 0.9569
## 
##  Shapiro-Wilk normality test
## 
## data:  datos.pre.post$Post
## W = 0.94235, p-value = 0.2654
## 
##  Paired t-test
## 
## data:  datos.pre.post$Post and datos.pre.post$Pre
## t = 3.2313, df = 19, p-value = 0.004395
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  0.7221251 3.3778749
## sample estimates:
## mean of the differences 
##                    2.05

Vemos que el resultado tiene significanza estadística alta (\(p\leqslant0,01\)). El cálculo de R también nos da un intervalo de confianza al 95%.

Referencias

Shier, Rosie. 2004. “Paired T-Tests.” http://www.statstutor.ac.uk/resources/uploaded/paired-t-test.pdf.


  1. también se conoce como «medidas repetidas»