7.4 Prueba t para muestras pareadas

En los ejemplos 7.1 y 7.2 teníamos dos grupos de estudiantes de dos cursos distintos, pero en muchos tenemos observaciones pareadas o datos interdependientes. Esto es muy típico de investigaciones experimentales en los que medimos la variable dependiente antes y después19 de cambiar la variable independiente. Si, por ejemplo, queremos investigar el efecto de la cafeína sobre el pulso sanguineo podríamos obtener una muestra de personas y tomarles el pulso antes y después de hacerles tomar una taza de café.

En este sacamos las diferencias entre las dos medidas y comparamos estas diferencias con la distribución teórica. La fórmula está en la definición 7.4.

Definición 7.4 (Prueba t para muestras dependientes) \[ t = {{\bar{X}_D}\over{s_D\over{\sqrt{n}}}} \]

donde:

  • \({\bar{X}_D}\): media de las diferencias
  • \(s_D\): la desviación estándar de las diferencias
  • n: número de pares de observaciones.

Lo que nos va a decir la prueba t en este caso es si la diferencia es significativamente diferente a cero: Si la variable independiente no tiene efecto entonces debería dar lo mismo medir antes o después. Las hipótesis planteadas son, por tanto:

\(H_0: \bar{X}_D = 0\),

\(H_1: \bar{X}_D \neq 0\).

Ejemplo 7.5 (Prueba t dependiente)

En este ejemplo (Shier 2004) vamos a suponer que tenemos un grupo de veinte estudiantes y queremos investigar el efecto del uso de algún recurso didáctico, por ejemplo un video en YouTube, en su destreza para resolver cierto tipo de problemas matemáticos. Les tomamos un test inicial, pedimos que miren el video y cuando terminen tomamos otro test. Ahora tenemos dos observaciones de cada estudiante. Calculamos la diferencia entre ellos. El resultado de todo esto está resumido en la tabla 7.1.

Tabla 7.1: Resultados de dos tests de matemáticas
Nombre Antes Después Diferencia
Manuel 18 22 4
Miguel 21 25 4
José 16 17 1
Antonio 22 24 2
Dolores 19 16 -3
Manuela 24 29 5
Pedro 17 20 3
Lucía 21 23 2
Cecilia 23 19 -4
Juan 18 20 2
Paula 14 15 1
Francisco 16 15 -1
Angel 16 18 2
Soledad 19 26 7
Luis 18 18 0
Cristina 20 24 4
Laura 12 18 6
Carlos 22 25 3
Carmen 15 19 4
Javier 17 16 -1

La media de las diferencias es 2.05 con una desviación estándar de 2,837. Entonces tenemos:

\[ t = {{\bar{X}_D}\over{s_D\over{\sqrt{n}}}} = {{2,05}\over{2,837\over{\sqrt{20}}}}=3,231. \]

Buscando este valor en la tabla de valores críticos con 19 (N-1) grados de libertad vemos que sí podemos rechazar la hipótesis nula y concluir que hay una diferencia estadísticamente significativa entre los resultados de los dos tests.

Ejemplo 7.6 (Ejemplo en R)

Para reproducir en R lo que hicimos en el ejemplo 7.5 tenemos que tener sumo cuidado con el ingreso de los datos. Ya que hay dos observaciones por estudiante lo más conveniente es ponerlos en un data.frame. Vamos a incluir los nombres de los estudiantes, si bien no son necesarios para el cálculo sirve mantener la referencia para poder verificar el correcto ingreso de los datos con los tests. Vamos a ingresar los datos a mano aunque en la práctica seguramente se leyera de un archivo externo de R. Usamos la función t.test con un paramertro adiciónal paired=TRUE para avisar que son datos pareados.

# Ingresamos los datos
 datos.pre.post = data.frame(
   Nombre = c('Luis', 'Javier', 'Pedro', 'Soledad', 'Manuel', 'Cecilia', 'Cristina', 'Angel', 'Manuela', 'José', 'Juan', 'Antonio', 'Carmen', 'Carlos ', 'Francisco', 'Miguel', 'Laura', 'Lucía', 'Paula', 'Dolores'),
   Pre = c(18, 21, 16, 22, 19, 24, 17, 21, 23, 18, 14, 16, 16, 19, 18, 20, 12, 22, 15, 17),
   Post = c(22, 25, 17, 24, 16, 29, 20, 23, 19, 20, 15, 15, 18, 26, 18, 24, 18, 25, 19, 16)
 )

# Verificamos la homogeneidad de varianzas
var.test(datos.pre.post$Pre,datos.pre.post$Post)
## 
##  F test to compare two variances
## 
## data:  datos.pre.post$Pre and datos.pre.post$Post
## F = 0.60329, num df = 19, denom df = 19, p-value = 0.2795
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.238790 1.524186
## sample estimates:
## ratio of variances 
##          0.6032913
# Verificamos que los datos tienen distribución normal
shapiro.test(datos.pre.post$Pre)
## 
##  Shapiro-Wilk normality test
## 
## data:  datos.pre.post$Pre
## W = 0.98197, p-value = 0.9569
shapiro.test(datos.pre.post$Post)
## 
##  Shapiro-Wilk normality test
## 
## data:  datos.pre.post$Post
## W = 0.94235, p-value = 0.2654
# Realizamos prueba t

t.test(datos.pre.post$Post,datos.pre.post$Pre, paired = TRUE)
## 
##  Paired t-test
## 
## data:  datos.pre.post$Post and datos.pre.post$Pre
## t = 3.2313, df = 19, p-value = 0.004395
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  0.7221251 3.3778749
## sample estimates:
## mean of the differences 
##                    2.05

Vemos que el resultado tiene significanza estadística alta (\(p\leqslant0,01\)). El cálculo de R también nos da un intervalo de confianza al 95%.

Referencias

Shier, Rosie. 2004. “Paired t-Tests.” http://www.statstutor.ac.uk/resources/uploaded/paired-t-test.pdf.

  1. también se conoce como «medidas repetidas»↩︎