7.4 Prueba t para muestras pareadas

En los ejemplos 7.1 y 7.2 teníamos dos grupos de estudiantes de dos cursos distintos, pero en muchos tenemos observaciones pareadas o datos interdependientes. Esto es muy típico de investigaciones experimentales en los que medimos la variable dependiente antes y después¹⁹ de cambiar la variable independiente. Si, por ejemplo, queremos investigar el efecto de la cafeína sobre el pulso sanguineo podríamos obtener una muestra de personas y tomarles el pulso antes y después de hacerles tomar una taza de café.

En este sacamos las diferencias entre las dos medidas y comparamos estas diferencias con la distribución teórica. La fórmula está en la definición 7.4.

Definición 7.4 (Prueba t para muestras dependientes)

$t = {{\bar{X}_D}\over{s_D\over{\sqrt{n}}}}$

donde:

${\bar{X}_D}$ : media de las diferencias
$s_D$ : la desviación estándar de las diferencias
n: número de pares de observaciones.

Lo que nos va a decir la prueba t en este caso es si la diferencia es significativamente diferente a cero: Si la variable independiente no tiene efecto entonces debería dar lo mismo medir antes o después. Las hipótesis planteadas son, por tanto:

$H_0: \bar{X}_D = 0$ ,

$H_1: \bar{X}_D \neq 0$ .

Ejemplo 7.5 (Prueba t dependiente)

En este ejemplo (Shier 2004) vamos a suponer que tenemos un grupo de veinte estudiantes y queremos investigar el efecto del uso de algún recurso didáctico, por ejemplo un video en YouTube, en su destreza para resolver cierto tipo de problemas matemáticos. Les tomamos un test inicial, pedimos que miren el video y cuando terminen tomamos otro test. Ahora tenemos dos observaciones de cada estudiante. Calculamos la diferencia entre ellos. El resultado de todo esto está resumido en la tabla 7.1.

Tabla 7.1: Resultados de dos tests de matemáticas
Nombre	Antes	Después	Diferencia
Manuel	18	22	4
Miguel	21	25	4
José	16	17	1
Antonio	22	24	2
Dolores	19	16	-3
Manuela	24	29	5
Pedro	17	20	3
Lucía	21	23	2
Cecilia	23	19	-4
Juan	18	20	2
Paula	14	15	1
Francisco	16	15	-1
Angel	16	18	2
Soledad	19	26	7
Luis	18	18	0
Cristina	20	24	4
Laura	12	18	6
Carlos	22	25	3
Carmen	15	19	4
Javier	17	16	-1

La media de las diferencias es 2.05 con una desviación estándar de 2,837. Entonces tenemos:

$t = {{\bar{X}_D}\over{s_D\over{\sqrt{n}}}} = {{2,05}\over{2,837\over{\sqrt{20}}}}=3,231.$

Buscando este valor en la tabla de valores críticos con 19 (N-1) grados de libertad vemos que sí podemos rechazar la hipótesis nula y concluir que hay una diferencia estadísticamente significativa entre los resultados de los dos tests.

Ejemplo 7.6 (Ejemplo en R)

Para reproducir en R lo que hicimos en el ejemplo 7.5 tenemos que tener sumo cuidado con el ingreso de los datos. Ya que hay dos observaciones por estudiante lo más conveniente es ponerlos en un data.frame. Vamos a incluir los nombres de los estudiantes, si bien no son necesarios para el cálculo sirve mantener la referencia para poder verificar el correcto ingreso de los datos con los tests. Vamos a ingresar los datos a mano aunque en la práctica seguramente se leyera de un archivo externo de R. Usamos la función t.test con un paramertro adiciónal paired=TRUE para avisar que son datos pareados.

# Ingresamos los datos
 datos.pre.post = data.frame(
   Nombre = c('Luis', 'Javier', 'Pedro', 'Soledad', 'Manuel', 'Cecilia', 'Cristina', 'Angel', 'Manuela', 'José', 'Juan', 'Antonio', 'Carmen', 'Carlos ', 'Francisco', 'Miguel', 'Laura', 'Lucía', 'Paula', 'Dolores'),
   Pre = c(18, 21, 16, 22, 19, 24, 17, 21, 23, 18, 14, 16, 16, 19, 18, 20, 12, 22, 15, 17),
   Post = c(22, 25, 17, 24, 16, 29, 20, 23, 19, 20, 15, 15, 18, 26, 18, 24, 18, 25, 19, 16)
 )

# Verificamos la homogeneidad de varianzas
var.test(datos.pre.post$Pre,datos.pre.post$Post)

## 
##  F test to compare two variances
## 
## data:  datos.pre.post$Pre and datos.pre.post$Post
## F = 0.60329, num df = 19, denom df = 19, p-value = 0.2795
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.238790 1.524186
## sample estimates:
## ratio of variances 
##          0.6032913

# Verificamos que los datos tienen distribución normal
shapiro.test(datos.pre.post$Pre)

## 
##  Shapiro-Wilk normality test
## 
## data:  datos.pre.post$Pre
## W = 0.98197, p-value = 0.9569

shapiro.test(datos.pre.post$Post)

## 
##  Shapiro-Wilk normality test
## 
## data:  datos.pre.post$Post
## W = 0.94235, p-value = 0.2654

# Realizamos prueba t

t.test(datos.pre.post$Post,datos.pre.post$Pre, paired = TRUE)

## 
##  Paired t-test
## 
## data:  datos.pre.post$Post and datos.pre.post$Pre
## t = 3.2313, df = 19, p-value = 0.004395
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  0.7221251 3.3778749
## sample estimates:
## mean of the differences 
##                    2.05

Vemos que el resultado tiene significanza estadística alta ( $p\leqslant0,01$ ). El cálculo de R también nos da un intervalo de confianza al 95%.

Referencias

Shier, Rosie. 2004. “Paired t-Tests.” http://www.statstutor.ac.uk/resources/uploaded/paired-t-test.pdf.

también se conoce como «medidas repetidas»↩︎