10.2 Coeficientes de correlación
Para tener una medida cuantitativa precisa de la correlación entre las variables calculamos un coeficiente de correlación. A continuación vamos a tres de ellos, el de Pearson, el de Spearman y el coeficiente \(\phi\) (de la letra griega que corresponde a f en minúscula – se pronuncia «fi». Los coeficientes de correlación se expresan por un número con varios decimales entre -1 y 1, donde -1 y 1 indican correlaciones perfectas, negativas y positivas respectivamente y 0 indica correlación nula.
El coeficiente Pearson es adecuado para datos de escala de razón o intervalo, el de Spearman para datos de escala ordinal y el coeficiente \(\phi\) se usa para datos nominales.
10.2.1 Coeficiente Pearson
Como ya mencionamos, el coeficiente de Pearson es apropiado cuando las variables a comparar con de escala de intervalo o razón ya que toma en cuenta la magnitud relativa de las observaciones.
Si tenemos un conjunto de pares de observaciones podemos representar el primer elemento del par por x y el segundo por y. Entonces el conjunto de los x van a tener una desviación estándar se calcula según la definición 3.4, así: \[ s_x = {\sqrt{(\sum(x-\bar{x})^2\over{N-1}}}. \]
De la misma manera y tiene su desviación estándar: \[ s_y = {\sqrt{(\sum(y-\bar{y})^2\over{N-1}}}. \]
Ahora podemos normalizar las variables según 4.1 asi:
\[ z_x = {x-\bar{x}\over{s_x}}, \]
\[ z_y = {y-\bar{y}\over{s_y}}. \]
Y con estos datos podemos calcular el coeficiente según la definición 10.1.
\[ r={\sum{z_xz_y}\over{N-1}} \] donde:
- \(\sum{z_xz_y}\): La suma de los productos22 de las dos variables normalizadas.
Existe otra definición es matemáticamente equivalente y que se usa a veces para hacer el cálculo a mano:
\[ r={N\Sigma{xy}-\Sigma{x}\Sigma{y}\over{\sqrt{\{N\Sigma{x^2}-(\Sigma{x})^2\}\times\{N\Sigma{y^2}-(\Sigma{y})^2\} }}} \]
En este ejemplo, adaptado de (Butler 1985), vamos a suponer que hemos tomado un examen de traducción y otro de comprensión de inglés a doce estudiantes. Los resultados de estos exámenes están en la tabla 10.1.
Estudiante | x | y |
---|---|---|
1 | 17 | 15 |
2 | 13 | 13 |
3 | 12 | 8 |
4 | 14 | 17 |
5 | 15 | 16 |
6 | 8 | 9 |
7 | 9 | 14 |
8 | 13 | 10 |
9 | 11 | 16 |
10 | 14 | 13 |
11 | 12 | 14 |
12 | 16 | 17 |
Para poder aplicar la fórmula vamos a precisar los valores llevados al cuadrado, el producto de \(x\times y\) y las sumas de las columnas. Calculándolos obtenemos los datos de la tabla 10.2.
Estudiante | x | y | x2 | y2 | xy |
---|---|---|---|---|---|
1 | 17 | 15 | 289 | 225 | 255 |
2 | 13 | 13 | 169 | 169 | 169 |
3 | 12 | 8 | 144 | 64 | 96 |
4 | 14 | 17 | 196 | 289 | 238 |
5 | 15 | 16 | 225 | 256 | 240 |
6 | 8 | 9 | 64 | 81 | 72 |
7 | 9 | 14 | 81 | 196 | 126 |
8 | 13 | 10 | 169 | 100 | 130 |
9 | 11 | 16 | 121 | 256 | 176 |
10 | 14 | 13 | 196 | 169 | 182 |
11 | 12 | 14 | 144 | 196 | 168 |
12 | 16 | 17 | 256 | 289 | 272 |
Sabemos que N=12, pero vamos a precisar las sumas de algunas columnas:
- \(\Sigma{x}\) = 154
- \(\Sigma{y}\) = 162
- \(\Sigma{x^2}\) = 2054
- \(\Sigma{y^2}\) = 2290
- \(\Sigma{xy}\) = 2124.
Aplicamos la fórmula:
\[\begin{split} &r= {N\Sigma{xy}-\Sigma{x}\Sigma{y}\over{\sqrt{\{N\Sigma{x^2}-(\Sigma{x})^2\}\times\{N\Sigma{y^2}-(\Sigma{y})^2\} }}} \\ &~~~~~~~\Updownarrow\\ &r={12\times2~124-154\times162\over{\sqrt{\{12\times2~054-154^2\}\times\{12\times2~290-162^2\} }}} \\ &~~~~~~~\Updownarrow\\ &r={25~488-24~948\over{\sqrt{\{24~648-23~716\}\times\{27~480-26~244\} }}} \\ &~~~~~~~\Updownarrow\\ &r= {540\over{\sqrt{932\times1236}}} \\ &~~~~~~~\Updownarrow\\ &r= {540\over{\sqrt{1~151~932}}} \\ &~~~~~~~\Updownarrow\\ &r= {540\over1~073,28} \\ &~~~~~~~\Updownarrow\\ &r= 0,5031 \end{split}\]Si no queremos hacer todos los cálculos del ejemplo 10.3 a mano podemos recurrir a R que con la función cor
lo calcula.
# Cargamos datos
<- data.frame(
datosEstudiante = c( 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12),
x = c( 17, 13, 12, 14, 15, 8, 9, 13, 11, 14, 12, 16),
y = c( 15, 13, 8, 17, 16, 9, 14, 10, 16, 13, 14, 17)
)
# Llamamos función
cor(datos$x, datos$y)
## [1] 0.5031258
10.2.2 Coeficiente Spearman
Si una o ambas variables que estamos comparando son de escala ordinal, el coeficiente apropiado es el de Spearman. Para calcularlo ordenamos las observaciones de la primer variable de manera ascendiente y les damos el valor de su orden. Si dos observaciones de la misma variable tienen el mismo valor, si hay empates, se saca el promedio cual si el empate no hubiera existido. Hacemos lo mismo para la segunda variable. Calculamos la diferencia entre los rangos para cada par de observaciones. La correlación Spearman o \(\rho\) de la letra griega r se calcula según la definición 10.3.
\[ \rho = 1-{6\sum{d^2}\over{N(N^2-1)}} \]
Imaginamos que pedimos a diez personas que ranqueen en una escala de uno a diez cuánto les gustaron dos cafeterías de Buenos Aires. Ya que los datos son de escala ordinal, tenemos que recurrir a Spearman. Usamos la misma función cor
con un parámetro extra: method = "spearman"
para indicar que queremos usar la correlación de Spearman.
# Cargamos datos
<- data.frame(
rankings Cafe.A = c(7, 6, 4, 5, 8, 7, 10, 3, 9, 2),
Cafe.B = c(5, 4, 5, 6, 10, 7, 9, 2, 8, 1)
)
# Llamamos función
cor(rankings$Cafe.A, rankings$Cafe.B, method = "spearman")
## [1] 0.875
Observamos que hay alto grado de correlación entre los ranking de los dos cafés.
10.2.3 Coeficiente \(\phi\)
Si las dos variables en cuestión son nominales la pregunta se reduce a: ¿Si observamos la propiedad A es probable que observemos también B? Si estamos trabajando con datos educativos la pregunta podría ser ¿Si el estudiante responde correctamente el 1r ítem, es probable que también acierte el 2o? Esto se puede representar en una tabla \(2\times2\) como la que vemos en 10.7.
En esta tabla las celdas A, B, C y D son las frecuencias de las observaciones. Por ejemplo A sería el número de estudiantes que acertaron el 1o pero no el 2o. B la frecuencia de estudiantes que pasaron ambos ítems y así sucesivamente. La correlación entre las dos variables se puede medir aplicando la formula de la definición 10.4.
Debería quedar claro que el coeficiente \(\phi\) está estrechamente relacionado con la prueba de \(\chi^2\) que vimos en la definición 9.1. De hecho se relacionan matemáticamente: \[ \phi = \sqrt{\chi^2/N} \Leftrightarrow \chi^2 = N\times\phi^2. \] Por tanto la significanza de \(\phi\) se puede obtener por medio de la conversión a \(\chi^2\).
Referencias
«Producto» en matemática es el resultado de una operación de multiplicación. Si multiplicamos \(2\times2=4\), 4 es el producto.↩︎