10.2 Coeficientes de correlación

Para tener una medida cuantitativa precisa de la correlación entre las variables calculamos un coeficiente de correlación. A continuación vamos a tres de ellos, el de Pearson, el de Spearman y el coeficiente \(\phi\) (de la letra griega que corresponde a f en minúscula – se pronuncia «fi». Los coeficientes de correlación se expresan por un número con varios decimales entre -1 y 1, donde -1 y 1 indican correlaciones perfectas, negativas y positivas respectivamente y 0 indica correlación nula.

El coeficiente Pearson es adecuado para datos de escala de razón o intervalo, el de Spearman para datos de escala ordinal y el coeficiente \(\phi\) se usa para datos nominales.

10.2.1 Coeficiente Pearson

Como ya mencionamos, el coeficiente de Pearson es apropiado cuando las variables a comparar con de escala de intervalo o razón ya que toma en cuenta la magnitud relativa de las observaciones.

Si tenemos un conjunto de pares de observaciones podemos representar el primer elemento del par por x y el segundo por y. Entonces el conjunto de los x van a tener una desviación estándar se calcula según la definición 3.4, así: \[ s_x = {\sqrt{(\sum(x-\bar{x})^2\over{N-1}}}. \]

De la misma manera y tiene su desviación estándar: \[ s_y = {\sqrt{(\sum(y-\bar{y})^2\over{N-1}}}. \]

Ahora podemos normalizar las variables según 4.1 asi:

\[ z_x = {x-\bar{x}\over{s_x}}, \]

\[ z_y = {y-\bar{y}\over{s_y}}. \]

Y con estos datos podemos calcular el coeficiente según la definición 10.1.

Definición 10.1 (Coeficiente de correlación de Pearson)

\[ r={\sum{z_xz_y}\over{N-1}} \] donde:

  • \(\sum{z_xz_y}\): La suma de los productos22 de las dos variables normalizadas.

Existe otra definición es matemáticamente equivalente y que se usa a veces para hacer el cálculo a mano:

Definición 10.2 (Coeficiente de correlación Pearson)

\[ r={N\Sigma{xy}-\Sigma{x}\Sigma{y}\over{\sqrt{\{N\Sigma{x^2}-(\Sigma{x})^2\}\times\{N\Sigma{y^2}-(\Sigma{y})^2\} }}} \]

Ejemplo 10.3 (Cálculo del Coeficiente de correlación de Pearson)

En este ejemplo, adaptado de (Butler 1985), vamos a suponer que hemos tomado un examen de traducción y otro de comprensión de inglés a doce estudiantes. Los resultados de estos exámenes están en la tabla 10.1.

Tabla 10.1: Resultados de un examen de tradución (x) y de comprensión (y) de ingles.
Estudiante x y
1 17 15
2 13 13
3 12 8
4 14 17
5 15 16
6 8 9
7 9 14
8 13 10
9 11 16
10 14 13
11 12 14
12 16 17

Para poder aplicar la fórmula vamos a precisar los valores llevados al cuadrado, el producto de \(x\times y\) y las sumas de las columnas. Calculándolos obtenemos los datos de la tabla 10.2.

Tabla 10.2: Resultados de un examen de tradución (x) y de comprensión (y) de ingles.
Estudiante x y x2 y2 xy
1 17 15 289 225 255
2 13 13 169 169 169
3 12 8 144 64 96
4 14 17 196 289 238
5 15 16 225 256 240
6 8 9 64 81 72
7 9 14 81 196 126
8 13 10 169 100 130
9 11 16 121 256 176
10 14 13 196 169 182
11 12 14 144 196 168
12 16 17 256 289 272

Sabemos que N=12, pero vamos a precisar las sumas de algunas columnas:

  • \(\Sigma{x}\) = 154
  • \(\Sigma{y}\) = 162
  • \(\Sigma{x^2}\) = 2054
  • \(\Sigma{y^2}\) = 2290
  • \(\Sigma{xy}\) = 2124.

Aplicamos la fórmula:

\[\begin{split} &r= {N\Sigma{xy}-\Sigma{x}\Sigma{y}\over{\sqrt{\{N\Sigma{x^2}-(\Sigma{x})^2\}\times\{N\Sigma{y^2}-(\Sigma{y})^2\} }}} \\ &~~~~~~~\Updownarrow\\ &r={12\times2~124-154\times162\over{\sqrt{\{12\times2~054-154^2\}\times\{12\times2~290-162^2\} }}} \\ &~~~~~~~\Updownarrow\\ &r={25~488-24~948\over{\sqrt{\{24~648-23~716\}\times\{27~480-26~244\} }}} \\ &~~~~~~~\Updownarrow\\ &r= {540\over{\sqrt{932\times1236}}} \\ &~~~~~~~\Updownarrow\\ &r= {540\over{\sqrt{1~151~932}}} \\ &~~~~~~~\Updownarrow\\ &r= {540\over1~073,28} \\ &~~~~~~~\Updownarrow\\ &r= 0,5031 \end{split}\]
Ejemplo 10.3 (Cálculo del Coeficiente de correlación de Pearson en R)

Si no queremos hacer todos los cálculos del ejemplo 10.3 a mano podemos recurrir a R que con la función cor lo calcula.

# Cargamos datos
datos<- data.frame(
  Estudiante = c( 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12),
  x = c( 17, 13, 12, 14, 15, 8, 9, 13, 11, 14, 12, 16),
  y = c( 15, 13, 8, 17, 16, 9, 14, 10, 16, 13, 14, 17)
) 

# Llamamos función
cor(datos$x, datos$y)
## [1] 0.5031258

10.2.2 Coeficiente Spearman

Si una o ambas variables que estamos comparando son de escala ordinal, el coeficiente apropiado es el de Spearman. Para calcularlo ordenamos las observaciones de la primer variable de manera ascendiente y les damos el valor de su orden. Si dos observaciones de la misma variable tienen el mismo valor, si hay empates, se saca el promedio cual si el empate no hubiera existido. Hacemos lo mismo para la segunda variable. Calculamos la diferencia entre los rangos para cada par de observaciones. La correlación Spearman o \(\rho\) de la letra griega r se calcula según la definición 10.3.

Definición 10.3 (Coeficiente de correlación de Spearman)

\[ \rho = 1-{6\sum{d^2}\over{N(N^2-1)}} \]

Imaginamos que pedimos a diez personas que ranqueen en una escala de uno a diez cuánto les gustaron dos cafeterías de Buenos Aires. Ya que los datos son de escala ordinal, tenemos que recurrir a Spearman. Usamos la misma función cor con un parámetro extra: method = "spearman" para indicar que queremos usar la correlación de Spearman.

# Cargamos datos
rankings <- data.frame(
  Cafe.A = c(7, 6, 4, 5, 8, 7, 10, 3, 9, 2),
  Cafe.B = c(5, 4, 5, 6, 10, 7, 9, 2, 8, 1)
)

# Llamamos función
cor(rankings$Cafe.A, rankings$Cafe.B, method = "spearman")
## [1] 0.875

Observamos que hay alto grado de correlación entre los ranking de los dos cafés.

10.2.3 Coeficiente \(\phi\)

Si las dos variables en cuestión son nominales la pregunta se reduce a: ¿Si observamos la propiedad A es probable que observemos también B? Si estamos trabajando con datos educativos la pregunta podría ser ¿Si el estudiante responde correctamente el 1r ítem, es probable que también acierte el 2o? Esto se puede representar en una tabla \(2\times2\) como la que vemos en 10.7.

Tabla de contingencia dos por dos

Figura 10.7: Tabla de contingencia dos por dos

En esta tabla las celdas A, B, C y D son las frecuencias de las observaciones. Por ejemplo A sería el número de estudiantes que acertaron el 1o pero no el 2o. B la frecuencia de estudiantes que pasaron ambos ítems y así sucesivamente. La correlación entre las dos variables se puede medir aplicando la formula de la definición 10.4.

Definición 10.4 (Coefficiente de \(\phi\)) \[ \phi = {{BC-AD}\over{\sqrt{(A+B)\times(C+D)\times(A+C)\times(B+D)}}} \]

Debería quedar claro que el coeficiente \(\phi\) está estrechamente relacionado con la prueba de \(\chi^2\) que vimos en la definición 9.1. De hecho se relacionan matemáticamente: \[ \phi = \sqrt{\chi^2/N} \Leftrightarrow \chi^2 = N\times\phi^2. \] Por tanto la significanza de \(\phi\) se puede obtener por medio de la conversión a \(\chi^2\).

Referencias

Butler, Christopher. 1985. Statistics in Linguistics. Basil Blackwell.

  1. «Producto» en matemática es el resultado de una operación de multiplicación. Si multiplicamos \(2\times2=4\), 4 es el producto.↩︎