10.1 Visualización

El primer paso para estudiar posibles relaciones entre variables es visualizarlos. Si tenemos dos variables medidas por cada miembro de la población o muestra que estamos investigando podemos generar un diagrama de disperción también conocido como scatterplot. En este tipo de visualización cada miembro de la muestra/población está representado por un punto, y las coordinadas del punto corresponde a las dos variables que hemos medido, en el eje horizontal y vertical respectivamente.

El las figura 10.1, vemos que la concentración de puntos suben de la izquierda a la derecha. Es decir cuando avanzamos en el eje horizontal avanzamos en el eje vertical también. Es un ejemplo de una correlación positiva, como podría ser edad y estatura.

Correlación positiva

Figura 10.1: Correlación positiva

En la figura 10.2 vemos lo contrario, mientras avanzamos en el eje vertical retrocedemos (o bajamos) en el eje horizontal. Esto se conoce como correlacion negativa.

Correlación negativa

Figura 10.2: Correlación negativa

En la figura 10.3, también vemos correlación negativa, pero es menos fuerte que en la figura 10.2.

Correlación negative leve

Figura 10.3: Correlación negative leve

En la figura 10.4 vemos una correlación negativa casi perfecta entre las dos variables.

Correlación casi perfecta

Figura 10.4: Correlación casi perfecta

En la figura 10.5 vemos un caso de correlación inexistente entre las variables en cuestión.

Correlación nula

Figura 10.5: Correlación nula

En la figura 10.6 vemos que existe una relación entre las dos variables, pero que esta no es lineal.21

Relación no lineal

Figura 10.6: Relación no lineal

Las figuras 10.1, 10.2, 10.3, 10.4, 10.5 y 10.6 demuestran por qué es preciso graficar los datos al inicio del análisis. Nos da una indicación de si existe una correlación o no, si es positiva o negativa y que tan fuerte es. También nos podemos darnos cuenta de patrones en los datos que no son lineales, como es el caso de los datos en la figura 10.6. Asimismo, a veces nos encontramos con una correlación como la que vemos en la figura 10.4. Las correlaciones que son demasiado perfectas suelen ser un signo de advertencia y podemos preguntarnos si en realidad son dos variables distintas o si las dos están midiendo lo mismo.

Ejemplo 10.1 (Generar diagrama de dispersión en R)
# Generamos datos
datos = data.frame(
  x=rnorm(100),
  y=rnorm(100)
)

# Graficamos
plot(datos)

En el ejemplo 10.1 utilizamos la función rnorm para generar cien observaciones aleatorias con distribución normal y los ponemos dentro de un data.frame. Luego usamos la función plot para graficarlos. Como nuestro data.frame tiene solo dos columnas R entiende que estos son los datos que queremos graficar. Si el data.frame tiene más columnas, podemos especificar los que queremos graficar así:

plot(datos$x,datos$y)
Ejemplo 10.2 (Generar diagrama de dispersión en R)

Por defecto R viene con algunos data.frames ya cargados, uno de ellos es «trees», podemos usar la función head para ver las primeras seis filas.

head(trees)
##   Girth Height Volume
## 1   8.3     70   10.3
## 2   8.6     65   10.3
## 3   8.8     63   10.2
## 4  10.5     72   16.4
## 5  10.7     81   18.8
## 6  10.8     83   19.7

Vemos que tiene tres columnas «Girth», «Height» y «Volume» (circumferencia, alto y volumen), los que, por lógica, deben tener alta correlación. Graficamos dos de ellos.

plot(trees$Girth, trees$Volume)

Si usamos la función plot sin especificar columnas R entiende que queremos ver todas las combinaciones.

plot(trees)

Este tipo de visualización puede ser útil cuando tenemos algunas variables y queremos darnos cuenta qué correlaciones hay. La visualización funciona bien hasta cierto número de columnas –ocho más o menos–, luego se vuelve difícil de leer y por ende de interpretar.


  1. De hecho es cuadrática: \(y~\sim~x^2\).↩︎