10.1 Visualización
El primer paso para estudiar posibles relaciones entre variables es visualizarlos. Si tenemos dos variables medidas por cada miembro de la población o muestra que estamos investigando podemos generar un diagrama de disperción también conocido como scatterplot. En este tipo de visualización cada miembro de la muestra/población está representado por un punto, y las coordinadas del punto corresponde a las dos variables que hemos medido, en el eje horizontal y vertical respectivamente.
El las figura 10.1, vemos que la concentración de puntos suben de la izquierda a la derecha. Es decir cuando avanzamos en el eje horizontal avanzamos en el eje vertical también. Es un ejemplo de una correlación positiva, como podría ser edad y estatura.
En la figura 10.2 vemos lo contrario, mientras avanzamos en el eje vertical retrocedemos (o bajamos) en el eje horizontal. Esto se conoce como correlacion negativa.
En la figura 10.3, también vemos correlación negativa, pero es menos fuerte que en la figura 10.2.
En la figura 10.4 vemos una correlación negativa casi perfecta entre las dos variables.
En la figura 10.5 vemos un caso de correlación inexistente entre las variables en cuestión.
En la figura 10.6 vemos que existe una relación entre las dos variables, pero que esta no es lineal.21
Las figuras 10.1, 10.2, 10.3, 10.4, 10.5 y 10.6 demuestran por qué es preciso graficar los datos al inicio del análisis. Nos da una indicación de si existe una correlación o no, si es positiva o negativa y que tan fuerte es. También nos podemos darnos cuenta de patrones en los datos que no son lineales, como es el caso de los datos en la figura 10.6. Asimismo, a veces nos encontramos con una correlación como la que vemos en la figura 10.4. Las correlaciones que son demasiado perfectas suelen ser un signo de advertencia y podemos preguntarnos si en realidad son dos variables distintas o si las dos están midiendo lo mismo.
# Generamos datos
= data.frame(
datos x=rnorm(100),
y=rnorm(100)
)
# Graficamos
plot(datos)
En el ejemplo 10.1 utilizamos la función rnorm
para generar cien observaciones aleatorias con distribución normal y los ponemos dentro de un data.frame
. Luego usamos la función plot
para graficarlos. Como nuestro data.frame
tiene solo dos columnas R entiende que estos son los datos que queremos graficar. Si el data.frame
tiene más columnas, podemos especificar los que queremos graficar así:
plot(datos$x,datos$y)
Por defecto R viene con algunos data.frames ya cargados, uno de ellos es «trees», podemos usar la función head
para ver las primeras seis filas.
head(trees)
## Girth Height Volume
## 1 8.3 70 10.3
## 2 8.6 65 10.3
## 3 8.8 63 10.2
## 4 10.5 72 16.4
## 5 10.7 81 18.8
## 6 10.8 83 19.7
Vemos que tiene tres columnas «Girth», «Height» y «Volume» (circumferencia, alto y volumen), los que, por lógica, deben tener alta correlación. Graficamos dos de ellos.
plot(trees$Girth, trees$Volume)
Si usamos la función plot
sin especificar columnas R entiende que queremos ver todas las combinaciones.
plot(trees)
Este tipo de visualización puede ser útil cuando tenemos algunas variables y queremos darnos cuenta qué correlaciones hay. La visualización funciona bien hasta cierto número de columnas –ocho más o menos–, luego se vuelve difícil de leer y por ende de interpretar.
De hecho es cuadrática: \(y~\sim~x^2\).↩︎