4 Visualización de datos

R es una herramienta potente para la generación de gráficas de todo tipo y algunas pueden interactivas. A continuación se presentan ejemplos de visualización de datos basados en el tutorial de Daniela Ballari: http://rpubs.com/daniballari/qplot

4.1 Gráficas base

La forma más basica de generar un gráfico de datos, es utilizando la funcion plot.

4.1.2 Diagrama de caja y bigote

Un diagrama de caja y bigote, también llamado diagrama de caja, muestra el resumen de cinco números de un conjunto de datos. El resumen de cinco números es el valor mínimo, el primer cuartil (Q1), la mediana (Q2), el tercer cuartil (Q3) y el valor máximo. Lo podemos generar con la función boxplot.

  • Q1, el Primer Cuartil es el valor mayor al 25% de los valores de la distribución.

  • Q2, el Segundo Cuartil es la mediana de la distribución, es el valor de la variable que ocupa el lugar central en un conjunto de datos ordenados.

  • Q3, el Tercer Cuartil es el valor que sobrepasa al 75% de los valores de la distribución.

##   weight      feed
## 1    179 horsebean
## 2    160 horsebean
## 3    136 horsebean
## 4    227 horsebean
## 5    217 horsebean
## 6    168 horsebean
## 'data.frame':    71 obs. of  2 variables:
##  $ weight: num  179 160 136 227 217 168 108 124 143 140 ...
##  $ feed  : Factor w/ 6 levels "casein","horsebean",..: 2 2 2 2 2 2 2 2 2 2 ...

4.2 Librería ggplot2

Como parte de tidyverse, ggplot2 es un sistema para crear gráficos, basado en The Grammar of Graphics. Se proporcionan los datos, se indica a ggplot2 cómo configurar la estética y el paquete se ocupa de los detalles. Para ello, se instala el paquete ggplot2 (si tidyverse no se ha instalado ya), y se carga este paquete o librería con library(ggplot2).

Con la función qplot() se puede realizar gráficos de una manera rápida. Revisar su documentación en: https://ggplot2.tidyverse.org/reference/qplot.html

4.2.1 Histograma

Al incluir una columna de un data.frame o un tibble, por defecto se dibujará un histograma. ggplot trabaja sobre data.frames o tibbles, por ello se debe asegurar que los datos tengan cualquiera de estas estructuras.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Incluye el argumento bins para indicar el número de clases del histograma

Aunque esté indicado por defecto, se puede igual incluir que el tipo de geometría del gráfico a dibujar sea histograma. El resultado será igual al gráfico anterior. El parámetro geom indica el tipo de grafico: histrograma, boxplot, etc.

Añadir líneas verticales para mostrar la media y la mediana.

Clasificar el histograma de acuerdo con una segunda variable.

4.2.2 Densidad

Un gráfico de densidad es una versión suavizada del histograma y se utiliza en el mismo concepto para la representación de la distribución de una variable numérica.

Cambiar el argumento fill por color para hacer los polígonos vacios.

Cambiar el tipo de línea de las densidades.

Utiliza el argumento facets para dividir ambos poligonos de densidades en gráficos diferentes. Observa el argumento facets en los dos ejemplos. En el primero se graficarán como columnas y en el segundo como filas.

4.3 Plotly

Plotly es otro paquete de gráficos en R para crear gráficos interactivos con calidad de publicación.

## 
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
## 
##     last_plot
## The following object is masked from 'package:stats':
## 
##     filter
## The following object is masked from 'package:graphics':
## 
##     layout