1 Introducción

Este libro cubre los contenidos de un curso introductorio sobre análisis exploratorio de datos y visualización en un grado universitario en Ciencias de Datos. El análisis exploratorio de datos es un campo muy amplio, y no es posible impartir, en un solo curso, todos sus aspectos en profundidad. Este curso, de carácter introductorio, tiene como objetivo brindar una base sólida en las herramientas más importantes en este campo, pero cualquiera de los aspectos que se van a estudiar puede dar lugar a un estudio mucho más profundo y detallado del que vamos a presentar aquí.

1.1 Fases de un análisis exploratorio de datos

El análisis exploratorio de una colección de datos pasa por las siguientes fases :

  1. Establecer los objetivos de nuestro análisis de datos.

  2. Buscar los datos necesarios para nuestro estudio e importarlos a nuestro entorno de trabajo.

  3. Entender la información que contienen los datos y como están organizados.

  4. Seleccionar las herramientas adecuadas para procesar y visualizar la información suministrada por los datos.

  5. Transformar y ordenar los datos en función de los objetivos del estudio y los requerimientos de las herramientas que vamos a usar.

  6. Aplicar modelos para establecer relaciones entre los datos o hacer predicciones

  7. Comunicar los resultados de nuestro análisis de datos explicando las conclusiones, justificando los resultados de forma eficiente con gráficos atractivos.

Todas estas fases interaccionan entre sí, por ejemplo, a la vista del resultado final del estudio puede ser necesario incorporar nuevos datos para completar o confirmar resultados. Por tanto hay que interpretar el desarrollo de estas fases como un proceso por iteraciones.

1.2 Contenido del curso

El contenido del curso se organiza de la siguiente forma :

  • Tema 1 : Introducción. Se presentan las fases de un análisis exploratorio de datos, un resumen del contenido del curso y la justificación razonada de la elección de R como entorno unificado de desarrollo.

  • Tema 2 : Aspectos básicos de R. Se hará un repaso de los tipos y estructuras de datos que usaremos y de las funciones en R.

  • Tema 3 : Procesado de datos . Se introducirán las bases de datos que usaremos, el manejo de los formatos habituales de almacenamiento de datos y las herramientas de manipulación de datos que suministra la librería dplyr.

  • Tema 4 : Visualización estática de datos. Se abordará la gramática de los gráficos, su implementación en el contexto de la potente librería ggplot y su uso para la generación de gráficos estáticos.

  • Tema 5 : Series temporales . Por su importancia práctica, se estudia, en este tema, el caso particular del análisis exploratorio de series temporales incluyendo modelos de predicción.

  • Tema 6 : Visualización dinámica. A través del uso de las librerías ggplotly, highcharter y leaflet se introducen potentes herramientas de visualización interactiva donde el usuario puede interactuar con los gráficos.

  • Tema 7 : Cuadros de mando. A través del uso de las librerías shiny y flexdashboard se introduce el diseño e implementación de cuadros de mandos que permiten representar, de forma dinámica, atractiva y coherente, los indicadores principales de nuestra exploración de datos.

  • Tema 8 : Reducción de dimensionalidad. Se estudia el problema de reducción del número de variables usando combinaciones lineales entre ellas a través de la correlación entre pares de variables y del método del análisis de componentes principales.

1.3 La elección de R

El entorno de trabajo que vamos a usar se basa en la habitual combinación de R, Rstudio y RMarkdown. En este curso, supondremos que el estudiante está mínimamente familiarizado con estas herramientas. Se recomiendan los siguientes tutorial 1 y tutorial 2 como introducción básica al uso combinado de estas herramientas. También pueden ser útiles la ficha resumen de Rstudio y la ficha resumen de Markdown. En cualquier caso, el tema 1 se dedica a repasar el uso básico de R y se ha añadido un apéndice con la sintaxis básica de RMarkdown.

De entre las diferentes posibilidades de plataformas de desarrollo utilizables en Ciencias de Datos se ha decidido unificar todo el contenido del curso alrededor de R por los siguientes motivos :

  • R es un entorno libre de desarrollo de aplicaciones estadísticas y análisis de datos que ha tenido un enorme éxito e implantación a nivel mundial. Funciona muy bien, es robusto, es decir genera muy pocos fallos inesperados y se instala y gestiona fácilmente.

  • Al ser Rla plataforma de referencia para el análisis de datos, para cualquier librería importante relacionada con el tema que se implemente en otros lenguajes como python, javascript, etc.., aparecen paquetes en R que sirven de interfaz para estas librerías. Esto es algo que se usa intensamente en este curso y tiene como efecto que la curva de aprendizaje de esas herramientas es mucho menor dado que se realiza todo desde el mismo entorno de desarrollo. Esto permite, en particular, abordar en un solo curso una gran colección de potentes herramientas que si se estudiaran cada una en sus particulares entornos de desarrollo, el aprendizaje sería mucho más complejo y sería imposible abordarlas en un solo curso.

  • La combinación de R, Rstudio y RMarkdown resulta idónea para experimentar y familiarizarse con todos los conceptos que se estudian en el curso. Además, estas herramientas son usadas por un número tan grande de personas, que prácticamente, cualquier problema o error que surja, ha sido ya resuelto y buscando por internet, generalmente es fácil encontrar la solución.

  • El número de librerías con herramientas desarrolladas en R es inmenso, solo en el repositorio CRAN, que es el repositorio oficial de referencia para almacenar y gestionar la librerías, hay más de 19000 librerías registradas. Hay librerías, como ggplot2, que usamos en el curso, que tienen más de 110 millones de descargas.

Referencias

[He19] Kieran Healy. Data Visualization, Princeton University Press, 2019.

[Ir19] Rafael A. Irizarry. Introduction to Data Science, Taylor & Francis, 2019.

[WiÇeGa23] Wickham, Hadley, Mine Çetinkaya-Rundel and Garrett Grolemund. R for Data Science (2e), O’Reilly Media, 2023.

[Xie15] Xie, Yihui. Dynamic Documents with R and Knitr. (2e). Boca Raton, Florida: Chapman; Hall/CRC*, 2015.

[Xie23] Xie, Yihui. Bookdown: Authoring Books and Technical Documents with r Markdown, 2023.