1 Introducción

Este libro cubre los contenidos de un curso introductorio sobre análisis exploratorio de datos y visualización en un grado universitario en Ciencias de Datos. El análisis exploratorio de datos es un campo muy amplio, y no es posible impartir, en un solo curso, todos sus aspectos en profundidad. Este curso, de carácter introductorio, tiene como objetivo brindar una base sólida en las herramientas más importantes en este campo, pero cualquiera de los aspectos que se van a estudiar puede dar lugar a un estudio mucho más profundo y detallado del que vamos a presentar aquí.

1.1 Fases de un análisis exploratorio de datos

El análisis exploratorio de una colección de datos pasa por las siguientes fases :

  1. Establecer los objetivos de nuestro análisis de datos. Con independencia de los objetivos particulares de cada caso, siempre hay un objetivo genérico general que podemos resumir en : descubrir y presentar la realidad que hay detrás de los datos.

  2. Buscar los datos necesarios para nuestro estudio e importarlos a nuestro entorno de trabajo.

  3. Entender la información que contienen los datos y como están organizados.

  4. Seleccionar las herramientas adecuadas para procesar y visualizar la información suministrada por los datos.

  5. Transformar y ordenar los datos en función de los objetivos del estudio y los requerimientos de las herramientas que vamos a usar.

  6. Aplicar modelos para establecer relaciones entre los datos o hacer predicciones

  7. Comunicar los resultados de nuestro análisis de datos explicando las conclusiones, justificando los resultados de forma eficiente con gráficos atractivos.

Todas estas fases interaccionan entre sí, por ejemplo, a la vista del resultado final del estudio puede ser necesario incorporar nuevos datos para completar o confirmar resultados. Por tanto hay que interpretar el desarrollo de estas fases como un proceso por iteraciones.

1.2 Contenido del curso

El contenido del curso se organiza de la siguiente forma :

  • Tema 1 : Introducción. Se presentan las fases de un análisis exploratorio de datos, un resumen del contenido del curso y la justificación razonada de la elección de R como entorno unificado de desarrollo.

  • Tema 2 : Aspectos básicos de R. Se hará un repaso de los tipos y estructuras de datos que usaremos y de las funciones en R.

  • Tema 3 : Procesado de datos . Se introducirán las bases de datos que usaremos, el manejo de los formatos habituales de almacenamiento de datos y las herramientas de manipulación de datos que suministra la librería dplyr.

  • Tema 4 : Visualización estática de datos. Se abordará la gramática de los gráficos, su implementación en el contexto de la potente librería ggplot y su uso para la generación de gráficos estáticos.

  • Tema 5 : Series temporales . Por su importancia práctica, se estudia, en este tema, el caso particular del análisis exploratorio de series temporales incluyendo modelos de predicción.

  • Tema 6 : Visualización dinámica. A través del uso de las librerías ggplotly, highcharter y leaflet se introducen potentes herramientas de visualización interactiva donde el usuario puede interactuar con los gráficos.

  • Tema 7 : Cuadros de mando. A través del uso de las librerías shiny y flexdashboard se introduce el diseño e implementación de cuadros de mandos que permiten representar, de forma dinámica, atractiva y coherente, los indicadores principales de nuestra exploración de datos.

  • Tema 8 : Análisis de atributos. Se estudia la relación que puede existir entre diferentes variables a través, por ejemplo, de la correlación entre pares de variables, y como reducir el número de variables usando combinaciones lineales entre ellas a través del método del análisis de componentes principales.

1.3 La elección de R

El entorno de trabajo que vamos a usar se basa en la habitual combinación de R, Rstudio y RMarkdown. En este curso, supondremos que el estudiante está mínimamente familiarizado con estas herramientas. Se recomiendan los siguientes tutoriales: tutorial 1, tutorial 2 y tutorial 3 como introducción básica al uso combinado de estas herramientas. También pueden ser útiles la ficha resumen de Rstudio y la ficha resumen de Markdown. En cualquier caso, el tema 1 se dedica a repasar el uso básico de R y se ha añadido un apéndice con la sintaxis básica de RMarkdown.

De entre las diferentes posibilidades de plataformas de desarrollo utilizables en Ciencias de Datos se ha decidido unificar todo el contenido del curso alrededor de R por los siguientes motivos :

  • R es un entorno libre de desarrollo de aplicaciones estadísticas y análisis de datos que ha tenido un enorme éxito e implantación a nivel mundial. Funciona muy bien, es robusto, es decir genera muy pocos fallos inesperados y se instala y gestiona fácilmente.

  • Al ser Rla plataforma de referencia para el análisis de datos, para cualquier librería importante relacionada con el tema que se implemente en otros lenguajes como python, javascript, etc.., aparecen paquetes en R que sirven de interfaz para estas librerías. Esto es algo que se usa intensamente en este curso y tiene como efecto que la curva de aprendizaje de esas herramientas es mucho menor dado que se realiza todo desde el mismo entorno de desarrollo. Esto permite, en particular, abordar en un solo curso una gran colección de potentes herramientas que si se estudiaran cada una en sus particulares entornos de desarrollo, el aprendizaje sería mucho más complejo y sería imposible abordarlas en un solo curso.

  • La combinación de R, Rstudio y RMarkdown resulta idónea para experimentar y familiarizarse con todos los conceptos que se estudian en el curso. Además, estas herramientas son usadas por un número tan grande de personas, que prácticamente, cualquier problema o error que surja, ha sido ya resuelto y buscando por Internet, generalmente es fácil encontrar la solución.

  • El número de librerías con herramientas desarrolladas en R es inmenso, solo en el repositorio CRAN, que es el repositorio oficial de referencia para almacenar y gestionar la librerías, hay más de 20800 librerías registradas. Hay librerías, como ggplot2, que usamos en el curso, que tienen más de 140 millones de descargas. El autor de este libro ha publicado en CRAN la librería EpiInvert especializada en el procesado de series temporales en Epidemiología. Cualquier persona puede, en teoría, publicar gratuitamente una librería en CRAN. Ahora bien, se piden unos requisitos técnicos de calidad bastante exigentes para que la librería sea aceptada.

1.4 Las virtudes de un científico de datos

  • Neutralidad: Los datos deben hablar por si solos, hay que eliminar cualquier idea preconcebida que tengamos sobre los resultados de nuestro Análisis de Datos que pueden introducir un sesgo en la selección de datos y conclusiones.

  • Espíritu crítico. Hay que analizar y valorar en detalle la calidad, veracidad y fiabilidad de la fuente de los datos que manejamos. Por ejemplo, los datos que suministra una estación meteorológica son muy fiables porque los instrumentos de medida que utiliza lo son. Los datos sobre el número de infectados diarios por la COVID-19 contienen errores importantes porque la forma de medir no es precisa dado que la logística de registro de casos no es capaz, sobre todo al principio de la epidemia, de gestionar y registrar todos los casos. Además, muchos casos, como los que no presentan síntomas, quedan directamente fuera del radar. Mas allá de los errores en los sistemas de medición, otra fuente importante de falta de fiabilidad es el sesgo con el que pueden ser comunicados, en función del interés del que comunica los datos. Por ejemplo, decir que se han bajado los impuestos cuando el volumen de lo que se ha bajado es irrelevante y solo afecta a un grupo escaso de la población, no es técnicamente falso, pero el dato se está comunicando con un sesgo que desvirtúa la información que aportan los datos en su conjunto.

  • Valoración relevancia de atributos. No todos los atributos son igualmente importantes. Por ejemplo, a la hora de valorar el grado de desarrollo de un país (ver [RRR18]), el dato de mortalidad infantil es especialmente relevante porque el esfuerzo de las familias para mantener vivos a sus hijos es siempre máximo y es uno de los primeros parámetros que mejora/empeora cuando varía la situación de un país.

  • Un ratio es mejor que un valor numérico aislado. En general un valor numérico aislado suministra información difícil de interpretar. Por ejemplo, el beneficio anual de una empresa es un dato difícil de interpretar si no se compara con algo. Comparar ese dato, con los beneficios de la anualidad anterior o con la cantidad de capital invertido y gastos de funcionamiento suministra una información más útil. De la misma forma, a efectos de comparar la riqueza entre países, la renta per capita, suministra un dato más útil que la renta de todo el país.

  • Ser consciente de la limitación de los datos que manejamos. En general, los datos que manejamos son el resultado de la acumulación de valores muy diversos. Por ejemplo, la renta per capita de un país no nos dice nada de la desigualdades, en términos de riqueza, que existen dentro de dicho país.

  • Evitar las generalizaciones. Nuestra tendencia natural es generalizar a partir de los datos particulares conocidos. Por ejemplo, los medios de comunicación ponen mucho énfasis en comunicar los actos violentos, lo que nos puede llevar a pensar, generalizando, que vivimos en una sociedad muy violenta. Sin embargo, la realidad que suministran los datos es que vivimos en la sociedad menos violenta que ha existido nunca.

  • Las conclusiones siempre deben estar soportadas por datos. En cualquier memoria, proyecto o informe realizado por un científico de datos, todas las afirmaciones y conclusiones deben estar soportadas por una correcta interpretación de datos con indicación de la fuente.

Referencias

[He19] Kieran Healy. Data Visualization, Princeton University Press, 2019.

[He19] Kieran Healy. Data Visualization, Princeton University Press, 2019.

[Ir19] Rafael A. Irizarry. Introduction to Data Science, Taylor & Francis, 2019.

[RRR18] Hans Rosling, Ola Rosling and Anna Rosling. Factfulness: Diez razones por las que estamos equivocados sobre el mundo, Deusto, 2018.

[SH16] Angelo Santana y Carmen N. Hernández. R4ULPGC: Introducción a R, Grupo de Estadística de la Universidad de Las Palmas de G.C., 2016.

[WiÇeGa23] Wickham, Hadley, Mine Çetinkaya-Rundel and Garrett Grolemund. R for Data Science (2e), O’Reilly Media, 2023.

[Xie15] Xie, Yihui. Dynamic Documents with R and Knitr. (2e). Boca Raton, Florida: Chapman; Hall/CRC*, 2015.

[Xie23] Xie, Yihui. Bookdown: Authoring Books and Technical Documents with r Markdown, 2023.