1 Introducción

Este libro cubre los contenidos de un curso introductorio sobre análisis exploratorio de datos y visualización en un grado universitario en Ciencias de Datos. El análisis exploratorio de datos es un campo muy amplio, y no es posible impartir, en un solo curso, todos sus aspectos en profundidad. Este curso, de carácter introductorio, tiene como objetivo brindar una base sólida en las herramientas más importantes en este campo, pero cualquiera de los aspectos que se van a estudiar puede dar lugar a un estudio mucho más profundo y detallado del que vamos a presentar aquí.

1.1 Fases de un análisis exploratorio de datos

El análisis exploratorio de una colección de datos pasa por las siguientes fases :

  1. Establecer los objetivos de nuestro análisis de datos. Con independencia de los objetivos particulares de cada caso, siempre hay un objetivo genérico general que podemos resumir en : descubrir y presentar la realidad que hay detrás de los datos.

  2. Buscar los datos necesarios para nuestro estudio e importarlos a nuestro entorno de trabajo.

  3. Entender la información que contienen los datos y como están organizados.

  4. Seleccionar las herramientas adecuadas para procesar y visualizar la información suministrada por los datos.

  5. Transformar y ordenar los datos en función de los objetivos del estudio y los requerimientos de las herramientas que vamos a usar.

  6. Aplicar modelos para establecer relaciones entre los datos o hacer predicciones

  7. Comunicar los resultados de nuestro análisis de datos explicando las conclusiones, justificando los resultados de forma eficiente con gráficos atractivos.

Todas estas fases interaccionan entre sí, por ejemplo, a la vista del resultado final del estudio puede ser necesario incorporar nuevos datos para completar o confirmar resultados. Por tanto hay que interpretar el desarrollo de estas fases como un proceso por iteraciones.

1.2 Contenido del curso

El contenido del curso se organiza de la siguiente forma :

  • Tema 1 : Introducción. Se presentan las fases de un análisis exploratorio de datos, un resumen del contenido del curso y la justificación razonada de la elección de R como entorno unificado de desarrollo.

  • Tema 2 : Aspectos básicos de R. Se hará un repaso de los tipos y estructuras de datos que usaremos y de las funciones en R.

  • Tema 3 : Procesado de datos . Se introducirán las bases de datos que usaremos, el manejo de los formatos habituales de almacenamiento de datos y las herramientas de manipulación de datos que suministra la librería dplyr.

  • Tema 4 : Visualización estática de datos. Se abordará la gramática de los gráficos, su implementación en el contexto de la potente librería ggplot y su uso para la generación de gráficos estáticos.

  • Tema 5 : Series temporales . Por su importancia práctica, se estudia, en este tema, el caso particular del análisis exploratorio de series temporales incluyendo modelos de predicción.

  • Tema 6 : Visualización dinámica. A través del uso de las librerías ggplotly, highcharter y leaflet se introducen potentes herramientas de visualización interactiva donde el usuario puede interactuar con los gráficos.

  • Tema 7 : Cuadros de mando. A través del uso de las librerías shiny y flexdashboard se introduce el diseño e implementación de cuadros de mandos que permiten representar, de forma dinámica, atractiva y coherente, los indicadores principales de nuestra exploración de datos.

  • Tema 8 : Análisis de atributos. Se estudia la relación que puede existir entre diferentes variables a través, por ejemplo, de la correlación entre pares de variables, y como reducir el número de variables usando combinaciones lineales entre ellas a través del método del análisis de componentes principales.

1.3 La elección de R

El entorno de trabajo que vamos a usar se basa en la habitual combinación de R, Rstudio y RMarkdown. En este curso, supondremos que el estudiante está mínimamente familiarizado con estas herramientas. Se recomiendan los siguientes tutoriales: tutorial 1, tutorial 2 y tutorial 3 como introducción básica al uso combinado de estas herramientas. También pueden ser útiles la ficha resumen de Rstudio y la ficha resumen de Markdown. En cualquier caso, el tema 1 se dedica a repasar el uso básico de R y se ha añadido un apéndice con la sintaxis básica de RMarkdown.

De entre las diferentes posibilidades de plataformas de desarrollo utilizables en Ciencias de Datos se ha decidido unificar todo el contenido del curso alrededor de R por los siguientes motivos :

  • R es un entorno libre de desarrollo de aplicaciones estadísticas y análisis de datos que ha tenido un enorme éxito e implantación a nivel mundial. Funciona muy bien, es robusto, es decir genera muy pocos fallos inesperados y se instala y gestiona fácilmente.

  • Al ser Rla plataforma de referencia para el análisis de datos, para cualquier librería importante relacionada con el tema que se implemente en otros lenguajes como python, javascript, etc.., aparecen paquetes en R que sirven de interfaz para estas librerías. Esto es algo que se usa intensamente en este curso y tiene como efecto que la curva de aprendizaje de esas herramientas es mucho menor dado que se realiza todo desde el mismo entorno de desarrollo. Esto permite, en particular, abordar en un solo curso una gran colección de potentes herramientas que si se estudiaran cada una en sus particulares entornos de desarrollo, el aprendizaje sería mucho más complejo y sería imposible abordarlas en un solo curso.

  • La combinación de R, Rstudio y RMarkdown resulta idónea para experimentar y familiarizarse con todos los conceptos que se estudian en el curso. Además, estas herramientas son usadas por un número tan grande de personas, que prácticamente, cualquier problema o error que surja, ha sido ya resuelto y buscando por Internet, generalmente es fácil encontrar la solución.

  • El número de librerías con herramientas desarrolladas en R es inmenso, solo en el repositorio CRAN, que es el repositorio oficial de referencia para almacenar y gestionar la librerías, hay más de 20800 librerías registradas. Hay librerías, como ggplot2, que usamos en el curso, que tienen más de 140 millones de descargas. El autor de este libro ha publicado en CRAN la librería EpiInvert especializada en el procesado de series temporales en Epidemiología. Cualquier persona puede, en teoría, publicar gratuitamente una librería en CRAN. Ahora bien, se piden unos requisitos técnicos de calidad bastante exigentes para que la librería sea aceptada.

1.4 Las virtudes de un científico de datos

  • Neutralidad: Los datos deben hablar por si solos, hay que eliminar cualquier idea preconcebida que tengamos sobre los resultados de nuestro Análisis de Datos que pueden introducir un sesgo en la selección de datos y conclusiones.

  • Espíritu crítico. Hay que analizar y valorar en detalle la calidad, veracidad y fiabilidad de la fuente de los datos que manejamos. Por ejemplo, los datos que suministra una estación meteorológica son muy fiables porque los instrumentos de medida que utiliza lo son. Los datos sobre el número de infectados diarios por la COVID-19 contienen errores importantes porque la forma de medir no es precisa dado que la logística de registro de casos no es capaz, sobre todo al principio de la epidemia, de gestionar y registrar todos los casos. Además, muchos casos, como los que no presentan síntomas, quedan directamente fuera del radar. Mas allá de los errores en los sistemas de medición, otra fuente importante de falta de fiabilidad es el sesgo con el que pueden ser comunicados, en función del interés del que comunica los datos. Por ejemplo, decir que se han bajado los impuestos cuando el volumen de lo que se ha bajado es irrelevante y solo afecta a un grupo escaso de la población, no es técnicamente falso, pero el dato se está comunicando con un sesgo que desvirtúa la información que aportan los datos en su conjunto.

  • Valoración relevancia de atributos. No todos los atributos son igualmente importantes. Por ejemplo, a la hora de valorar el grado de desarrollo de un país (ver [RRR18]), el dato de mortalidad infantil es especialmente relevante porque el esfuerzo de las familias para mantener vivos a sus hijos es siempre máximo y es uno de los primeros parámetros que mejora/empeora cuando varía la situación de un país.

  • Un ratio es mejor que un valor numérico aislado. En general un valor numérico aislado suministra información difícil de interpretar. Por ejemplo, el beneficio anual de una empresa es un dato difícil de interpretar si no se compara con algo. Comparar ese dato, con los beneficios de la anualidad anterior o con la cantidad de capital invertido y gastos de funcionamiento suministra una información más útil. De la misma forma, a efectos de comparar la riqueza entre países, la renta per capita, suministra un dato más útil que la renta de todo el país.

  • Ser consciente de la limitación de los datos que manejamos. En general, los datos que manejamos son el resultado de la acumulación de valores muy diversos. Por ejemplo, la renta per capita de un país no nos dice nada de la desigualdades, en términos de riqueza, que existen dentro de dicho país.

  • Evitar las generalizaciones. Nuestra tendencia natural es generalizar a partir de los datos particulares conocidos. Por ejemplo, los medios de comunicación ponen mucho énfasis en comunicar los actos violentos, lo que nos puede llevar a pensar, generalizando, que vivimos en una sociedad muy violenta. Sin embargo, la realidad que suministran los datos es que vivimos en la sociedad menos violenta que ha existido nunca.

  • Las conclusiones siempre deben estar soportadas por datos. En cualquier memoria, proyecto o informe realizado por un científico de datos, todas las afirmaciones y conclusiones deben estar soportadas por una correcta interpretación de datos con indicación de la fuente.

1.5 La trampa del pensamiento binario y la simplificación de la realidad.

Los seres humanos nos encontramos cómodos dividiendo la realidad que nos rodea en 2 partes que se contraponen. Por ejemplo países ricos versus países pobres, ser de izquierdas o ser de derechas, personas buenas versus personas malas, nuestro entorno versus el resto del mundo, etc.. Nuestra tendencia natural a este pensamiento binario nos facilita la interpretación de la realidad y nos hace la vida más fácil. Sin embargo, y es algo que debe tener en cuenta siempre el científico de datos, la realidad es mucho más compleja y tiene muchos más matices que lo que puede reflejar esta tendencia a separarla en dos grupos contrapuestos. Otra forma de simplificación frecuente es el uso de un único atributo para analizar una realidad compleja. Tomemos como ejemplo la media de ingresos diarios por persona, en dolares, y en algunos países, obtenidos a partir de la OWID y reflejada en el siguiente gráfico:

Vemos que utilizar la media de ingresos nos da una información útil para hacer una primera comparativa entre países. Sin embargo, usar solo la media, aunque nos da una información importante, oculta matices relevantes de la realidad, como es, por ejemplo, los niveles de igualdad entre la población de un país, en términos de los ingresos que reciben. Por ejemplo, Estados Unidos tiene una media de ingresos significativamente superior a Noruega. Sin embargo, si dividimos el nivel de salarios en 10 grupos (deciles) y comparamos los resultados para estos dos países obtenemos:

es decir, en Estados Unidos hay un 10% de la población que gana más de 158 dolares diarios y, por debajo, hay un 10% que gana menos de 23 dolares. Sin embargo, en Noruega, el 10% que mas gana, lo hace a partir de 116 dolares y el 10% que menos gana, por debajo de 34 dolares, es decir Noruega es un país con mucha menos desigualdad de ingresos que los Estados Unidos, lo que produce que la media en Estados Unidos sea más alta que en Noruega es que los que más ganan, ganan mucho más en Estados Unidos. Por tanto, la pregunta : ¿En cual de los dos países la población tiene un mayor nivel de ingresos? puede tener respuestas distintas en función de como se haga el análisis. Esto ejemplo nos muestra algo muy importante: en el análisis de datos, una misma cuestión puede tener dos respuestas contradictorias, siendo ambas coherentes y bien fundamentadas en función de los datos utilizados y su interpretación. Es decir, las respuestas a nuestras preguntas que obtenemos de nuestro análisis de datos, no es una verdad absoluta, a lo más que podemos aspirar es a que sean coherentes con los datos analizados. Volviendo al ejemplo de los ingresos por persona en un país, otro aspecto importante a tener en cuenta es la variabilidad de los ingresos en diferentes zonas del país. Por ejemplo si examinamos como se distribuye el salario medio bruto mensual por Comunidades en España en 2022:

observamos que mientras en el País Vasco el salario medio es de 2546 euros, en Canarias es de 1869 euros, lo cual refleja un nivel de riqueza y realidades muy distintas que no observamos al ver solo la media del país.

El objetivo de este análisis es mostrar como el científico de datos debe ir mas allá de la tendencia al pensamiento binario y simplificación del ser humano y mostrar la realidad, a partir de los datos, con la mayor riqueza de matices posibles.

Referencias

[He19] Kieran Healy. Data Visualization, Princeton University Press, 2019.

[He19] Kieran Healy. Data Visualization, Princeton University Press, 2019.

[Ir19] Rafael A. Irizarry. Introduction to Data Science, Taylor & Francis, 2019.

[RRR18] Hans Rosling, Ola Rosling and Anna Rosling. Factfulness: Diez razones por las que estamos equivocados sobre el mundo, Deusto, 2018.

[SH16] Angelo Santana y Carmen N. Hernández. R4ULPGC: Introducción a R, Grupo de Estadística de la Universidad de Las Palmas de G.C., 2016.

[WiÇeGa23] Wickham, Hadley, Mine Çetinkaya-Rundel and Garrett Grolemund. R for Data Science (2e), O’Reilly Media, 2023.

[Xie15] Xie, Yihui. Dynamic Documents with R and Knitr. (2e). Boca Raton, Florida: Chapman; Hall/CRC*, 2015.

[Xie23] Xie, Yihui. Bookdown: Authoring Books and Technical Documents with r Markdown, 2023.