Introducción

Un error frecuente en los proyectos de Data Science es pensar que empiezan con el análisis. De hecho, cuando se le pregunta a un analista de datos dónde pasa más tiempo la respuesta sigue siendo la misma: 80% en Data Wrangling9.

Los datos, en su forma natural (Raw Data en inglés), suelen tener errores de registro que imposibilitan un análisis exacto. Al ser registrados por distintos sistemas y personas, es normal que terminemos con un archivo en el que un mismo valor esté expresado de distintas maneras (por ejemplo, una fecha puede estar registrada como 28 de Junio, o como 28/06), pueden haber registros en blanco, y por supuesto, errores gramaticales.

Al momento de hacer un análisis de esos datos, todos esos registros tienen que preprocesarse. Es decir, se tiene que limpiar, unificar, consolidar y normalizar los datos para que se puedan utilizar y lograr extraer información de valor. El Data Wrangling es el proceso de preparación de los datos para poder ser aprovechados.

En los siguientes capítulos veremos varios varios pasos comunes del proceso de Data Wrangling como Importar data a R desde archivos, convertir data a tipo tidy, procesamiento de cadenas, procesamiento de html, formateo de fechas y horas, y minería de textos.