Capítulo 3 POC - Preprocesado de datos

Las bases de datos a enlazar pueden variar en formato, estructura y contenido. El preproceso de datos limpia y estandariza la información, y es imprescindible para que los siguientes pasos del proceso tengan éxito.

Los paquetes de R utilizados más importantes han sido dplyr (Wickham et al. 2018), que implementa una gramática de manipulación de datos similar al álgebra relacional y ggplot2 (Wickham and Chang 2016) que implementa otra gramática para la visualización gráfica de datos.

Otros paquetes utilizados han sido knitr (Xie 2018b), para la generación dinámica de documentación, y DataExplorer (Cui 2018) para el análisis de datos.

References

Wickham, Hadley, Romain François, Lionel Henry, and Kirill Müller. 2018. Dplyr: A Grammar of Data Manipulation. https://CRAN.R-project.org/package=dplyr.

Wickham, Hadley, and Winston Chang. 2016. Ggplot2: Create Elegant Data Visualisations Using the Grammar of Graphics. https://CRAN.R-project.org/package=ggplot2.

Xie, Yihui. 2018b. Knitr: A General-Purpose Package for Dynamic Report Generation in R. https://CRAN.R-project.org/package=knitr.

Cui, Boxuan. 2018. DataExplorer: Data Explorer. https://CRAN.R-project.org/package=DataExplorer.