Capítulo 5 POC - Aprendizaje máquina
En este último capítulo implementaremos la clasificación supervisada mediante algoritmos de aprendizaje máquina.
Además, compararemos los resultados obtenidos con los del enlazado probabilístico y los de dos algoritmos deterministas que ya hemos utilizado anteriormente en GN.
Los principales paquetes de R utilizados han sido rpart (Therneau, Atkinson, and Ripley 2017), para los árboles de decisión y RandomForest (Breiman et al. 2018) para los bosques aleatorios.
Otros paquetes utilizados han sido caret (Jed Wing et al. 2018), para analizar los resultados, dplyr (Wickham et al. 2018) para la manipulación de datos, stringdist (van der Loo 2018) para el cálculo de similitud entre cadenas de caracteres y knitr (Xie 2018b) para la generación dinámica de documentación.
References
Therneau, Terry, Beth Atkinson, and Brian Ripley. 2017. Rpart: Recursive Partitioning and Regression Trees. https://CRAN.R-project.org/package=rpart.
Breiman, Leo, Adele Cutler, Andy Liaw, and Matthew Wiener. 2018. RandomForest: Breiman and Cutler’s Random Forests for Classification and Regression. https://CRAN.R-project.org/package=randomForest.
Jed Wing, Max Kuhn. Contributions from, Steve Weston, Andre Williams, Chris Keefer, Allan Engelhardt, Tony Cooper, Zachary Mayer, et al. 2018. Caret: Classification and Regression Training. https://CRAN.R-project.org/package=caret.
Wickham, Hadley, Romain François, Lionel Henry, and Kirill Müller. 2018. Dplyr: A Grammar of Data Manipulation. https://CRAN.R-project.org/package=dplyr.
van der Loo, Mark. 2018. Stringdist: Approximate String Matching and String Distance Functions. https://CRAN.R-project.org/package=stringdist.
Xie, Yihui. 2018b. Knitr: A General-Purpose Package for Dynamic Report Generation in R. https://CRAN.R-project.org/package=knitr.