• Arboles de decision y Random Forest
  • 1 Introducción
    • 1.1 Generalidades
    • 1.2 Contenido
  • 2 Breve recapitulación de R
    • 2.1 Entorno de RStudio y Ayuda
    • 2.2 Asignación de Variables
    • 2.3 Directorios, Scripts y Librerías
    • 2.4 Tipos de Datos Básicos
    • 2.5 Tipos de Datos Compuestos
      • 2.5.1 Matrices
      • 2.5.2 Factores
      • 2.5.3 Listas
      • 2.5.4 Data Frames
    • 2.6 Lectura y escritura de archivos de texto
    • 2.7 Indexación
      • 2.7.1 Método básico – Cómo acceder a ciertos datos de los objetos de R
      • 2.7.2 Subconjuntos lógicos
    • 2.8 Subconjuntos
      • 2.8.1 Summarizing data
    • 2.9 Funciones
      • 2.9.1 Funciones implementadas en R
      • 2.9.2 Funciones creadas por el usuario
    • 2.10 Ejercicios
  • 3 Arboles de Decisión - Parte I
    • 3.1 Conceptos Introductorios
      • 3.1.1 ¿Qué es machine learning?
      • 3.1.2 Tipos de técnicas y algoritmos
      • 3.1.3 Conjunto de entrenamiento y conjunto de test
      • 3.1.4 Sesgo (bias) y varianza
      • 3.1.5 Sobreajuste u “overfitting”
      • 3.1.6 Validación cruzada
    • 3.2 ¿Qué son los árboles de decisión?
      • 3.2.1 Ejemplo
    • 3.3 Terminología
    • 3.4 Arboles de Regressión vs. árboles de clasificación
    • 3.5 Ventajas y desventajas
      • 3.5.1 Ventajas
      • 3.5.2 Desventajas
    • 3.6 ¿Cómo decide un árbol donde ramificarse?
      • 3.6.1 Indice Gini
      • 3.6.2 Chi Cuadrado
      • 3.6.3 Ganancia de información
      • 3.6.4 Reducción en la varianza (regresión)
    • 3.7 Parámetros del modelo y como evitar sobreajuste en árboles de decisión
      • 3.7.1 Definir restricciones sobre el tamaño del árbol (prepruning)
      • 3.7.2 Poda del árbol (postpruning)
  • 4 Arboles de Decisión - Parte II
    • 4.1 Arboles de decisión y modelos lineales
    • 4.2 Codigo generalizado
    • 4.3 Ejemplo de Arbol de Decisión + prepruning
      • 4.3.1 Importar los datos
      • 4.3.2 Limpiar el conjunto de datos
      • 4.3.3 Dividir en conjuntos de entrenamiento y test
      • 4.3.4 Construir el modelo
      • 4.3.5 Hacer la predicción
      • 4.3.6 Medir el rendimiento del modelo
      • 4.3.7 Ajustar los hyper-parámetros
    • 4.4 Ejemplo de clasificación + Poda (postpruning)
    • 4.5 Ejemplo Regresión + Poda
  • 5 Ensambladores: Random Forest - Parte I
    • 5.1 Random Forest
      • 5.1.1 ¿Cómo se construye un modelo random forest?
    • 5.2 Hyper-parámetros
      • 5.2.1 Ventajas de Random Forest
      • 5.2.2 Desventajas de Random Forest
    • 5.3 Importancia de atributos
      • 5.3.1 ¿Cómo se calcula?
      • 5.3.2 Ventajas
      • 5.3.3 Desventajas
  • 6 Ensambladores: Random Forest - Parte II
    • 6.1 Ejemplo introductorio
    • 6.2 Ejemplo de regresión + tuning
      • 6.2.1 Tuning inicial
    • 6.3 Utilizando la librería ranger
      • 6.3.1 H2O una librería para cómputo distribuido.
      • 6.3.2 Predicción
  • Referencias
  • Published with bookdown

Arboles de decision y Random Forest

Referencias

  • Programación avanzada con R

https://oer.uni-marburg.de/data/mriliasmooc/lm_data/lm_2050/speeding-up-iteration-procedures.html

  • Funciones

https://bookdown.org/rdpeng/RProgDA/functions.html)

  • Tutorial - principal fuente de este bookdown

https://www.analyticsvidhya.com/blog/2016/04/complete-tutorial-tree-based-modeling-scratch-in-python/

  • Ejemplo de árboles de decisión

https://www.guru99.com/r-decision-trees.html

  • Viñeta rpart.plot

https://cran.r-project.org/web/packages/rpart.plot/rpart.plot.pdf

  • Opciones de ploteo Rpart Tree

http://www.milbo.org/rpart-plot/prp.pdf

  • Importancia de Variables

https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#varimp

  • Ejemplo detallado de RF

https://uc-r.github.io/random_forests