Prefacio
1
Introducción
Una breve historia
1.1
Machine Learning (ML)
1.1.1
Clasificación del ML
1.1.2
Usos y pasos para aplicar ML
I Aprendizaje supervizado
2
Regresión Lineal
2.1
Una idea general
2.1.1
Regresión: Paso a paso
2.2
Transformaciones Lineales
2.2.1
Modelo recíproco
2.2.2
Modelo log-lineal
2.3
Regresión Lineal Múltiple
2.3.1
RLM: Cobb-Douglas
2.3.2
RLM: Dicotómicas
2.3.3
RLM: Educación con insumos
3
Modelos de Probabilidad
3.1
Probabilidad lineal
3.2
Logit
Ejemplo 1
Ejemplo 2
3.3
Probit
Ejemplo 1
Ejemplo 2
Ejemplo 3
3.3.1
Test de Wald
3.3.2
Conclusiones:
3.4
Ejercicios
4
Árboles de decisión
4.1
Elegir la
mejor
partición
4.2
Ejemplo: Identificando el riesgo de un préstamo
4.2.1
Paso 1: recopilación de datos
4.2.2
Paso 2: Explorar y preparar los datos
4.2.3
Paso 3: entrenar un modelo en los datos
4.2.4
Paso 4: evaluar el rendimiento del modelo
4.2.5
Paso 5: mejorando el ajuste (pruning)
5
Máquinas de soporte vectorial
5.1
Maximal Margin classifier
5.2
Support vector classifiers
5.3
Support vector machines
5.3.1
Ejercicio 1
5.3.2
Ejercicio 2
5.3.3
Ejercicio 3
6
Regularización
6.1
Regresión
Ridge
6.2
Regresión
Lasso
6.2.1
Ejemplo: datos de crimen
7
Mínimos cuadrados no lineales
7.1
Mínimos cuadrados no lineales
7.2
La función
nls
7.2.1
Ejemplo: crecimiento poblacional
7.2.2
Ejemplo: Cobb-Douglas
7.2.3
Taller
8
Polinomios Locales
8.1
Introducción
8.2
¿Para qué sirve?
8.2.1
Ventajas
8.2.2
Desventajas
8.3
Ejemplos
8.3.1
Ejemplo 1: Temperatura de castores
8.3.2
Ejemplo 2: El parámetro de suavizamiento
8.3.3
Ejemplo 3: duración del desempleo
8.4
¿Cómo encontrar el parámetro de suavizamiento óptimo?
9
GAM
9.1
GAMs en regresión
9.1.1
Ejemplo
9.2
Ventajas y desventajas de los GAMs
9.3
GAMS en clasificación
9.3.1
Ejemplo
10
Regresión Spline adaptativa multivariante (MARS)
10.1
Introducción
10.1.1
¿Por qué usar modelos MARS?
10.1.2
La estrucura de MARS
10.2
Ejemplo 1
10.2.1
Output
10.2.2
Tu turno
11
Redes neuronales
11.1
Entendiendo una red neuronal
11.2
Paso 1: recopilación de datos
11.3
Paso 2: Explorar y preparar los datos
11.4
Paso 3: entrenar un modelo en los datos
11.5
Paso 4: evaluar el rendimiento del modelo
11.6
Paso 5: mejorando el ajuste
11.6.1
Usando
caret
11.6.2
Ejercicio
11.7
Redes neuronales convolucionales
II Aprendizaje no supervizado
12
Análisis de componentes principales
12.1
Planteamiento
12.2
Notación
12.3
Cálculo del primer componente
12.4
En R
12.4.1
FactoMineR
12.5
Ejemplo
12.5.1
Paso 1: recopilación de datos
12.5.2
Paso 2: Explorar y preparar los datos
12.5.3
Paso 3: entrenar un modelo en los datos
12.5.4
Paso 4: evaluar el rendimiento del modelo
12.5.5
Paso 5: mejorando el ajuste
12.6
ACP: Datos de
rating
de marca del consumidor
12.6.1
Datos
12.6.2
Reescalando los datos
12.6.3
Media de los ratings por marca
12.7
Análisis de componentes principales y mapas perceptuales
12.7.1
Mapas perceptuales de las marcas
12.7.2
Precauciones
13
Bosques Aleatorios (
Random Forest
)
13.1
Usando caret
13.1.1
Ejercicio
14
K-medias
14.1
Algoritmo
14.2
Ejemplo
14.2.1
Paso 1: recopilación de datos
14.2.2
Paso 2: Explorar y preparar los datos
14.2.3
Paso 3: entrenar un modelo en los datos
14.2.4
Paso 4: evaluar el rendimiento del modelo
14.2.5
Paso 5: mejorando el ajuste
15
K-medoides
15.1
Algoritmo:
15.1.1
Paso 1: recopilación de datos
15.1.2
Paso 2: Explorar y preparar los datos
15.1.3
Paso 3: entrenar un modelo en los datos
15.1.4
Paso 4: evaluar el rendimiento del modelo
15.1.5
Paso 5: mejorando el ajuste
16
Conglomerados jerárquicos
16.1
Interpretación
16.2
Algoritmo
16.2.1
Funciones para fusionar grupos
17
Vecinos más cercanos
18
DBSCAN
18.1
Ejercicios
19
Compensación entre sesgo & varianza
19.1
Setup
19.2
Descomposición del error esperado en el conjunto de prueba
19.3
Detección de alto sesgo y alta varianza
19.3.1
Régimen 1 (alta varianza)
19.3.2
Régimen 2 (alto sesgo)
19.3.3
Simulación
19.4
Selección de variables y remuestreo
19.4.1
Selección de variables
19.4.2
Ejercicio 1
19.5
Cross-validación
19.5.1
Ejemplo 1
19.6
Estimación de hiperparámetros
19.6.1
Ejemplo 2
III Procesamiento de lenguaje natural
20
Introducción
20.1
Un flujo de trabajo
21
Fuentes de datos
21.1
Usando el paquete
rvest
21.1.1
Minando múltiples páginas
21.2
Whatsapp
21.3
Archivos
.txt
21.4
Twitter
22
Manipulación de textos: extrayendo atributos de textos
22.1
Número de caracteres y sustitución
22.2
Pegar, dividir y extraer caracteres
22.3
Buscando palabras
22.4
Limpieza de texto
22.5
Textos frecuentes
22.6
Asociación
22.7
Redes
22.8
Dendograma
22.9
Nube de palabras
23
Modelización con NLP
24
Análisis de sentimientos
24.1
Polaridad
24.2
Usando
qdap
Referencias
Apéndices
A
Estadística descriptiva & distribuciones de probabilidad
A.1
¿Qué es la estadística?
A.1.1
Clasificación
A.1.2
Definiciones básicas
A.1.3
Ejemplos (¿Cuál es la población? ¿Cuál es la unidad muestral?):
A.1.4
Datos y escalas de medición
A.1.5
Tipos de variables
A.1.6
Escalas de medición
A.1.7
Valores atípicos
A.2
Características de los datos
A.3
Distribución de frecuencias
A.3.1
Elaboración de una tabla de frecuencias
A.4
Representaciones gráficas de los datos
A.4.1
Gráfico de sectores y de barras
A.4.2
Histograma
A.5
Medidas de locación
A.5.1
Media
A.5.2
Mediana
A.5.3
Moda
A.5.4
Media geométrica
A.5.5
Cuantiles
A.6
Medidas de dispersión
A.6.1
La desviación estándar
A.7
Notación de probabilidad
A.8
Interpretación de los operadores de conjuntos
A.9
Funciones importantes
A.10
Algunas consecuencias
A.10.1
Ejemplo
A.10.2
Respuesta
A.11
Variables aleatorias
A.12
Ejemplos de v.a.
A.13
Función de masa de probabilidad
\(p(x)\)
A.13.1
Ejemplo
A.14
Función de densidad
A.14.1
Ejemplo
A.15
Función de distribución acumulada
A.15.1
Ejemplo
A.16
Cuantiles
A.16.1
Ejemplo
A.17
Nociones de Muestreo
A.17.1
¿Muestra o Censo?
A.17.2
Reseña histórica
A.17.3
Diseño muestral
B
Remuestreo
B.1
Bootstrap
B.1.1
El Principio Bootstrap
B.1.2
Tipos de bootstrap
B.1.3
Bootstrap para datos i.i.d.
B.1.4
Ejemplo
B.2
Jacknife
C
Álgebra lineal
Machine Learning: Teoría y Práctica
C
Álgebra lineal