Fundamentos para la Minería de Datos y Big Data I y II
About
BLOQUE 1: Introducción a la minería de datos
Clase 0. Ideas y conceptos de la asignatura
Clase 1. La realización de preguntas en ciencia (de datos)
Clase 2 Aspectos relevantes en la modelización estadística (I): el análisis descriptivo
Clase 3 Aspectos relevantes en la modelización estadística (II): Imputación de valores omitidos
Clase 4 Aspectos relevantes en la modelización estadística (III): la causalidad
Los datos de la Liga de Fútbol
Clase 5 Aspectos relevantes en la modelización estadística (IV): explorando el modelo de regresión lineal
Clase 6 Aspectos relevantes en la modelización estadística (V): el p valor
Repaso de la inferencia paramétrica básica
Desmontando el p-valor
Clase 7: Aspectos relevantes en la modelización estadística (VI): propuestas ante el p-valor.
Si le interesa más… (no es obligatorio)
Clase 8: Aspectos relevantes en la modelización estadística (VII): Más allá de la media
Importante, fin de bloque. Cosas que debe saber:
BLOQUE 2: TÉCNICAS DE APRENDIZAJE SUPERVISADO
Clase 1. La validación de modelos
Técnica 1: Entrenamiento+Test
Técnica 2: Validación Cruzada aleatoria
Cómo combinar modelos (opcional, veremos más ideas en el segundo cuatrimestre)
Reflexión sobre la elección de medidas de error
Clase 2. Los árboles de clasificación
variable objetivo cualitativa: árbol de clasificación
Clase 3. Los árboles de clasificación (elección del árbol)
Los árboles de regresión
Clase 4. Análisis discriminante lineal
Clase 5. “K” vecinos (KNN)
Apéndice: tratar de explorar e interpretar nuestros modelos
Ejemplo con los datos “Heart”
0.1
Primer intento
0.2
El paquete IML
0.2.1
La función “Efectos locales acumulados: ALE”
BLOQUE 3. TÉCNICAS DE APRENDIZAJE NO SUPERVISADO
Clase 1. “K means” y dendrograma
Ejemplo aplicado
“El dendrograma”
Clase 2: Componentes Principales
Algunas ideas de álgebra y geometría
La noción de proyección ortogonal
Autovalores y autovectores
El método de los componentes principales (PCA)
Aplicación con datos reales: el informe PISA
0.2.2
Apéndice
BLOQUE 4: Simulación de variables aleatorias
Clase 1. Introducción a los generadores de números aleatorios
Un generador congruencial
Clase 2: La distribución normal. Entendiendo el Teorema Central del Límite
El Teorema Central del Límite
Clase 3: Usos de la simulación (1): entender conceptos de estadística y probabilidad
El intervalo de confianza
El p valor
Clase 4: Simulación de un modelo de regresión
Clase 6: la técnica del bootstrapping
Clase 7: la técnica del bootstrapping aplicada a la regresión
BLOQUE 5: Introducción al aprendizaje automático
clase 1: así resuelven problemas de optimización los ordenadores
Clase 2: Los modelos de redes neuronales (I)
Ejemplo 1: Un modelo lineal
Clase 3: Los modelos de redes neuronales (II)
Ejemplo 2: un modelo logístico
Clase 4: Entrenamiento de modelos de redes neuronales(I)
Entrenamiento de modelos de redes neuronales(II)
BLOQUE 6: Casos de interés en Ciencia de Datos
1
Sharing your book
1.1
Publishing
1.2
404 pages
1.3
Metadata for sharing
References
Published with bookdown
Fundamentos para la Minería de Datos y Big Data I,II
BLOQUE 6: Casos de interés en Ciencia de Datos