• BCP - POC
  • 1 Resumen ejecutivo
    • 1.1 Motivación
    • 1.2 Objetivos de negocio
    • 1.3 Concepto de solución
      • 1.3.1 Base de datos corporativa de personas.
      • 1.3.2 Gestión de datos de contacto
      • 1.3.3 Gestión de datos de identificación
      • 1.3.4 Servicio de consulta
      • 1.3.5 Restricciones legales
      • 1.3.6 Supervisión jurídica
      • 1.3.7 Análisis
      • 1.3.8 Impacto en unidades departamentales
    • 1.4 Prueba de concepto
  • 2 Concepto de solución
    • 2.1 Gestión de datos de contacto
      • 2.1.1 En nombre propio
      • 2.1.2 En representación
    • 2.2 Gestión de datos de identificación
      • 2.2.1 En nombre propio
      • 2.2.2 En representación
      • 2.2.3 Telemáticamente
      • 2.2.4 Maqueta del formulario
    • 2.3 Servicio de consulta
    • 2.4 Base de Datos Corporativa
      • 2.4.1 Incorporación de una BD departamental
      • 2.4.2 Impacto en unidades departamentales
    • 2.5 Prueba de concepto
      • 2.5.1 Origen de datos
      • 2.5.2 Preprocesado de datos
      • 2.5.3 Enlazado probabilístico
      • 2.5.4 Aprendizaje máquina
      • 2.5.5 Resultados
  • 3 POC - Preprocesado de datos
    • 3.1 Registro de población
      • 3.1.1 Carga
      • 3.1.2 Análisis
      • 3.1.3 Normalizado
    • 3.2 Registr@
      • 3.2.1 Carga
      • 3.2.2 Análisis
      • 3.2.3 Filtrado
      • 3.2.4 Normalización
  • 4 POC - Enlazado probabilístico
    • 4.1 Variable sexo
    • 4.2 Fastlink
    • 4.3 Indexado
    • 4.4 Variables de enlazado
    • 4.5 Enlazado
    • 4.6 Muestra para aprendizaje máquina
  • 5 POC - Aprendizaje máquina
    • 5.1 Métricas
      • 5.1.1 Matriz de confusión
      • 5.1.2 Exactitud, sensibilidad y precisión (Accuracy, recall & precision)
    • 5.2 Revisión manual
      • 5.2.1 Información extra
      • 5.2.2 Clasificación
    • 5.3 Ingeniería de características
      • 5.3.1 Nombre completo
      • 5.3.2 Distancias
      • 5.3.3 Frecuencia de los nombres
      • 5.3.4 Id. nacional o extranjero
      • 5.3.5 Es menor de 14 años
      • 5.3.6 Subcadenas
    • 5.4 Clasificación
      • 5.4.1 Conjuntos de entrenamiento y de prueba
      • 5.4.2 Clasificación de referencia
      • 5.4.3 Arbol de decisión
      • 5.4.4 Bosque aleatorio
    • 5.5 Comparación de resultados
      • 5.5.1 Resultados iniciales
      • 5.5.2 Igualdad de condiciones
      • 5.5.3 Conclusiones
    • 5.6 Aprendizaje activo
    • 5.7 Referencias
  • Published with bookdown

Base de datos corporativa de personas

4.6 Muestra para aprendizaje máquina

Para el siguiente capítulo vamos a usar como conjunto de datos la muestra correspondiente al enlazado de FastLink de dos ‘clusters’

num_grupos <- 20

cl_out <- clusterMatch(
  vecA = nastat_personas$bdc_nombre, 
  vecB = registra_personas$bdc_nombre, 
  nclusters = num_grupos
)

nastat_personas$cluster <- cl_out$clusterA
registra_personas$cluster <- cl_out$clusterB

dfA <- subset(nastat_personas, cluster == 1)
dfB <- subset(registra_personas, cluster == 1)
  
matches.out <- fastLink(
 dfA = dfA, dfB = dfB,
 varnames = varnames,
 stringdist.match = stringdist.match,
 partial.match =    partial.match,
 verbose = TRUE, 
 n.cores = 1
)

enlaces <- data.frame(id_persona_a=dfA[matches.out$matches$inds.a,]$id_persona,
                      id_persona_b=dfB[matches.out$matches$inds.b,]$id_persona,
                      prob = matches.out$posterior, stringsAsFactors = FALSE) %>% 
  arrange(desc(prob))

patrones <- matches.out$patterns
colnames(patrones) = varnames
patrones <- patrones %>%
  mutate(id_persona_a=dfA[matches.out$matches$inds.a,]$id_persona, 
         id_persona_b=dfB[matches.out$matches$inds.b,]$id_persona)

enlaces <- enlaces %>% 
  inner_join(nastat_personas, by= c("id_persona_a" = "id_persona")) %>% 
  inner_join(registra_personas, by= c("id_persona_b" = "id_persona")) %>% 
  inner_join(patrones, by= c("id_persona_a", "id_persona_b")) %>%
  arrange(desc(prob))

save(dfA,dfB,matches.out,enlaces, file="bdc_poc_2.rda")