4.6 Muestra para aprendizaje máquina
Para el siguiente capítulo vamos a usar como conjunto de datos la muestra correspondiente al enlazado de FastLink de dos ‘clusters’
num_grupos <- 20
cl_out <- clusterMatch(
vecA = nastat_personas$bdc_nombre,
vecB = registra_personas$bdc_nombre,
nclusters = num_grupos
)
nastat_personas$cluster <- cl_out$clusterA
registra_personas$cluster <- cl_out$clusterB
dfA <- subset(nastat_personas, cluster == 1)
dfB <- subset(registra_personas, cluster == 1)
matches.out <- fastLink(
dfA = dfA, dfB = dfB,
varnames = varnames,
stringdist.match = stringdist.match,
partial.match = partial.match,
verbose = TRUE,
n.cores = 1
)
enlaces <- data.frame(id_persona_a=dfA[matches.out$matches$inds.a,]$id_persona,
id_persona_b=dfB[matches.out$matches$inds.b,]$id_persona,
prob = matches.out$posterior, stringsAsFactors = FALSE) %>%
arrange(desc(prob))
patrones <- matches.out$patterns
colnames(patrones) = varnames
patrones <- patrones %>%
mutate(id_persona_a=dfA[matches.out$matches$inds.a,]$id_persona,
id_persona_b=dfB[matches.out$matches$inds.b,]$id_persona)
enlaces <- enlaces %>%
inner_join(nastat_personas, by= c("id_persona_a" = "id_persona")) %>%
inner_join(registra_personas, by= c("id_persona_b" = "id_persona")) %>%
inner_join(patrones, by= c("id_persona_a", "id_persona_b")) %>%
arrange(desc(prob))
save(dfA,dfB,matches.out,enlaces, file="bdc_poc_2.rda")