4.1 Variable sexo
El enlazadado será mejor cuantas más variables compartan los registros de las bases de datros a enlazar. La base de datos del registro de población tiene un campo identificativo que no tiene la base de datos de Registr@: el campo ‘sexo’.
Esta variable la podemos deducir, en muchos casos, del nombre propio, si contamos información externa, como las tablas de nombres proporcionadas por el Instituto Nacional de Estadística (INE) y por Euskaltzaindia:
ine_nombres %>%
select(ine_nombre, ine_sexo, ine_por_mil) %>%
arrange(desc(ine_por_mil)) %>%
head(10) %>%
pulcro()
ine_nombre | ine_sexo | ine_por_mil |
---|---|---|
FRANCISCO JAVIER | M | 26.905 |
MARIA CARMEN | F | 25.825 |
JAVIER | M | 23.607 |
MARIA PILAR | F | 18.761 |
MARIA | F | 18.067 |
MARIA TERESA | F | 16.607 |
JESUS | M | 15.728 |
JOSE LUIS | M | 14.573 |
DAVID | M | 14.131 |
MARIA JESUS | F | 13.945 |
et_nombre_eu | et_nombre_es | et_sexo_nombre_eu |
---|---|---|
ABAR | RAMOS | M |
ABARNE | RAMOS | F |
ABELIN | AVELINO | M |
ABELIÑE | AVELINA | F |
ABENE | PILAR | F |
ABIATAR | ABIATHAR | M |
ABIMELEK | ABIMELEC | M |
ABIRON | ABIRAM | M |
ABRADATO | ABRADATES | M |
ABRAHAM | ABRAHAN | M |
registra_personas <- registra_personas %>%
preproceso_sexo_de_nombre(ine_nombres, nombres_eu_es)
registra_personas %>%
subset(!is.na(bdc_sexo)) %>%
select(bdc_nombre, bdc_sexo) %>%
sample_n(10) %>% pulcro()
bdc_nombre | bdc_sexo |
---|---|
ALFREDO | M |
ALBERTO | M |
LIZETH | F |
LUIS MIGUEL | M |
PAULA | F |
ELENA | F |
JOSE JULIAN | M |
PILAR | F |
AURORA | F |
ROBERTO | M |
Con esto reducimos mucho el número de valores no conocidos en esta variable: