4.1 Variable sexo
El enlazadado será mejor cuantas más variables compartan los registros de las bases de datros a enlazar. La base de datos del registro de población tiene un campo identificativo que no tiene la base de datos de Registr@: el campo ‘sexo’.
Esta variable la podemos deducir, en muchos casos, del nombre propio, si contamos información externa, como las tablas de nombres proporcionadas por el Instituto Nacional de Estadística (INE) y por Euskaltzaindia:
ine_nombres %>%
select(ine_nombre, ine_sexo, ine_por_mil) %>%
arrange(desc(ine_por_mil)) %>%
head(10) %>%
pulcro()| ine_nombre | ine_sexo | ine_por_mil |
|---|---|---|
| FRANCISCO JAVIER | M | 26.905 |
| MARIA CARMEN | F | 25.825 |
| JAVIER | M | 23.607 |
| MARIA PILAR | F | 18.761 |
| MARIA | F | 18.067 |
| MARIA TERESA | F | 16.607 |
| JESUS | M | 15.728 |
| JOSE LUIS | M | 14.573 |
| DAVID | M | 14.131 |
| MARIA JESUS | F | 13.945 |
| et_nombre_eu | et_nombre_es | et_sexo_nombre_eu |
|---|---|---|
| ABAR | RAMOS | M |
| ABARNE | RAMOS | F |
| ABELIN | AVELINO | M |
| ABELIÑE | AVELINA | F |
| ABENE | PILAR | F |
| ABIATAR | ABIATHAR | M |
| ABIMELEK | ABIMELEC | M |
| ABIRON | ABIRAM | M |
| ABRADATO | ABRADATES | M |
| ABRAHAM | ABRAHAN | M |
registra_personas <- registra_personas %>%
preproceso_sexo_de_nombre(ine_nombres, nombres_eu_es)
registra_personas %>%
subset(!is.na(bdc_sexo)) %>%
select(bdc_nombre, bdc_sexo) %>%
sample_n(10) %>% pulcro()| bdc_nombre | bdc_sexo |
|---|---|
| ALFREDO | M |
| ALBERTO | M |
| LIZETH | F |
| LUIS MIGUEL | M |
| PAULA | F |
| ELENA | F |
| JOSE JULIAN | M |
| PILAR | F |
| AURORA | F |
| ROBERTO | M |
Con esto reducimos mucho el número de valores no conocidos en esta variable:
