5.2 Revisión manual

La revisión manual es inevitable en el enlazado de bases de datos reales, no necesitamos demostrarlo en la prueba de concepto. No obstante, si que necesitamos clasificar manualmente un conjunto de registros para entrenar y probar los algoritmos de aprendizaje máquina y para poder comparar el resultado de los diferentes métodos de enlazado.

Para ello hemos desarrollado un sencillo script que muestra la información de cada posible enlace junto con información externa y pregunta al usuario la clasificación.

5.2.1 Información extra

La revisión manual normalmente hace uso de información externa. En esta POC vamos a contar con la información proporcionada por:

  • El propio padrón: consultamos el número de personas que comparten nombres y apellidos.
  • El INE: proporciona una tabla con la frecuencia de los nombres propios de los residentes en Navarra.
  • La Agencia Tributaria: el proceso de revisión manual está integrado en tiempo real con un servicio Web que valida el NIF y el nombre de los contribuyentes. El único requisito es contar con un certificado digital válido:
Solicitud de permiso de acceso al certificado

Figura 5.5: Solicitud de permiso de acceso al certificado

Además de esa información externa mostramos información inferida de los propios datos:

  • Si el identificador oficial parece de un nacional o de un extranjero.
  • Si en el momento de la observación el interesado era menor de 14 años.

Fuera de la POC la revisión automática contra fuentes externas mejoraría mucho toda la solución.

5.2.2 Clasificación

El scrip de clasificación muestra la información y pregunta si los datos corresponden a la misma persona. Las respuestas posibles son sí, no o no lo sé.

Nota: los datos personales se han retocado, no se corresponden con personas reales

|id_oficial |nombre |apellido_1 |apellido_2 |sexo |fecha_nacimiento |municipio_domicilio |
|:----------|:------|:----------|:----------|:----|:----------------|:-------------------|
|89212233   |PEDRO  |FUENTE     |FUENTE     |M    |1951-08-29       |BURLADA BURLATA     |
|89212233T  |PEDRO  |LAFUENTE   |LAFUENTE   |M    |1951-09-29       |BURLADA             |
|*          |       |**         |**         |     |*                |******              |

|identificado_AT |nombre_completo_AT             |
|:---------------|:------------------------------|
|FALSE           |¿?                             |
|TRUE            |DE LA FUENTE DE LA FUENTE PEDRO|

| n_nom_ape1| n_nom_ape1_ap2| ine_por_mil|id_nacional_extranjero |menor_14 |
|----------:|--------------:|-----------:|:----------------------|:--------|
|          2|              1|       7.039|N                      |FALSE    |
|          0|              0|       7.039|N                      |FALSE    |

¿Es la misma persona? (s/n/x), return para terminar: s
|id_oficial |nombre        |apellido_1 |apellido_2 |sexo |fecha_nacimiento |municipio_domicilio |
|:----------|:-------------|:----------|:----------|:----|:----------------|:-------------------|
|87323436A  |LUISA  AMELIA |PEREZ      |CARTAGENA  |F    |1962-05-11       |PAMPLONA IRUÑA      |
|Y9836272F  |LUISA  AMELIA |PEREZ      |JIMENEZ    |¿?   |1962-05-11       |PAMPLONA            |
|*********  |              |           |********   |¿?   |                 |******              |

|identificado_AT |nombre_completo_AT            |
|:---------------|:-----------------------------|
|TRUE            |PEREZ CARTAGENA LUISA  AMELIA |
|TRUE            |PEREZ CARTAGENA LUISA  AMELIA |

| n_nom_ape1| n_nom_ape1_ap2|ine_por_mil |id_nacional_extranjero |menor_14 |
|----------:|--------------:|:-----------|:----------------------|:--------|
|          1|              1|¿?          |N                      |FALSE    |
|          1|              0|¿?          |E                      |FALSE    |

¿Es la misma persona? (s/n/x), return para terminar: s
|id_oficial |nombre |apellido_1 |apellido_2 |sexo |fecha_nacimiento |municipio_domicilio |
|:----------|:------|:----------|:----------|:----|:----------------|:-------------------|
|82328128   |LUIS   |FERNANDEZ  |MUÑOZ      |M    |2001-10-23       |PAMPLONA            |
|83428343C  |LUIS   |FERNANDEZ  |MUÑOZ      |M    |1973-12-18       |PAMPLONA            |
|*******    |       |           |           |     |*******          |                    |

|identificado_AT |nombre_completo_AT   |
|:---------------|:--------------------|
|FALSE           |¿?                   |
|TRUE            |FERNANDEZ MUÑOZ LUIS |

| n_nom_ape1| n_nom_ape1_ap2| ine_por_mil|id_nacional_extranjero |menor_14 |
|----------:|--------------:|-----------:|:----------------------|:--------|
|         33|              1|       7.039|N                      |FALSE    |
|         33|              1|       7.039|N                      |FALSE    |

¿Es la misma persona? (s/n/x), return para terminar: n
|id_oficial |nombre       |apellido_1 |apellido_2 |sexo |fecha_nacimiento |municipio_domicilio |
|:----------|:------------|:----------|:----------|:----|:----------------|:-------------------|
|X8728222J  |LUIS JAVIER  |RAMIREZ    |¿?         |M    |1962-07-06       |PAMPLONA IRUÑA      |
|25234323L  |LUIS JAVIER  |RAMIREZ    |PEREZ      |M    |1970-02-21       |¿?                  |
|*******    |             |           |¿?         |     |*****            |¿?                  |

|identificado_AT |nombre_completo_AT         |
|:---------------|:--------------------------|
|TRUE            |RAMIREZ LUIS JAVIER        |
|TRUE            |RAMIREZ LOPEZ LUIS JAVIER  |

| n_nom_ape1| n_nom_ape1_ap2| ine_por_mil|id_nacional_extranjero |menor_14 |
|----------:|--------------:|-----------:|:----------------------|:--------|
|          2|              0|       0.844|E                      |FALSE    |
|          2|              0|       0.844|N                      |FALSE    |

¿Es la misma persona? (s/n/x), return para terminar: n