3.2 Registr@

Base de datos de personas del programa de Gestión para el Registro y seguimiento de documentos Registr@ proporcionada por el Servicio de Sistemas de Información Corporativos de la [DGITIP.

3.2.2 Análisis

Número total de registros

## [1] 753834

Esta es la distribución de los datos según la fecha de la observación. Hay unas algunas observaciones muy antiguas (no muchas, la escala es logarítmica).

En cuanto a los valores no conocidos, hay unos cuantos sin id oficial, y muchos sin nombre, municipio o segundo apellido. Más de un treinta por ciento no tienen fecha de nacimiento y ninguno tiene registrado el sexo.

La distribución de las personas sin identificador oficial en función de la fecha en la que se hizo la observación indica que a partir de 2006 se recogen casi siempre este dato ( la escala es logarítmica).

En cambio, la fecha de nacimiento falta sobre todo en las observaciones más recientes, a partir del año 2000.

En cuanto al nombre, parece que casi todos los que no tienen nombre son personas jurídicas:

bdc_id_oficial bdc_apellido_1
E31723133 CAYON OUTOMURO ANA Y GARDE FABRE GUILLERMO
E31591068 CARRERA CABALLERO JC Y DOMINGUEZ DE VIDAURRE TA ZUBIRI M
B01236488 ASESORIA COFISER 2000 SL
B31220973 AYERRA IRISARRI SL
B01025709 IMPRENTA SACAL S.L.
A02055598 PEDRO GALIANO SA
NA ILUMISA, S.L.
Q3150011I INSTITUTO DE LA SALUD PUBLICA
B31949910 PRODUCCIONES MUSICALES ETXE-ONDO SL
B71208797 GARABITO 111 SL

Como hemos visto, la base de datos de Registr@ tiene personas físicas y jurídicas, y no tienen ninguna variable explícita que las distinga. Podemos filtrar por el identificador oficial.

## [1] 90661

3.2.3 Filtrado

Asumiendo que las bases de datos que proporcionarán datos a la BDC serán más completas que la de Registr@, para la POC filtraremos la base de datos de Registr@.

## [1] 753834

Prescindimos de los registros con identificador de persona jurídica

## [1] 663173

Prescindimos de los registros sin nombre (asumiendo que también son de personas jurídicas)

## [1] 641051

3.2.4 Normalización

Los identificadores oficiles pueden tener signos de puntuación.

bdc_id_oficial
.00000000
EXT981…
X907838-M
EXT090…
0.750.787
X83510…
EXT080…
EXT050…
0.818.544
EXT180…

Preprocesado del id oficial. Después del procesado no queda ningún DNI con guiones o signos de puntuación:

## # A tibble: 0 x 1
## # ... with 1 variables: bdc_id_oficial <chr>

Si miramos los id oficiales vemos que la mayoría no tienen la sintaxis de persona física:

## [1] 592362

Si miramos la pinta de los id oficiales vemos que hay muchos sin el caracter de control y con un cero:

bdc_id_oficial
072649517
034772005
018208364
072645485
015826757
010565560
073611561
03C323228
015753402
007889157

Asumiendo que son DNIs correctos, calculamos el dígito de control. Despues de procesarlo casi todos los registros tienen algo que parece un DNI/NIE. Si no fuera una POC habría que analizarlo mejor para asegurarse.

bdc_id_oficial
44569854V
72643841C
15785121Z
72809530V
15626154T
15640658Z
70900930A
51420469J
33430850M
15830327W

Para poder enlazar los registros hay que normalizarlos. Por ejemplo, el nombre “MARIA NIEVES” puede aparecer de muchas formas diferentes.

bdc_nombre
MARIA NIEVES
M NIEVES
M. NIEVES

Preprocesado del nombre y apellidos:

bdc_nombre
MARIA NIEVES

Finalmente guardamos las dos bases de datos para el siguiente paso.