1.4 Prueba de concepto
Durante la redacción del estudio de viabilidad se ha puesto de manifiesto una incertidumbre técnica: la combinación de bases de datos departamentales para obtener la base de datos corporativa. Es un problema típico, denominado “enlazado de registros” (record linkage) o “coincidencia de datos” (data matching).
Para resolver dicha incertidumbre hemos realizado una prueba de concepto enlazando dos bases de datos siguiendo las indicaciones del libro ‘Data Matching’ de Peter Christen (Christen 2012)
En la prueba de concepto hemos comparado algunas técnicas de enlazado deterministas que ya estamos haciendo en Gobierno de Navarra con otras más avanzadas, descritas en dicho libro. En el capítulo 4 de este documento se describe cómo hemos implementado el enlazado probabilístico, metodo utilizado, por ejemplo, por el Instituto Vasco de Estadística (Eustat). En el capítulo 5 de describe como hemos implementado la clasificación mediante Aprendizaje Máquina.
Como conclusión, la clasificación probabilística y, sobre todo, la clasificación mediante aprendizaje máquina representan una mejora frente a los algoritmos deterministas, mejora que es mayor cuanto menor es la calidad de las bases de datos a enlazar.
Toda la prueba de concepto se ha desarrollado con el entorno de computación estadística R2, incluido este documento, creado con el paquete rbookdown (Xie 2018a).
References
Christen, Peter. 2012. Data Matching, Concepts and Techniques for Record Linkage, Entity Resolution, and Duplicate Detection. https://www.springer.com/in/book/9783642311635.
Xie, Yihui. 2018a. Bookdown: Authoring Books and Technical Documents with R Markdown. https://CRAN.R-project.org/package=bookdown.
The R Project for Statistical Computing https://www.r-project.org/↩