Capítulo 4 POC - Enlazado probabilístico

En ausencia de identificadores de entidad únicos, los atributos disponibles en común en dos bases de datos (como los nombres, direcciones o fechas de nacimiento de los pacientes o clientes) deben utilizarse para hacer coincidir los registros. Como los valores en tales atributos pueden estar equivocados, faltantes o sin datos, y debido a que la cantidad de valores y las distribuciones pueden diferir entre atributos, deben asignarse diferentes pesos a diferentes atributos cuando se utilizan para calcular las similitudes entre los registros.

Además dichos pesos no solo deben depender de las características generales de los atributos; también deben depender de los valores de atributos reales en un determinado par de registros candidatos. Por ejemplo, si dos registros tienen un valor de apellido ‘Smith’, el peso otorgado para este acuerdo de valores debe ser más pequeño que el peso dado a dos registros que ambos tienen el valor del apellido ‘Dijkstra’, asumiendo que el número de personas con el apellido ‘Dijkstra’ es mucho más pequeño que el número de personas con el apellido ‘Smith’ en las bases de datos. Esto se debe a la probabilidad de que dos registros seleccionados al azar tengan el valor del apellido ‘Smith’ es mucho más alto que la probabilidad de que tengan el apellido ‘Dijkstra’.

El paquete Fastlink (Enamorado, Fifield, and Imai 2018b) implementa este algoritmo para el entorno de computación estadística R.

Otros paquetes utilizados han sido dplyr (Wickham et al. 2018), para la manipulación de datos, ggplot2 (Wickham and Chang 2016) para visualización, knitr (Xie 2018b), para la generación dinámica de documentación y DataExplorer (Cui 2018) para el análisis de datos.

References

Wickham, Hadley, Romain François, Lionel Henry, and Kirill Müller. 2018. Dplyr: A Grammar of Data Manipulation. https://CRAN.R-project.org/package=dplyr.

Wickham, Hadley, and Winston Chang. 2016. Ggplot2: Create Elegant Data Visualisations Using the Grammar of Graphics. https://CRAN.R-project.org/package=ggplot2.

Xie, Yihui. 2018b. Knitr: A General-Purpose Package for Dynamic Report Generation in R. https://CRAN.R-project.org/package=knitr.

Cui, Boxuan. 2018. DataExplorer: Data Explorer. https://CRAN.R-project.org/package=DataExplorer.