4.5 Enlazado

Fastlink tiene dos modos de funcionamiento. Se puede llamar a cada una de las partes del proceso por separado (más flexibilidad) o se puede llamar a un ‘wrapper’ que ejecuta el enlazado en un único paso (por cada ‘cluster’).

Tarda menos de 8 minutos en procesar un ‘cluster’ de cada base de datos. En el ejemplo hay 100 clusters, por lo que tardaría 800 minutos (13,3 horas) en enlazar las dos bases de datos.

Muestra con probabilidad mayor de 0.95

Resultado prob > 0.95

Figura 4.1: Resultado prob > 0.95

El primer enlazado no tiene probabilidad 1 por la diéresis de SANGÜESA. Es una posible mejora en el preprocesado de datos. El segundo enlazado tiene menos probabilidad que el primero por la diferencia en los municipios (“ESTELLA O LIZARRA”" frente a “ESTELLA”). El uso de un Nomenclator para los municipios también sería una mejora.

Muestra con probabilidad entre 0.80 y 0.95

Resultado 0.80 < prob < 0.95

Figura 4.2: Resultado 0.80 < prob < 0.95