Estudio sobre la detección de duplicados en orígenes de datos heterogéneos

View/ Open
Date
2014Author
Version
Acceso abierto / Sarbide irekia
Type
Trabajo Fin de Grado/Gradu Amaierako Lana
Impact
|
nodoi-noplumx
|
Abstract
Las aplicaciones de manipulación de datos realizan tareas sobre datos extraídos de muy diferentes fuentes, cada una de ellas con sus propias particularidades como, por ejemplo: errores tipográficos, diferentes cantidades de información o atributos distintos. La necesidad de trabajar con estos datos tan heterogéneos suele provocar el problema de tener que identificar distintas filas como el mismo ...
[++]
Las aplicaciones de manipulación de datos realizan tareas sobre datos extraídos de muy diferentes fuentes, cada una de ellas con sus propias particularidades como, por ejemplo: errores tipográficos, diferentes cantidades de información o atributos distintos. La necesidad de trabajar con estos datos tan heterogéneos suele provocar el problema de tener que identificar distintas filas como el mismo objeto en la vida real, ya que cada origen de datos representa ese objeto de forma distinta.
“Record Linkage” (o “Duplicate Detection”) es el término referido a la tarea de encontrar filas que representan una misma entidad entre distintas fuentes, normalmente usando las denominadas “String Similarity Metrics”. Una “String Metric” es una medida que establece la similitud o disimilitud entre dos cadenas de texto o “strings’. Algunas de las “String Metrics” más conocidas son: la distancia de Hamming, la distancia de Levenshtein, la distancia de Jaro-Winkler y la similitud de Jaccard.
En este proyecto, se estudian los algoritmos de detección de duplicados más comunes, probando concretamente la solución propuesta por Microsoft [--]
Subject
Duplicación de datos,
Record Linkage,
String Metric
Degree
Graduado o Graduada en Ingeniería Informática por la Universidad Pública de Navarra /
Informatika Ingeniaritzako Graduatua Nafarroako Unibertsitate Publikoan