String Distances for Near-duplicate Detection



Título del documento: String Distances for Near-duplicate Detection
Revista: Polibits
Base de datos: PERIÓDICA
Número de sistema: 000355835
ISSN: 1870-9044
Autores: 1
1
1
2
Instituciones: 1University of Bucharest, Faculty of Mathematics and Computer Science, Bucarest. Rumania
2University of Bucharest, Faculty of Foreign Languages and Literatures, Bucarest. Rumania
Año:
Número: 45
País: México
Idioma: Inglés
Tipo de documento: Artículo
Enfoque: Analítico, descriptivo
Resumen en inglés Near-duplicate detection is important when dealing with large, noisy databases in data mining tasks. In this paper, we present the results of applying the Rank distance and the Smith-Waterman distance, along with more popular string similarity measures such as the Levenshtein distance, together with a disjoint set data structure, for the problem of near-duplicate detection
Disciplinas: Ciencias de la computación
Palabras clave: Procesamiento de datos,
Análisis y sistematización de la información,
Minería de datos,
Detección de duplicados,
Similitud de cadenas,
Bases de datos
Keyword: Computer science,
Data processing,
Information analysis,
Data mining,
Duplicates detection,
String similarity,
Data bases
Texto completo: Texto completo (Ver HTML)