Revista: | Polibits |
Base de datos: | PERIÓDICA |
Número de sistema: | 000355835 |
ISSN: | 1870-9044 |
Autores: | Danaila, Iulia1 Dinu, Liviu P1 Niculae, Vlad1 Sulea, Octavia-Maria2 |
Instituciones: | 1University of Bucharest, Faculty of Mathematics and Computer Science, Bucarest. Rumania 2University of Bucharest, Faculty of Foreign Languages and Literatures, Bucarest. Rumania |
Año: | 2012 |
Número: | 45 |
País: | México |
Idioma: | Inglés |
Tipo de documento: | Artículo |
Enfoque: | Analítico, descriptivo |
Resumen en inglés | Near-duplicate detection is important when dealing with large, noisy databases in data mining tasks. In this paper, we present the results of applying the Rank distance and the Smith-Waterman distance, along with more popular string similarity measures such as the Levenshtein distance, together with a disjoint set data structure, for the problem of near-duplicate detection |
Disciplinas: | Ciencias de la computación |
Palabras clave: | Procesamiento de datos, Análisis y sistematización de la información, Minería de datos, Detección de duplicados, Similitud de cadenas, Bases de datos |
Keyword: | Computer science, Data processing, Information analysis, Data mining, Duplicates detection, String similarity, Data bases |
Texto completo: | Texto completo (Ver HTML) |