String Distances for Near-duplicate Detection


Título del documento:	String Distances for Near-duplicate Detection
Revista:	Polibits
Base de datos:	PERIÓDICA
Número de sistema:	000355835
ISSN:	1870-9044
Autores:	Danaila, Iulia¹ Dinu, Liviu P¹ Niculae, Vlad¹ Sulea, Octavia-Maria²
Instituciones:	¹University of Bucharest, Faculty of Mathematics and Computer Science, Bucarest. Rumania ²University of Bucharest, Faculty of Foreign Languages and Literatures, Bucarest. Rumania
Año:	2012
Número:	45
País:	México
Idioma:	Inglés
Tipo de documento:	Artículo
Enfoque:	Analítico, descriptivo
Resumen en inglés	Near-duplicate detection is important when dealing with large, noisy databases in data mining tasks. In this paper, we present the results of applying the Rank distance and the Smith-Waterman distance, along with more popular string similarity measures such as the Levenshtein distance, together with a disjoint set data structure, for the problem of near-duplicate detection
Disciplinas:	Ciencias de la computación
Palabras clave:	Procesamiento de datos, Análisis y sistematización de la información, Minería de datos, Detección de duplicados, Similitud de cadenas, Bases de datos
Keyword:	Computer science, Data processing, Information analysis, Data mining, Duplicates detection, String similarity, Data bases
Texto completo:	Texto completo (Ver HTML)

Espere un momento...