Introducing Biases in Document Clustering



Título del documento: Introducing Biases in Document Clustering
Revue: Computación y sistemas
Base de datos: PERIÓDICA
Número de sistema: 000373003
ISSN: 1405-5546
Autores: 1
Instituciones: 1Centro de Reconocimiento de Patrones y Minería de Datos, Division de Manejo de Contenidos y Sistemas, Santiago de Cuba. Cuba
Año:
Periodo: Ene-Mar
Volumen: 18
Número: 1
Paginación: 137-151
País: México
Idioma: Inglés
Tipo de documento: Artículo
Enfoque: Experimental, aplicado
Resumen en español En este artículo se presentan tres criterios para la introducción de sesgos en algoritmos de agrupamiento de documentos, cuando se dispone de información que caracteriza las colecciones de documentos. Nos concentramos en colecciones de las que se conoce que son el resultado de un proceso de categorización o filtrado de documentos basado en muestras. Nuestras propuestas utilizan perfiles, es decir muestras de documentos de las que se conoce que han sido utilizadas para obtener la colección, para extraer estadísticos que determinan los sesgos a introducir. Llevamos a cabo una evaluación experimental sobre un conjunto de colecciones extraídas del corpus ampliamente utilizado RCV1, que nos permiten confirmar la validez de nuestras propuestas y determinar un número de situaciones donde los agrupamientos sesgados según diferentes criterios superan a sus contrapartes no sesgadas
Resumen en inglés In this paper, we present three criteria for introducing biases in document clustering algorithms, when information characterizing the document collections is available. We focus on collections known to be the result of a document categorization or sample-based document filtering process. Our proposals rely on profiles, i.e., document samples known to have been used for obtaining the collection, to extract statistics which determine the biases to introduce. We conduct an experimental evaluation over a number of collections extracted from the widely used corpus RCV1, which allows us to confirm the validity of our proposals and determine a number of situations where biased clusterings, according to different criteria, outperform their unbiased counterparts
Disciplinas: Ciencias de la computación
Palabras clave: Análisis de sistemas,
Algoritmos,
Agrupamiento de documentos,
Sesgo
Keyword: Computer science,
Systems analysis,
Algorithms,
Document clustering,
Bias
Texte intégral: Texto completo (Ver HTML)