Clasificación de Textos Multi-etiquetados con Modelo Bernoulli Multi-variado y Representación Dependiente de la Etiqueta



Document title: Clasificación de Textos Multi-etiquetados con Modelo Bernoulli Multi-variado y Representación Dependiente de la Etiqueta
Journal: Revista signos
Database: CLASE
System number: 000539402
ISSN: 0035-0451
Authors: 1
1
Institutions: 1Universidad Técnica Federico Santa María, Valparaíso. Chile
2Pontificia Universidad Católica de Valparaíso, Valparaíso. Chile
Year:
Season: Dic
Volumen: 53
Number: 104
Pages: 549-567
Country: Chile
Language: Español
Document type: Artículo
Approach: Analítico, descriptivo
Spanish abstract La asignación de una o más categorías predefinidas a los textos en lenguaje natural, basados en su contenido, es un componente importante y necesario en muchas tareas al interior de las organizaciones. Esta tarea se realiza comúnmente a través de la clasificación automática de textos, esto es, clasificando documentos dentro de un conjunto de categorías predefinidas por medio de un modelo y método computacional. La representación de los textos para propósitos de clasificación automática ha sido tradicionalmente llevada a cabo usando un modelo de espacio vectorial debido a su simplicidad y buen rendimiento. Por otro lado, la clasificación automática de textos por multi-etiquetados ha sido típicamente abordada utilizando métodos de clasificación de etiqueta simple, lo que implica transformar el problema estudiado para aplicar técnicas binarias o adaptar algoritmos binarios para que funcionen con múltiples etiquetas. En este artículo el objetivo es evaluar un factor de ponderación de las palabras de los textos en el modelo booleano para representación de texto en clasificación multi-etiqueta, usando una combinación de dos enfoques: transformación de problema y adaptación de modelo. Este factor de ponderación y la combinación de enfoques en la clasifiación automática fue puesto a prueba con cuatro diferentes conjuntos de datos textuales utilizados en la literatura especializada y comparado con técnicas alternativas por medio de tres medidas de evaluación. Los resultados presentan mejoras superiores al 10% en el rendimiento de los clasificadores, atribuidas a nuestra propuesta, en todos los casos analizados
English abstract The allocation of natural language texts to one or more predefined categories or classes based on their content is an important component and a recent need in many information organization and management tasks. Automatic text classification is the task of categorizing documents to a predefined set of classes by a computational method or model. Text representation for classification purposes has been traditionally approached using a vector space model due to its simplicity and good performance. On the other hand, multi-label automatic text classification has been typically addressed either by transforming the problem under study to apply binary techniques or by adapting binary algorithms to work with multiple labels. In this article, the objective is to evaluate a term-weighting factor in the Boolean model for text representation in multi-label classification, using a mix of two approaches: problem transformation and model adaptation. This term-weighting factor and the combination of approaches in the automatic text classification was tested with four different sets of textual data used in the specialized literature and compared with alternative techniques by means of three measures of evaluation. The results present improvements of more than 10% in the performance of the classifiers, attributed to our proposal, in all the cases analyzed
Disciplines: Literatura y lingüística,
Matemáticas
Keyword: Sociolingüística,
Matemáticas aplicadas,
Multi-etiqueta,
Clasificación de textos,
Representación de textos,
Transformación del problema,
Ponderación de términos
Keyword: Sociolinguistics,
Applied mathematics,
Multi-label,
Text classification,
Text representation,
Problem transformation,
Term weighting
Full text: Texto completo (Ver HTML) Texto completo (Ver PDF)