Document Level Emotion Tagging: Machine Learning and Resource Based Approach



Título del documento: Document Level Emotion Tagging: Machine Learning and Resource Based Approach
Revue: Computación y sistemas
Base de datos: PERIÓDICA
Número de sistema: 000352723
ISSN: 1405-5546
Autores: 1
1
Instituciones: 1Jadavpur University, Department of Computer Science and Engineering, Calcuta, Bengala Occidental. India
Año:
Periodo: Oct-Dic
Volumen: 15
Número: 2
Paginación: 221-234
País: México
Idioma: Inglés
Tipo de documento: Artículo
Enfoque: Aplicado, descriptivo
Resumen en español El objetivo de este trabajo es identificar las emociones en documentos escritos en bengalí extraídos de un blog usando dos enfoques distintos. El primer enfoque es aprendizaje automático en el cual se acumula la información de los documentos a partir de las oraciones obtenidas a través de análisis de palabras, es decir, en el nivel más granular, mientras que el segundo enfoque está basado en recursos de los cuales usamos el Bengalí WordNet Affect —un recurso léxico que incluye palabras del bengalí etiquetadas con emociones. En el primer enfoque, la máquina de soporte vectorial (Support Vector Machine, SVM) se usa para la clasificación a nivel de palabras. El valor afectivo de las oraciones se calcula según la técnica basada en promediar los puntajes de pesos asignados a los significados de palabras etiquetadas con emociones en estas oraciones. La suma acumulada de los puntajes afectivos de las oraciones se asigna a cada documento tomando en cuenta diversas características heurísticas. El segundo enfoque implementa el método basado en mayoría para clasificar un documento dado considerando las listas del Bengalí WordNet Affect. En ambos enfoques, en vez de asignar una única etiqueta afectiva a un documento dado, las dos mejores etiquetas afectivas se asignan a cada documento según los puntajes afectivos obtenidos ordenados. Usando la combinación de las mejores características obtenida del conjunto de desarrollo, al evaluar 110 documentos de prueba resulta un valor promedio de la métrica F–score en los dos enfoques 59,50% y 51,07% respectivamente para toda clase de emociones
Resumen en inglés The present task involves the identification of emotions from Bengali blog documents using two separate approaches. The first one is a machine learning approach that accumulates document level information from sentences obtained from word level granular detail whereas the second one is a resource based approach that considers the Bengali WordNet Affect, the word level Bengali affective lexical resource. In the first approach, the Support Vector Machine (SVM) classifier is employed to perform the word level classification. Sense weight based average scoring technique determines the sentential emotion scores based on the word level emotion tagged constituents. The cumulative summation of sentential emotion scores is assigned to each document considering the combinations of various heuristic features. The second one implements a majority based approach to classify a given document considering the Bengali WordNet Affect lists. Instead of assigning a single emotion tag to a document, in both approaches, the best two emotion tags are assigned to each document according to the ordered emotion scores obtained. By applying the best feature combination acquired from the development set, the evaluation of 110 test documents yields the average F–Scores of 59.50% and 51.07% for the two approaches respectively with respect to all emotion classes
Disciplinas: Ciencias de la computación
Palabras clave: Procesamiento de datos,
Procesamiento de lenguaje natural,
Lingüística computacional,
Heurística,
Etiquetado,
Emociones
Keyword: Computer science,
Data processing,
Natural language processing,
Computing linguistics,
Heuristics,
Tagging,
Emotions
Texte intégral: Texto completo (Ver HTML)