Extracting Phrases Describing Problems with Products and Services from Twitter Messages



Título del documento: Extracting Phrases Describing Problems with Products and Services from Twitter Messages
Revue: Computación y sistemas
Base de datos: PERIÓDICA
Número de sistema: 000365507
ISSN: 1405-5546
Autores: 1
Instituciones: 1AT & T Labs - Research, Inc, Florham Park, New Jersey. Estados Unidos de América
Año:
Periodo: Abr-Jun
Volumen: 17
Número: 2
Paginación: 197-206
País: México
Idioma: Inglés
Tipo de documento: Artículo
Enfoque: Experimental, aplicado
Resumen en español Medios sociales de comunicación contienen muchos tipos de información útil para las empresas. En este artículo se considera un enfoque orientado al método de "desencadenante-objetivo" para extraer descripciones de problemas de los datos de Twitter. Es importante mencionar que las descripciones de problemas son declaraciones de hechos a diferencia de opiniones subjetivos acerca de productos/servicios. En primer lugar se identifican los tweets de problema, es decir los tweets que contienen descripciones de problemas. En el enfoque propuesto tales descripciones se extraen como una combinación de frases de desencadenante y objetivo. Desencadenantes son en su mayoría frases verbales independientes del dominio y se identifican mediante patrones léxicos y sintácticos creados manualmente. Por otro lado, objetivos son frases nominales específicas del dominio particular y sintácticamente relacionadas con las desencadenantes. Se ataca el problema de encontrar la frase objetivo correspondiente a la frase desencadenante dada como un problema de ranking y se presentan los resultados de experimentos con clasificadores de máxima entropía y perceptrones de votación. El rendimiento de ambos enfoques es mejor que el del enfoque basado en reglas reportado anteriormente
Resumen en inglés Social media contain many types of information useful to businesses. In this paper we discuss a trigger-target based approach to extract descriptions of problems from Twitter data. It is important to note that the descriptions of problems are factual statements as opposed to subjective opinions about products/services. We first identify the problem tweets i.e. the tweets containing descriptions of problems. We then extract the phrases that describe the problem. In our approach such descriptions are extracted as a combination of trigger and target phrases. Triggers are mostly domain independent verb phrases and are identified by using hand crafted lexical and syntactic patterns. Targets on the other hand are domain specific noun phrases syntactically related to the triggers. We frame the problem of finding target phrase corresponding to a trigger phrase as a ranking problem and show the results of experiments with maximum entropy classifiers and voted perceptrons. Both approaches outperform the rule based approach reported before
Disciplinas: Ciencias de la computación
Palabras clave: Procesamiento de datos,
Lingüística computacional,
Redes sociales,
Extracción de información,
Clasificación de textos,
Twitter
Keyword: Computer science,
Data processing,
Computing linguistics,
Social networks,
Information extraction,
Text classification,
Twitter
Texte intégral: Texto completo (Ver HTML)