Adaptation, Comparison, and Improvement of Metaheuristic Algorithms to the Part-of-Speech Tagging Problem



Título del documento: Adaptation, Comparison, and Improvement of Metaheuristic Algorithms to the Part-of-Speech Tagging Problem
Revista: Facultad de Ingeniería - Universidad Pedagógica y Tecnológica de Colombia
Base de datos: PERIÓDICA
Número de sistema: 000441616
ISSN: 0121-1129
Autores: 1
1
1
1
Instituciones: 1Universidad del Cauca, Popayán, Cauca. Colombia
Año:
Periodo: Ene-Mar
Volumen: 29
Número: 54
País: Colombia
Idioma: Inglés
Tipo de documento: Artículo
Enfoque: Experimental
Resumen en español La identificación de partes del discurso (Part-of-Speech Tagging, POST) es una tarea compleja en las aplicaciones de procesamiento de lenguaje natural. Ha sido abordada desde enfoques basados en información estadística y reglas, haciendo uso de distintos métodos y, últimamente, se destacan los algoritmos metaheurísticos obteniendo buenos resultados. Por ello, se involucran en esta investigación para asignar la mejor secuencia de etiquetas (roles) para las palabras de una oración, basándose en información estadística. Este proceso se desarrolló en 2 ciclos, donde cada ciclo tuvo 4 fases para la adaptación al problema de etiquetado en los algoritmos metaheurísticos Particle Swarm Optimization, Jaya, Random-Restart Hill Climbing, y un algoritmo memético basado en Global-Best Harmony Search como optimizador global, y en Hill Climbing como optimizador local. Se realizaron experimentos preliminares (utilizando validación cruzada), para ajustar los parámetros de cada algoritmo y luego ejecutarlos sobre los datasets completos de los corpus etiquetados IULA (castellano), Brown (inglés) y Nasa Yuwe (Nasa). Los resultados obtenidos por los etiquetadores propuestos se compararon mediante las pruebas estadísticas no paramétricas de Friedman y Wilcoxon, ratificando que el memético propuesto, GBHS Tagger, obtiene mejores resultados de precisión. Los etiquetadores propuestos se convierten en un aporte muy importante para el POST, tanto para lenguas tradicionales (Inglés y Castellano), no tradicionales (Nasa Yuwe), y sus áreas de aplicación
Resumen en inglés Part-of-Speech Tagging (POST) is a complex task in the preprocessing of Natural Language Processing applications. Tagging has been tackled from statistical information and rule-based approaches, making use of a range of methods. Most recently, metaheuristic algorithms have gained attention while being used in a wide variety of knowledge areas, with good results. As a result, they were deployed in this research in a POST problem to assign the best sequence of tags (roles) for the words of a sentence based on information statistics. This process was carried out in two cycles, each of them comprised four phases, allowing the adaptation to the tagging problem in metaheuristic algorithms such as Particle Swarm Optimization, Jaya, Random-Restart Hill Climbing, and a memetic algorithm based on Global-Best Harmony Search as a global optimizer, and on Hill Climbing as a local optimizer. In the consolidation of each algorithm, preliminary experiments were carried out (using cross-validation) to adjust the parameters of each algorithm and, thus, evaluate them on the datasets of the complete tagged corpus: IULA (Spanish), Brown (English) and Nasa Yuwe (Nasa). The results obtained by the proposed taggers were compared, and the Friedman and Wilcoxon statistical tests were applied, confirming that the proposed memetic, GBHS Tagger, obtained better results in precision. The proposed taggers make an important contribution to POST for traditional languages (English and Spanish), non-traditional languages (Nasa Yuwe), and their application areas
Resumen en portugués A identificação de partes do discurso (Part-of-Speech Tagging, POST) é uma tarefa complexa nas aplicações de processamento de linguagem natural. Tem sido abordada desde enfoques baseados em informação estatística e regras, fazendo uso de distintos métodos e, ultimamente, destacam-se os algoritmos metaheurísticos obtendo bons resultados. Por isso, envolvem-se nesta pesquisa para assignar a melhor sequência de etiquetas (papéis) para as palavras de uma oração, baseando-se em informação estatística. Este processo desenvolveu-se em 2 ciclos, onde cada ciclo teve 4 fases para a adaptação ao problema de etiquetado nos algoritmos metaheurísticos Particle Swarm Optimization, Jaya, Random-Restart Hill Climbing, e um algoritmo mimético baseado em Global-Best Harmony Search como otimizador global, e em Hill Climbing como otimizador local. Realizaram-se experimentos preliminares (utilizando validação cruzada), para ajustar os parâmetros de cada algoritmo e depois executá-los sobre os datasets completos dos corpus etiquetados IULA (castelhano), Brown (inglês) e Nasa Yuwe (Nasa). Os resultados obtidos pelos etiquetadores propostos compararam-se mediante as provas estatísticas não paramétricas de Friedman e Wilcoxon, ratificando que o mimético proposto, GBHS Tagger, obtém melhores resultados de precisão. Os etiquetadores propostos convertem-se em um aporte muito importante para o POST, tanto para línguas tradicionais (Inglês e Castelhano), não tradicionais (Nasa Yuwe), e suas áreas de aplicação
Disciplinas: Literatura y lingüística,
Ciencias de la computación
Palabras clave: Lingüística aplicada,
Análisis de textos,
Procesamiento de textos,
Algoritmos heurísticos,
Computación evolutiva,
Etiquetado gramatical,
Inteligencia artificial,
Lingüística computacional,
Métodos de búsqueda,
Procesamiento de lenguaje natural
Keyword: Applied linguistics,
Text analysis,
Text processing,
Heuristic algorithms,
Evolutionary computing,
Part-of-speech tagging,
Artificial intelligence,
Natural language processing,
Computational linguistics,
Searching methods
Texto completo: Texto completo (Ver HTML) Texto completo (Ver PDF)