Evaluating n-gram Models for a Bilingual Word Sense Disambiguation Task



Título del documento: Evaluating n-gram Models for a Bilingual Word Sense Disambiguation Task
Revue: Computación y sistemas
Base de datos: PERIÓDICA
Número de sistema: 000352721
ISSN: 1405-5546
Autores: 1
1
1
1
1
Instituciones: 1Benemérita Universidad Autónoma de Puebla, Facultad de Ciencias de la Computación, Puebla. México
Año:
Periodo: Oct-Dic
Volumen: 15
Número: 2
Paginación: 209-220
País: México
Idioma: Inglés
Tipo de documento: Artículo
Enfoque: Aplicado, descriptivo
Resumen en español El problema de desambiguación del sentido de las palabras (WSD) consiste en seleccionar el sentido adecuado de una palabra polisémica, considerando el contexto en el que ésta se encuentra. Esta tarea se complica aún más cuando se desea desambiguar entre distintos idiomas; en el caso de dos idiomas, a este problema se le conoce como WSD bilingüe. Es necesario entonces no solamente encontrar la traducción correcta, sino también esta traducción debe considerar los sentidos de las palabras en el contexto de la oración original (en un idioma fuente), para encontrar el correcto sentido de la palabra ambigua (en un idioma destino). En este trabajo de investigación se presenta un modelo probabilístico para la desambiguación bilingüe basado en n–gramas (2–gramas, 3–gramas, 5–gramas y k–gramas, para una oración S de longitud k). El objetivo es analizar el comportamiento del sistema de desambiguación con diferentes representaciones de la oración que contiene la palabra ambigua. Para este propósito se usa el clasificador de Naïve Bayes para determinar la probabilidad de un sentido candidato (en un idioma destino), dada una oración que contiene la palabra ambigua (en un idioma fuente). Se emplea un diccionario estadístico bilingüe, el cual es calculado con el software Giza++ usando el corpus paralelo EUROPARL. Se evaluaron las diferentes representaciones llegando a la conclusión de que aquella basada en 5–gramas con esquema de filtrado por información mutua de bigramas ofrece el mejor valor de precisión
Resumen en inglés The problem of Word Sense Disambiguation (WSD) is about selecting the correct sense of an ambiguous word in a given context. However, even if the problem of WSD is difficult, when we consider its bilingual version, this problem becomes much more complex. In this case, it is necessary not only to find the correct translation, but such translation must consider the contextual senses of the original sentence (in the source language), in order to find the correct sense (in the target language) of the source word. In this paper we present a probabilistic model for bilingual WSD based on n–grams (2–grams, 3–grams, 5–grams and k–grams, for a sentence S of a length k). The aim is to analyze the behavior of the system with different representations of a given sentence containing an ambiguous word. We use a Naïve Bayes classifier for determining the probability of the target sense (in the target language) given a sentence which contains an ambiguous word (in the source language). For this purpose, we use a bilingual statistical dictionary, which is calculated with Giza++ by using the EUROPARL parallel corpus. On the average, the representation model based on 5–grams with mutual information demonstrated the best performance
Disciplinas: Ciencias de la computación
Palabras clave: Procesamiento de datos,
Interpretación de textos,
Traducción automática,
Clasificador de Naive Bayes
Keyword: Computer science,
Data processing,
Text interpretation,
Automatic translation,
Naive Bayes classifier
Texte intégral: Texto completo (Ver HTML)