Revista: | Computación y sistemas |
Base de datos: | PERIÓDICA |
Número de sistema: | 000376150 |
ISSN: | 1405-5546 |
Autores: | Gelbukh, Alexander1 |
Instituciones: | 1Instituto Politécnico Nacional, Centro de Investigación en Computación, México, Distrito Federal. México |
Año: | 2014 |
Periodo: | Abr-Jun |
Volumen: | 18 |
Número: | 2 |
Paginación: | 329-344 |
País: | México |
Idioma: | Inglés |
Tipo de documento: | Artículo |
Enfoque: | Experimental, aplicado |
Resumen en español | Se presenta un marco metodológico para la desambiguación sintáctica de textos en lenguaje natural. El método se aprovecha de una gramática no probabilística y no lexicalizada existente compilada manualmente, y la convierte en una gramática lexicalizada probabilística a través del aprendizaje automático de una especie de los marcos de subcategorización o preferencias de selección para todas las palabras observadas en el corpus de entrenamiento. El diccionario de los marcos de subcategorización o preferencias de selección, obtenido en el proceso de entrenamiento, se puede utilizar posteriormente para la desambiguación sintáctica de nuevos textos no vistos previamente por el algoritmo. El proceso de aprendizaje es no supervisado y no requiere de marcaje manual alguno. El algoritmo de aprendizaje propuesto en este artículo se puede aprovechar de cualquier método de desambiguación existente, incluyendo métodos lingüísticamente motivados, para la filtración o ponderación de los árboles sintácticos alternativos o relaciones sintácticas alternativas, lo que permite la integración del conocimiento lingüístico y el aprendizaje automático no supervisado |
Resumen en inglés | We present a methodology framework for syntactic disambiguation in natural language texts. The method takes advantage of an existing manually compiled non-probabilistic and non-lexicalized grammar, and turns it into a probabilistic lexicalized grammar by automatically learning a kind of subcategorization frames or selectional preferences for all words observed in the training corpus. The dictionary of subcategorization frames or selectional preferences obtained in the training process can be subsequently used for syntactic disambiguation of new unseen texts. The learning process is unsupervised and requires no manual markup. The learning algorithm proposed in this paper can take advantage of any existing disambiguation method, including linguistically motivated methods of filtering or weighting competing alternative parse trees or syntactic relations, thus allowing for integration of linguistic knowledge and unsupervised machine learning |
Disciplinas: | Ciencias de la computación |
Palabras clave: | Inteligencia artificial, Procesamiento de datos, Procesamiento de lenguaje natural, Análisis sintáctico, Aprendizaje automático |
Keyword: | Computer science, Artificial intelligence, Data processing, Natural language processing, Syntactic analysis, Unsupervised machine learning |
Texto completo: | Texto completo (Ver HTML) |