N-gramas sintácticos y su uso en la lingüística computacional



Título del documento: N-gramas sintácticos y su uso en la lingüística computacional
Revista: Vectores de investigación
Base de datos: CLASE
Número de sistema: 000431801
ISSN: 1870-0128
Autores: 1
Instituciones: 1Instituto Politécnico Nacional, México, Distrito Federal. México
Año:
Periodo: Ene-Jun
Volumen: 6
Número: 6
Paginación: 13-27
País: México
Idioma: Español
Tipo de documento: Artículo
Enfoque: Descriptivo
Resumen en español En este artículo, estamos introduciendo un nuevo concepto que se utilizará en la lingüística computacional, se llama los n-gramas sintácticos: son n-gramas que se construyen siguiendo el árbol sintáctico. Es equivalente a introducir la información sintáctica en los métodos de aprendizaje automático, que siempre era un problema muy difícil. Discutimos los elementos que pueden formar estos n-gramas: palabras, clases gramaticales (POS tags), nombres de relaciones sintácticas, caracteres. Consideramos dos ejemplos de cómo se puede obtener los ngramas sintácticos basándonos en un árbol sintáctico, tanto para el español como para el inglés. Adicionalmente, presentamos un modelo más utilizado de solución de problemas de la lingüística computacional, específicamente, el modelo de espacio vectorial. Al final, mostramos una aplicación de los ngramas sintácticos para la tarea de atribución de autoría, en cuyo caso los resultados son mejores que los resultados de los métodos de línea base
Resumen en inglés This papers aims to introduce a new concept to be used in computational linguistics: the syntactic n-grams, which are formed following the paths in syntactic trees. The preceding is similar to entering the syntactic information into the automatic learning methods. Here, we discuss the elements of which the sn-grams can be formed, namely, words, grammatical features (POS tags), names of syntactic structures (SR tags) and characters. We consider two examples of how the syntactic n-grams can be obtained from a syntactic tree, both for English and Spanish. We also introduce a widely used model for problem representation in computational linguistics: the vector space model. Finally, we present an applications of the syntactic ngrams for authorship attribution purposes, which obtains better results than the baseline methods
Disciplinas: Bibliotecología y ciencia de la información,
Ciencias de la computación
Palabras clave: Análisis y sistematización de la información,
Tecnología de la información,
Inteligencia artificial (IA),
Lingüística computacional
Texto completo: Texto completo (Ver PDF)