Revista: | Vectores de investigación |
Base de datos: | CLASE |
Número de sistema: | 000431801 |
ISSN: | 1870-0128 |
Autores: | Sidorov, Grigori1 |
Instituciones: | 1Instituto Politécnico Nacional, México, Distrito Federal. México |
Año: | 2013 |
Periodo: | Ene-Jun |
Volumen: | 6 |
Número: | 6 |
Paginación: | 13-27 |
País: | México |
Idioma: | Español |
Tipo de documento: | Artículo |
Enfoque: | Descriptivo |
Resumen en español | En este artículo, estamos introduciendo un nuevo concepto que se utilizará en la lingüística computacional, se llama los n-gramas sintácticos: son n-gramas que se construyen siguiendo el árbol sintáctico. Es equivalente a introducir la información sintáctica en los métodos de aprendizaje automático, que siempre era un problema muy difícil. Discutimos los elementos que pueden formar estos n-gramas: palabras, clases gramaticales (POS tags), nombres de relaciones sintácticas, caracteres. Consideramos dos ejemplos de cómo se puede obtener los ngramas sintácticos basándonos en un árbol sintáctico, tanto para el español como para el inglés. Adicionalmente, presentamos un modelo más utilizado de solución de problemas de la lingüística computacional, específicamente, el modelo de espacio vectorial. Al final, mostramos una aplicación de los ngramas sintácticos para la tarea de atribución de autoría, en cuyo caso los resultados son mejores que los resultados de los métodos de línea base |
Resumen en inglés | This papers aims to introduce a new concept to be used in computational linguistics: the syntactic n-grams, which are formed following the paths in syntactic trees. The preceding is similar to entering the syntactic information into the automatic learning methods. Here, we discuss the elements of which the sn-grams can be formed, namely, words, grammatical features (POS tags), names of syntactic structures (SR tags) and characters. We consider two examples of how the syntactic n-grams can be obtained from a syntactic tree, both for English and Spanish. We also introduce a widely used model for problem representation in computational linguistics: the vector space model. Finally, we present an applications of the syntactic ngrams for authorship attribution purposes, which obtains better results than the baseline methods |
Disciplinas: | Bibliotecología y ciencia de la información, Ciencias de la computación |
Palabras clave: | Análisis y sistematización de la información, Tecnología de la información, Inteligencia artificial (IA), Lingüística computacional |
Texto completo: | Texto completo (Ver PDF) |