Revista: | Ingeniería y competitividad |
Base de datos: | PERIÓDICA |
Número de sistema: | 000419841 |
ISSN: | 0123-3033 |
Autores: | Rico Sulayes, Antonio1 Saldívar Arreola, Rafael2 Rábago Tánori, Alvaro2 |
Instituciones: | 1Universidad de las Américas, Grupo de Investigación en Lingüística Aplicada, Puebla. México 2Universidad Autónoma de Baja California, Cuerpo Académico Lengua, Tecnología e Innovación, Mexicali, Baja California. México |
Año: | 2017 |
Volumen: | 19 |
Número: | 2 |
Paginación: | 53-65 |
País: | Colombia |
Idioma: | Inglés |
Tipo de documento: | Artículo |
Enfoque: | Analítico, descriptivo |
Resumen en español | Con el objetivo primario de etiquetar automáticamente las categorías gramaticales en una colección de texto no estructurado, la cual fue diseñada para asistir en una serie de tareas lingüísticas, esta investigación ha utilizado dos etiquetadores automáticos de primera generación para el español. Estos etiquetadores han sido aplicados al Corpus del Habla de Baja California (CHBC) que cubre una subregión de México. Los dos etiquetadores, uno basado en el principio de Máxima Entropía y el otro que le suma a este modelo estadístico rasgos de similitud distribucional, son de reciente introducción y no se ha ofrecido un rango de precisión para los mismos. Por tanto, este artículo ha tenido como segundo objetivo el evaluar y proveer una cifra de precisión comprobada para los modelos de lenguaje que subyacen a los etiquetadores en cuestión. Con la finalidad de lograr estos dos objetivos, este artículo ha propuesto un etiquetario reducido, el cual también ha resultado de utilidad en la búsqueda de estos objetivos. Aplicados a una muestra de alrededor de 11,000 palabras y más de 12,500 etiquetas gramaticales para dos géneros (texto escrito y discurso oral transcrito), los dos etiquetadores, el de Máxima Entropía y el que suma a ésta los rasgos de similitud distribucional, han obtenido resultados de 97.2% y 97.4%, respectivamente. Al comparar estas cifras con el criterio estándar de 97.1% obtenido entre anotadores humanos, los resultados de ambos etiquetadores se muestran competitivos, incluso al aplicarlos a una colección de datos externa para la cual no han sido previamente entrenados o calibrados. Esto es particularmente importante porque en este tipo de condiciones experimentales se ha encontrado que el desempeño de los etiquetadores puede deteriorarse |
Resumen en inglés | The present research study has used two state-of-the-art Spanish taggers with the primary goal of automatically tagging for POS a strictly assembled collection of unstructured text aimed at assisting a number of linguistic tasks, the subregional Mexican Corpus del Habla de Baja California (CHBC). These taggers, a Maximum-Entropy-based one and another one that adds to this statistical construct distributional similarity features, have recently been released but were missing an accuracy rate. Therefore, the second goal of this article is to evaluate and provide attested accuracy figures for the language models behind these taggers. In order to achieve these two goals, this article has proposed a novel, reduced tag set, which has also been proven useful for the goals here pursued. On a sample of almost 11,000 words and more than 12,500 tags for two genres (written text and transcribed oral speech), the Maximum Entropy tagger and the tagger with Maximum Entropy plus distributional similarity features have achieved results of 97.2% and 97.4%, respectively. By comparing these figures to a human ceiling or gold standard of 97.1%, also attested here, it is clear that the results of both taggers are competitive even when applied to an external data collection for which they have not been previously trained or tuned for. This is particularly important because under these kinds of experimental conditions taggers performance has been shown to deteriorate |
Disciplinas: | Ciencias de la computación, Literatura y lingüística |
Palabras clave: | Lingüística aplicada, Etiquetado gramatical, Tecnología de la información, Español, Estocástica, Corpus etiquetado |
Keyword: | Applied linguistics, Part-of-speech tagging, Information technology, Spanish, Stochastics, Tagged corpus |
Texto completo: | Texto completo (Ver PDF) |