Part-of-speech tagging with maximum entropy and distributional similarity features in a subregional corpus of Spanish



Título del documento: Part-of-speech tagging with maximum entropy and distributional similarity features in a subregional corpus of Spanish
Revista: Ingeniería y competitividad
Base de datos: PERIÓDICA
Número de sistema: 000419841
ISSN: 0123-3033
Autores: 1
2
2
Instituciones: 1Universidad de las Américas, Grupo de Investigación en Lingüística Aplicada, Puebla. México
2Universidad Autónoma de Baja California, Cuerpo Académico Lengua, Tecnología e Innovación, Mexicali, Baja California. México
Año:
Volumen: 19
Número: 2
Paginación: 53-65
País: Colombia
Idioma: Inglés
Tipo de documento: Artículo
Enfoque: Analítico, descriptivo
Resumen en español Con el objetivo primario de etiquetar automáticamente las categorías gramaticales en una colección de texto no estructurado, la cual fue diseñada para asistir en una serie de tareas lingüísticas, esta investigación ha utilizado dos etiquetadores automáticos de primera generación para el español. Estos etiquetadores han sido aplicados al Corpus del Habla de Baja California (CHBC) que cubre una subregión de México. Los dos etiquetadores, uno basado en el principio de Máxima Entropía y el otro que le suma a este modelo estadístico rasgos de similitud distribucional, son de reciente introducción y no se ha ofrecido un rango de precisión para los mismos. Por tanto, este artículo ha tenido como segundo objetivo el evaluar y proveer una cifra de precisión comprobada para los modelos de lenguaje que subyacen a los etiquetadores en cuestión. Con la finalidad de lograr estos dos objetivos, este artículo ha propuesto un etiquetario reducido, el cual también ha resultado de utilidad en la búsqueda de estos objetivos. Aplicados a una muestra de alrededor de 11,000 palabras y más de 12,500 etiquetas gramaticales para dos géneros (texto escrito y discurso oral transcrito), los dos etiquetadores, el de Máxima Entropía y el que suma a ésta los rasgos de similitud distribucional, han obtenido resultados de 97.2% y 97.4%, respectivamente. Al comparar estas cifras con el criterio estándar de 97.1% obtenido entre anotadores humanos, los resultados de ambos etiquetadores se muestran competitivos, incluso al aplicarlos a una colección de datos externa para la cual no han sido previamente entrenados o calibrados. Esto es particularmente importante porque en este tipo de condiciones experimentales se ha encontrado que el desempeño de los etiquetadores puede deteriorarse
Resumen en inglés The present research study has used two state-of-the-art Spanish taggers with the primary goal of automatically tagging for POS a strictly assembled collection of unstructured text aimed at assisting a number of linguistic tasks, the subregional Mexican Corpus del Habla de Baja California (CHBC). These taggers, a Maximum-Entropy-based one and another one that adds to this statistical construct distributional similarity features, have recently been released but were missing an accuracy rate. Therefore, the second goal of this article is to evaluate and provide attested accuracy figures for the language models behind these taggers. In order to achieve these two goals, this article has proposed a novel, reduced tag set, which has also been proven useful for the goals here pursued. On a sample of almost 11,000 words and more than 12,500 tags for two genres (written text and transcribed oral speech), the Maximum Entropy tagger and the tagger with Maximum Entropy plus distributional similarity features have achieved results of 97.2% and 97.4%, respectively. By comparing these figures to a human ceiling or gold standard of 97.1%, also attested here, it is clear that the results of both taggers are competitive even when applied to an external data collection for which they have not been previously trained or tuned for. This is particularly important because under these kinds of experimental conditions taggers performance has been shown to deteriorate
Disciplinas: Ciencias de la computación,
Literatura y lingüística
Palabras clave: Lingüística aplicada,
Etiquetado gramatical,
Tecnología de la información,
Español,
Estocástica,
Corpus etiquetado
Keyword: Applied linguistics,
Part-of-speech tagging,
Information technology,
Spanish,
Stochastics,
Tagged corpus
Texto completo: Texto completo (Ver PDF)