Evaluación de técnicas de procesamiento de lenguaje natural y Machine Learning para los procesos de codificación de encuestas en hogares



Título del documento: Evaluación de técnicas de procesamiento de lenguaje natural y Machine Learning para los procesos de codificación de encuestas en hogares
Revue: Realidad, datos y espacio. Revista internacional de estadística y geografía
Base de datos: CLASE
Número de sistema: 000526638
ISSN: 2007-2961
Autores: 1
1
2
Instituciones: 1Instituto Nacional de Estadística y Geografía, Aguascalientes. México
2Centro de Investigación en Matemáticas, A. C., Ciudad de México. México
Año:
Periodo: Jul
Volumen: 13
Número: 2
País: México
Idioma: Español
Tipo de documento: Artículo
Enfoque: Analítico, descriptivo
Resumen en español De los múltiples procesos productivos llevados a cabo dentro de las oficinas nacionales de estadística se encuentra el de codificación, el cual consiste en la asignación automática o manual de claves alfanuméricas a un registro u observación. Este mapeo a un conjunto de categorías predefinidas permite agrupar registros bajo una misma descripción, lo cual facilita su manejo y análisis. Un porcentaje importante de estas tareas de codificación se realizan con ayuda de algoritmos determinísticos basados en reglas de decisión; sin embargo, otros procesos utilizan en mayor medida la asistencia de expertos humanos. El trabajo que a continuación presentamos tiene por objetivo valorar el uso e incorporación de técnicas de procesamiento de lenguaje natural (PLN) y de Machine Learning (ML) para incrementar el porcentaje de registros clasificados de manera automática. Para ello, tomamos las variables de ocupación y actividad económica de la Encuesta Nacional de Ingresos y Gastos de los Hogares 2018. Los resultados obtenidos muestran que sería posible trasladar 50 % de los registros que actualmente se codifican con asistencia humana hacia un proceso de codificación automatizada con algoritmos de PLN y ML
Resumen en inglés National Statistic Offices carry out multiple production processes, coding being one of them. Coding is referred to the assignment of alphanumeric keys to a particular observational unit. The coding process can be either automatic or manual and it is based on certain additional information. This mapping to a set of predefined categories allows grouping records under the same description, which facilitates its management and analysis. Currently a great percentage of the coding tasks are made by deterministic algorithms or decision rules. However, there are processes where human intervention to code is still largely required. The paper we present assesses the use and incorporation of Natural Language Process (NLP) and Machine Learning (ML) to increase the percentage of automatically coded records. We evaluate the process on two variables from the National Survey of Household Income and Expenditure (ENIGH by its acronym in Spanish) 2018: occupation and economic activity. Our results show it could be possible to transfer 50% of the records coded by humans to be automatically coded by NLP and ML
Disciplinas: Demografía
Palabras clave: Censos y estadísticas,
Aprendizaje de máquina,
Lenguaje natural,
Codificación,
Encuestas de hogares
Texte intégral: https://rde.inegi.org.mx/index.php/2022/07/06/evaluacion-de-tecnicas-de-procesamiento-de-lenguaje-natural-y-machine-learning-para-los-procesos-de-codificacion-de-encuestas-en-hogares/