Minería de texto en la Encuesta Nacional de Transparencia 2019



Título del documento: Minería de texto en la Encuesta Nacional de Transparencia 2019
Revista: Revista de matemáticas
Base de datos: PERIÓDICA
Número de sistema: 000453465
ISSN: 1409-2433
Autores: 1
2
Instituciones: 1Universidad de Costa Rica, Escuela de Estadística, San José. Costa Rica
2Universidad de Costa Rica, Escuela de Tecnologías en Salud, San José. Costa Rica
Año:
Periodo: Jul-Dic
Volumen: 29
Número: 2
Paginación: 261-287
País: Costa Rica
Idioma: Español
Tipo de documento: Artículo
Enfoque: Aplicado, descriptivo
Resumen en español Codificar y analizar preguntas abiertas provenientes de encuestas de opinión suele ser laborioso. La minería de texto ofrece una alternativa para ese tipo de problemática. Se utilizaron los datos de preguntas abiertas provenientes de la Encuesta Nacional de Percepción sobre la Transparencia 2019. Se aplica la minería de texto desde un enfoque descriptivo como predictivo: este último posee un interés predominante al realizar la codificación automática de respuestas o categorías a partir del aprendizaje automático supervisado. Se emplean algoritmos de máquinas de soporte vectorial, clasificador ingenuo de Bayes, bosques aleatorios, XGBoost y vecinos más cercanos. Los resultados del análisis descriptivo permiten apreciar las descripciones, visualizaciones y relaciones en el análisis de las preguntas abiertas. El análisis predictivo reseña que los algoritmos seleccionados con mayor ocurrencia para las preguntas abiertas fueron el clasificador ingenuo de Bayes y los bosques aleatorios, mostrando precisiones de entre 48% y 76%. Se obtuvieron resultados similares en comparación con las categorías que fueron codificadas manualmente. Se aprecian resultados satisfactorios en el análisis integral de las 12 preguntas de la encuesta
Resumen en inglés Coding and analyzing open-ended questions from opinion survey is often time consuming. Text mining offers an alternative for this type of problem. Data comes from the 2019 National Survey of Perception on Transparency open-ended questions. Text mining is applied from a descriptive and predictive approach: the latter has a predominant interest in performing the automatic coding of responses or categories using supervised machine learning. Support vector machine algorithms, naive Bayes classifier, random forests, XGBoost, and closest neighbors are used. The results of the descriptive analysis improve the descriptions, visualizations and relationships in the analysis of the open-ended questions. The predictive analysis reports that the algorithms with the highest selection occurrence for the open-ended questions were the naive Bayes classifier and the random forests, showing accuracies between 48% and 76%. Similar results were obtained compared with the pre-established categories. Satisfactory results are seen in the comprehensive analysis of the 12 survey questions
Disciplinas: Ciencias de la computación,
Bibliotecología y ciencia de la información
Palabras clave: Análisis y sistematización de la información,
Procesamiento de datos,
Encuestas de opinión,
Preguntas abiertas,
Minería de texto,
Aprendizaje automático
Keyword: Information analysis,
Data processing,
Opinion surveys,
Open questions,
Text mining,
Supervised machine learning
Texto completo: Texto completo (Ver HTML) Texto completo (Ver PDF)