Revista: | Realidad, datos y espacio. Revista internacional de estadística y geografía |
Base de datos: | CLASE |
Número de sistema: | 000526255 |
ISSN: | 2007-2961 |
Autores: | Gómez, Juan Carlos1 López Santamaría, Luis Miguel1 Ibarra Manzano, Mario Alberto1 Almanza Ojeda, Dora Luz1 |
Instituciones: | 1Universidad de Guanajuato, Irapuato, Guanajuato. México |
Año: | 2021 |
Periodo: | Abr |
Volumen: | 12 |
Número: | 1 |
País: | México |
Idioma: | Español |
Tipo de documento: | Artículo |
Enfoque: | Analítico, descriptivo |
Resumen en español | Para resolver la situación planteada en este trabajo, se extrajo una serie de características del contenido textual de los tuits publicados por los usuarios, que se utilizaron para construir modelos basados en aprendizaje automático, los cuales predicen si un usuario tiene estudios universitarios o no. Ambos se probaron con un conjunto de datos extraído de forma directa del sitio, compuesto por más de un millón de tuits en español, correspondientes a 195 usuarios ubicados en México. Con él, se hicieron experimentos siguiendo una validación cruzada de 10 partes. La evaluación se realizó utilizando las métricas macro F1 y el área bajo la curva ROC (AUC). Los resultados indican que la tarea es compleja, siendo las mejores características las abreviaturas, que alcanzaron valores arriba de 60 % para ambas métricas, mientras que los modelos de máquinas de vectores de soporte y árboles de decisión presentaron un desempeño similar |
Resumen en inglés | To solve the task raised in this work, a series of characteristics were extracted from the textual content of the tweets published by users, which were used to build models based on machine learning, which predict whether a user has a university degree or not. Both were tested with a data set extracted directly from the site, composed of more than one million tweets in Spanish, corresponding to 195 users located in Mexico. With it, experiments were made following a 10-fold cross-validation. The evaluation was performed using the F1 macro metrics and the area under the ROC (AUC) curve. The results indicate that the task is complex, the best characteristics being the abbreviations, which reached values above 60% for both metrics, while the support vector and decision tree machine models showed similar performance |
Disciplinas: | Educación |
Palabras clave: | Sociología de la educación, Redes sociales, Analítica de datos, Twitter, Usuarios, Aprendizaje automático, Nivel educativo, México |
Texto completo: | https://rde.inegi.org.mx/index.php/2021/04/08/prediccion-automatica-del-nivel-educativo-en-usuarios-de-twitter-en-mexico/ |