Predicción automática del nivel educativo en usuarios de Twitter en México



Document title: Predicción automática del nivel educativo en usuarios de Twitter en México
Journal: Realidad, datos y espacio. Revista internacional de estadística y geografía
Database: CLASE
System number: 000526255
ISSN: 2007-2961
Authors: 1
1
1
1
Institutions: 1Universidad de Guanajuato, Irapuato, Guanajuato. México
Year:
Season: Abr
Volumen: 12
Number: 1
Country: México
Language: Español
Document type: Artículo
Approach: Analítico, descriptivo
Spanish abstract Para resolver la situación planteada en este trabajo, se extrajo una serie de características del contenido textual de los tuits publicados por los usuarios, que se utilizaron para construir modelos basados en aprendizaje automático, los cuales predicen si un usuario tiene estudios universitarios o no. Ambos se probaron con un conjunto de datos extraído de forma directa del sitio, compuesto por más de un millón de tuits en español, correspondientes a 195 usuarios ubicados en México. Con él, se hicieron experimentos siguiendo una validación cruzada de 10 partes. La evaluación se realizó utilizando las métricas macro F1 y el área bajo la curva ROC (AUC). Los resultados indican que la tarea es compleja, siendo las mejores características las abreviaturas, que alcanzaron valores arriba de 60 % para ambas métricas, mientras que los modelos de máquinas de vectores de soporte y árboles de decisión presentaron un desempeño similar
English abstract To solve the task raised in this work, a series of characteristics were extracted from the textual content of the tweets published by users, which were used to build models based on machine learning, which predict whether a user has a university degree or not. Both were tested with a data set extracted directly from the site, composed of more than one million tweets in Spanish, corresponding to 195 users located in Mexico. With it, experiments were made following a 10-fold cross-validation. The evaluation was performed using the F1 macro metrics and the area under the ROC (AUC) curve. The results indicate that the task is complex, the best characteristics being the abbreviations, which reached values above 60% for both metrics, while the support vector and decision tree machine models showed similar performance
Disciplines: Educación
Keyword: Sociología de la educación,
Redes sociales,
Analítica de datos,
Twitter,
Usuarios,
Aprendizaje automático,
Nivel educativo,
México
Full text: https://rde.inegi.org.mx/index.php/2021/04/08/prediccion-automatica-del-nivel-educativo-en-usuarios-de-twitter-en-mexico/