Predicción automática del nivel educativo en usuarios de Twitter en México



Título del documento: Predicción automática del nivel educativo en usuarios de Twitter en México
Revista: Realidad, datos y espacio. Revista internacional de estadística y geografía
Base de datos: CLASE
Número de sistema: 000526255
ISSN: 2007-2961
Autores: 1
1
1
1
Instituciones: 1Universidad de Guanajuato, Irapuato, Guanajuato. México
Año:
Periodo: Abr
Volumen: 12
Número: 1
País: México
Idioma: Español
Tipo de documento: Artículo
Enfoque: Analítico, descriptivo
Resumen en español Para resolver la situación planteada en este trabajo, se extrajo una serie de características del contenido textual de los tuits publicados por los usuarios, que se utilizaron para construir modelos basados en aprendizaje automático, los cuales predicen si un usuario tiene estudios universitarios o no. Ambos se probaron con un conjunto de datos extraído de forma directa del sitio, compuesto por más de un millón de tuits en español, correspondientes a 195 usuarios ubicados en México. Con él, se hicieron experimentos siguiendo una validación cruzada de 10 partes. La evaluación se realizó utilizando las métricas macro F1 y el área bajo la curva ROC (AUC). Los resultados indican que la tarea es compleja, siendo las mejores características las abreviaturas, que alcanzaron valores arriba de 60 % para ambas métricas, mientras que los modelos de máquinas de vectores de soporte y árboles de decisión presentaron un desempeño similar
Resumen en inglés To solve the task raised in this work, a series of characteristics were extracted from the textual content of the tweets published by users, which were used to build models based on machine learning, which predict whether a user has a university degree or not. Both were tested with a data set extracted directly from the site, composed of more than one million tweets in Spanish, corresponding to 195 users located in Mexico. With it, experiments were made following a 10-fold cross-validation. The evaluation was performed using the F1 macro metrics and the area under the ROC (AUC) curve. The results indicate that the task is complex, the best characteristics being the abbreviations, which reached values above 60% for both metrics, while the support vector and decision tree machine models showed similar performance
Disciplinas: Educación
Palabras clave: Sociología de la educación,
Redes sociales,
Analítica de datos,
Twitter,
Usuarios,
Aprendizaje automático,
Nivel educativo,
México
Texto completo: https://rde.inegi.org.mx/index.php/2021/04/08/prediccion-automatica-del-nivel-educativo-en-usuarios-de-twitter-en-mexico/