Predicción del rendimiento académico en la UNADECA por medio de sistemas de clasificación



Título del documento: Predicción del rendimiento académico en la UNADECA por medio de sistemas de clasificación
Revista: Unaciencia Revista de Estudios e Investigaciones
Base de datos:
Número de sistema: 000555831
ISSN: 2711-0303
Autores: 1
2
Instituciones: 1Univeridad Adventista de Centro América, Alajuela, Alajuela. Costa Rica
2Universidad Nacional Autónoma de Honduras, Tegucigalpa. Honduras
Año:
Volumen: 16
Número: 31
Paginación: 17-35
País: Colombia
Idioma: Español
Tipo de documento: Artículo
Resumen en inglés Predicting the academic performance of students is not only a task that attracts researchers but also the administrative staff of university faculty. Effective models can be created using specific algorithms for supervised and unsupervised educational data mining. Cleaning and coding techniques were applied to the data set. The execution of the algorithms and the comparison of their metrics made it possible to determine the courses that should be assisted with greater attention in the quest to improve students' academic performance. The data were divided into two groups, one for learning and the other for prediction. Algorithms in the Python language and a graphical tool, RapidMiner Studio, were used. No clustering was performed due to lack of consistent information in the original data. The classification algorithm that had the best metrics was Random Forest, exceeding 90% accurracy in the different cases. RapidMiner, on the other hand, the algorithm with the best results was Gradient Boosted Trees with an accuracy of 93.6%, with the specific prediction of the result of pass or fail. A comparison was made by schools, with very similar results for Nursing, Psychology and Theology, with an accuracy of approximately 93%.
Resumen en español Predecir el rendimiento académico de los estudiantes no es solo una tarea que atrae a los investigadores sino también al personal administrativo de la facultad universitaria. Es posible crear modelos efectivos mediante algoritmos específicos para minería de datos educativos supervisados y no supervisados. Al conjunto de datos se le aplicaron técnicas de limpieza y codificación. La ejecución de los algoritmos y la comparación de sus métricas permitieron determinar los cursos a los que se debe dar asistencia con mayor atención en la búsqueda de mejorar el rendimiento académico de los estudiantes. Los datos fueron fraccionados en dos grupos, uno para aprendizaje y otro para predicción. Se usaron algoritmos en el lenguaje Python y una herramienta gráfica, RapidMiner Studio. No se trabajaron agrupamientos por falta de información consistente en los datos originales. El algoritmo de clasificación que tuvo las mejores métricas fue el Random Forest superando en los distintos casos el 90% de accurracy. En cambio, RapidMiner el algoritmo con mejores resultados fue Gradient Boosted Trees con un accuracy del 93.6%, con la predicción específica del resultado final de aprobado o reprobado. Se hizo una comparativa por escuelas, con resultados muy similares para Enfermería, Psicología y Teología, con una precisión aproximada de 93%.
Disciplinas: Educación,
Bibliotecología y ciencia de la información,
Administración y contaduría
Palabras clave: Minería de datos educativos,
aprendizaje automático,
random forest,
métricas,
Investigación educativa,
Sistemas de información,
Administración de instituciones
Keyword: Educational Data Mining,
Machine Learning,
random forest,
metrics
Texto completo: Texto completo (Ver PDF)