Revista: | Computación y sistemas |
Base de datos: | |
Número de sistema: | 000560821 |
ISSN: | 1405-5546 |
Autores: | Marcos Valdez, Alexander J.1 Navarro Ortiz, Eduardo G.1 Quinteros Peralta, Rodrigo E.1 Tirado Julca, Juan J.1 Valentín Ricaldi, David F.1 Calderón Vilca, Hugo D.1 |
Instituciones: | 1Universidad Nacional Mayor de San Marcos, Lima. Perú |
Año: | 2023 |
Periodo: | Jul-Sep |
Volumen: | 27 |
Número: | 3 |
Paginación: | 749-768 |
País: | México |
Idioma: | Español |
Resumen en español | Uno de los principales problemas de salud pública es la desnutrición infantil, ya que afecta negativamente al individuo a lo largo de su vida, limita el desarrollo de la sociedad y dificulta la erradicación de la pobreza. El objetivo de esta investigación es aplicar técnicas de minería de datos para el preprocesamiento, limpieza, reducción y transformación a un lago de datos que ha permitido analizar la anemia en niños menores de 5 años, asimismo, se ha aplicado algoritmos de Machine Learning para obtener el mejor modelo que permita predecir la anemia en niños menores de 5 años. El conjunto de datos fue extraído de la plataforma datos abiertos del gobierno del Perú que corresponde a Lima sur, Lima Norte, Lima Este, Lima Centro y Lima rural que se juntaron en total 138369 instancias y 36 variables, de la cuales 30 son categóricas y 6 numéricas, siendo un conjunto de datos desequilibrado. Para poder obtener las mejores variables predictoras se utilizó los filtros Anova F-test y Chi Cuadrado y se logró reducir a 10 variables, también se realizó casos sin considerar uno de los filtros y ambos filtros. Para buscar el mejor modelo de predicción se ha probado los algorítmicos: árbol de decisión, regresión logística, K vecinos más cercanos, bosque aleatorio y Naive bayes. Como resultado mostramos que el mejor algoritmo que permite predecir la anemia en niños menores de 5 años es el Naive Bayes con mayor recall de 74 %, precisión de 43% y exactitud del 70 %. |
Resumen en inglés | One of the main public health problems is child malnutrition, since it negatively affects the individual throughout his life, limits the development of society and makes it difficult to eradicate poverty. The first objective of this research is to apply data mining techniques for preprocessing, cleaning, reduction and transformation to a data lake that has allowed analyzing anemia in children under 5 years of age, the second objective is to apply Machine Learning algorithms to obtain the best model to predict anemia in children under 5 years of age. The data set was extracted from the open data platform of the government of Peru that corresponds to South Lima, North Lima, East Lima, Central Lima and rural Lima, which collected a total of 138,369 instances and 36 variables of which 30 are categorical and 6 numeric, being an unbalanced data set. In order to obtain the best predictor variables, the Anova F-test and Chi Square filters were used, and it was possible to reduce them to 10 variables, cases were also carried out without considering one of the filters and both filters.To find the best prediction model, the algorithms have been tested: decision tree, logistic regression, K nearest neighbors, random forest and naive bayes. As a result, we show that the best algorithm to predict anemia in children under 5 years of age is the Naive Bayes algorithm with the highest recall of 74%, precision of 43% and accuracy of 70%. |
Palabras clave: | Anemia, Modelo predictivo, Desnutrición, Niños, Minería de dato |
Keyword: | Anemia, Predictive model, Malnutrition, Children, Data mining |
Texto completo: | Texto completo (Ver HTML) Texto completo (Ver PDF) |