Un análisis bidimensional de las técnicas de remuestreo para grandes conjuntos de datos desbalanceados

Guzmán Ponce, Angélica; Sanchéz, J. Salvador; Valdovinos Rosas, Rosa M; Marcial Romero, J. Raymundo


Título del documento:	Un análisis bidimensional de las técnicas de remuestreo para grandes conjuntos de datos desbalanceados
Revista:	Programación matemática y software
Base de datos:
Número de sistema:	000573186
ISSN:	2007-3283
Autores:	Guzmán Ponce, Angélica¹ Sanchéz, J. Salvador² Valdovinos Rosas, Rosa M¹ Marcial Romero, J. Raymundo¹
Instituciones:	¹Universidad Autónoma del Estado de México, Facultad de Ingeniería, Toluca, Estado de México. México ²Universitat Jaume I, Departamento de Lenguajes y Sistemas Informáticos, Castellón de la Plana, Castellón. España
Año:	2019
Volumen:	11
Número:	1
Paginación:	48-55
País:	México
Idioma:	Español
Tipo de documento:	Artículo
Resumen en inglés	Big data applications are the central focus of current research in many fields because of the increasing production of huge amounts of data. One important difficulty of data, both in traditional and big data real-life problems, refers to class imbalance where one class is heavily under-represented compared to the other classes. In this paper, we explore the use of some resampling methods for handling the class imbalance in big data sets, analysing processing time and classification accuracy achieved by three classifiers of different nature. The experimental results show that the over-sampling approaches perform better than the under-sampling techniques irrespective of the classifier used, but they lead to much higher classification times. When comparing the over-sampling methods, it is observed that SMOTE outperforms the random over-sampling algorithms; in the case of under-sampling, the random approach is better than the condensed nearest neighbour rule
Resumen en español	Las aplicaciones de Big Data son tema central de la investigación actual en muchos campos debido a la creciente producción de enormes cantidades de datos. Una dificultad importante de los datos, tanto en los problemas de la vida real tradicionales como en los grandes volúmenes de datos, se refiere al desbalance de clases, en el que una clase es muy poco representada en comparación con las otras clases. En este artículo, exploramos el uso de algunos métodos de remuestreo para manejar el desbalance de clase en grandes conjuntos de datos, analizando el tiempo de procesamiento y la precisión de clasificación lograda por tres clasificadores de diferente naturaleza. Los resultados experimentales muestran que los enfoques de sobre muestreo funcionan mejor que las técnicas de bajo muestreo, independientemente del clasificador usado, pero conducen a tiempos de clasificación mucho más altos. Al comparar los métodos de sobre muestreo, se observa que SMOTE supera los algoritmos de sobre muestreo aleatorios; en el caso de un bajo muestreo, el enfoque aleatorio es mejor que la regla condensada del vecino más cercano.
Disciplinas:	Ciencias de la computación
Palabras clave:	Procesamiento de datos
Keyword:	Data processing
Texto completo:	Texto completo (Ver PDF)

Un análisis bidimensional de las técnicas de remuestreo para grandes conjuntos de datos desbalanceados

Espere un momento...