Mejora en la clasificación de datos con desbalance de clases mediante una redistribución de clases por k-means



Título del documento: Mejora en la clasificación de datos con desbalance de clases mediante una redistribución de clases por k-means
Revista: Xikua boletín científico de la escuela superior de Tlahuelilpan
Base de datos:
Número de sistema: 000585750
ISSN: 2007-4948
Autores: 1
2
3
Instituciones: 1Centro de Investigación en Computación, Instituto Politécnico Nacional,
2Universidad Nacional Autónoma de México,
3Universidad Autónoma de Guerrero,
Año:
Volumen: 12
Número: s/n
Paginación: 111-116
País: México
Idioma: Español
Resumen en inglés In the field of machine learning, there are several challenges that affect the performance of classification algorithms. Some of these include the curse of dimensionality or class imbalance. The dimensionality curse is a phenomenon that occurs when the number of features (p) in a dataset increases significantly compared to the number of samples (n) available. On the other hand, class imbalance occurs when one or more classes in a dataset have significantly less representation than other classes. This decreases the performance of a classifier since it generates classification biases towards the majority class. Microarray data is widely used to analyze and understand gene expression on a global level. These provide information about the expression of thousands of genes simultaneously and can be used to classify different conditions or diseases. Such data exhibits both dimensionality curse and class imbalance complexities.In this work, a method to divide the majority class into two or more classes by means of the k-means clustering algorithm in microarray datasets is presented. Classification is performed using a variety of state of the art classification algorithms. The proposed method exceeds the classification performance of the original methods as it is reported, taking into account the balanced accuracy and a 5-fold cross-validation. After performing the Mann-Whitney statistical test, it was determined that the proposed mehotd obtains significantly better results than when the original algorithms are used.
Resumen en español En el campo del aprendizaje automático, existen varios desafíos que afectan el desempeño de los algoritmos de clasificación. Algunos de estos incluyen la maldición de la dimensionalidad o el desbalanceo de clases. La maldición de la dimensionalidad es un fenómeno que ocurre cuando el número de características (p) de un conjunto de datos aumenta significativamente en comparación con el número de instancias (n) disponibles. Por otro lado, el desbalanceo de clases ocurre cuando una o varias clases en un conjunto de datos tienen una representación significativamente menor que otras clases. Esto disminuye el rendimiento del clasificador, ya que genera sesgos de clasificación hacia la clase mayoritaria. Los datos de microarreglos son ampliamente utilizados para analizar y comprender la expresión genética en un nivel global. Estos proporcionan información sobre la expresión de miles de genes simultáneamente y pueden utilizarse para clasificar diferentes condiciones o enfermedades. Ese tipo de datos presentan tanto maldición de la dimensionalidad como desbalanceo de clases, por lo que su clasificación es compleja.En este trabajo se presenta un método para dividir la clase mayoritaria dos o más clases por medio del algoritmo de agrupamiento k-means en conjuntos de datos de microarreglos. Se lleva a cabo la clasificación usando una variedad de algoritmos de clasificación en el estado del arte. Se reporta que el método propuesto supera el desempeño de clasificación de los métodos clásicos, tomando en consideración el balanced accuracy y un 5-fold cross-validation. Tras realizar la prueba estadística de Mann-Whitney se determinó que la propuesta obtiene resultados significativamente mejores que cuando se usan los algoritmos clásicos.
Palabras clave: Desbalance de clases,
Significancia estadística,
Aprendizaje automático
Keyword: Class imbalance,
Statistical significance tests,
Machine learning
Texto completo: Texto completo (Ver PDF)