Comparación de clasificadores sobre múltiples datasets con pruebas estadísticas no paramétricas



Título del documento: Comparación de clasificadores sobre múltiples datasets con pruebas estadísticas no paramétricas
Revista: Universidad & ciencia
Base de datos: PERIÓDICA
Número de sistema: 000416793
ISSN: 2227-2690
Autors: 1
1
2
Institucions: 1Universidad de Sancti Spíritus "José Martí Pérez", Sancti Spiritus. Cuba
2Joven Club de Computación y Electrónica, Sancti Spiritus. Cuba
Any:
Període: Abr-Jul
Volum: 7
Número: 2
Paginació: 64-82
País: Cuba
Idioma: Español
Tipo de documento: Artículo
Enfoque: Analítico
Resumen en español En este trabajo se utiliza la herramienta Weka para medir el rendimiento de varios clasificadores, se compara el rendimiento de los mismos con varios datasets tomados de la Universidad de Ciencias Informáticas (UCI); demostrando que aplicando heurísticas para disminuir la dimensión de los datasets, así como la eliminación de ruidos en los mismos no afecta el rendimiento de los clasificadores. Este análisis se realiza aplicando pruebas estadísticas no paramétricas, el test de los rangos con signo de Wilcoxon para la comparación de dos o más heurísticas, el test de Friedman de comparaciones múltiples con los correspondientes test a posteriori de Namenyi y de Bonferroni-Dunn para establecer las conclusiones mediante los procedimientos de Holm y de Hochberg. Alcanzando como resultado que las pruebas estadísticas no paramétricas son fiables para la comparación de los clasificadores y no afecta el rendimiento de los mismos una vez aplicadas las técnicas para la reducción de la complejidad de los datasets. Como resultado principal de esta investigación se puede generalizar este procedimiento para mejorar el rendimiento de clasificadores en otros datasets
Resumen en inglés In this work Weka is used to measure the performance of several classifiers and compare their performance with several datasets taken from UCI and showing that applying heuristics to decrease the size of the datasets, as well as the elimination of noises in the same do not affect The performance of the classifiers. This analysis was performed using non-parametric statistical tests using the Wilcoxon signed rank test for comparison of two heuristics and, for the comparison of more than two heuristics, the Friedman test of multiple comparisons with the corresponding Namenyi and Bonferroni-Dunn a posteriori tests to establish the conclusions through the procedures of Holm and Hochberg. As a result, nonparametric statistical tests are reliable for comparison of classifiers and their performance is not affected once the techniques for reducing the complexity of the datasets are applied. With the results obtained at our discretion this procedure can be generalized to improve the performance of classifiers in other datasets
Disciplines Ciencias de la computación
Paraules clau: Procesamiento de datos,
Minería de datos,
Bases de datos,
Estadísticas,
Redes
Keyword: Data processing,
Data mining,
Databases,
Statistics,
Networks
Text complet: Texto completo (Ver HTML)