Una heurística eficiente aplicada al algoritmo K-means para el agrupamiento de grandes instancias altamente agrupadas

Pérez Ortega, Joaquín; Hidalgo Reyes, Miguel; Castro Sánchez, Noé Alejandro; Pazos Rangel, Rodolfo; Díaz Parra, Ocotlán; Olivares Peregrino, Víctor; Almanza Ortega, Nelva


Título del documento:	Una heurística eficiente aplicada al algoritmo K-means para el agrupamiento de grandes instancias altamente agrupadas
Revista:	Computación y sistemas
Base de datos:
Número de sistema:	000560157
ISSN:	1405-5546
Autores:	Pérez Ortega, Joaquín¹ Hidalgo Reyes, Miguel¹ Castro Sánchez, Noé Alejandro¹ Pazos Rangel, Rodolfo² Díaz Parra, Ocotlán³ Olivares Peregrino, Víctor¹ Almanza Ortega, Nelva¹
Instituciones:	¹Centro Nacional de Investigación y Desarrollo Tecnológico, Cuernavaca. México ²Instituto Tecnológico de Ciudad Madero, Ciudad Madero, Tamaulipas. México ³Universidad Autónoma del Estado de Hidalgo, Pachuca de Soto. México
Año:	2018
Periodo:	Abr-Jun
Volumen:	22
Número:	2
Paginación:	607-619
País:	México
Idioma:	Español
Tipo de documento:	Artículo
Resumen en español	Con la presencia cada vez mayor de Big Data surge la necesidad de agrupar grandes instancias. Estas instancias presentan un número de objetos de naturaleza multidimensional, los cuales requieren agruparse en cientos o miles de grupos. En este artículo se presenta una mejora al algoritmo K-means, la cual está orientada a la solución eficiente de instancias con un gran número de grupos y de dimensiones. A dicha mejor heurística se le denomina Honeycomb (HC) y está basada en la relación entre el número de dimensiones y el número de centroides que conforman una vecindad, permitiendo reducir el número de cálculos de distancias objeto-centroide para cada objeto. La heurística se validó resolviendo un conjunto de instancias sintéticas obteniendo reducciones del tiempo de ejecución de hasta un 90 % y con disminución de la calidad menor al 1 %, respecto a K-means estándar. Para instancias reales de baja y alta dimensionalidad, HC obtuvo una reducción del tiempo de ejecución entre 84.74 % y 95.44 % y con una reducción de la calidad entre el 1.07 % y 1.62 %, respectivamente. Los resultados experimentales son alentadores porque esta heurística beneficiaría a aquellos dominios que requieren instancias con valores cada vez mayores de objetos, dimensiones y grupos.
Resumen en inglés	With the increasing presence of Big Data there arises the need to group large instances. These instances present a number of objects with multidimensional features, which require to be grouped in hundreds or thousands of clusters. This article presents a new improvement to the K-means algorithm, which is oriented to the efficient solution of instances with a large number of clusters and dimensions. This heuristic is called Honeycomb (HC) and it is based on the relationship between the number of dimensions and the number of centroids that form a neighborhood. That is, the heuristic allows the reduction of the number of distance calculations for each object. The heuristic was validated by solving a set of synthetic instances obtaining reductions in execution time of up to 90 % and a quality reduction of less than 1 %, with respect to standard K-means. For real instances of low and high dimensionality, HC obtained a reduction of execution time between 84.74 % and 95.44 % with a quality reduction between 1.07 % and 1.62 %, respectively. The experimental results are encouraging because this heuristic would benefit those domains that require instances with a continuous increase of the number of objects, dimensions and clusters.
Disciplinas:	Ciencias de la computación
Palabras clave:	Algoritmo K-means, Complejidad computacional, Heurística, Inteligencia artificial, Big data, Dimensiones, Grupos
Keyword:	Big data, Heuristics, K-means algorithm, Dimensions, Groups, Computational complexity, Artificial intelligence
Texto completo:	Texto completo (Ver HTML) Texto completo (Ver PDF)

Una heurística eficiente aplicada al algoritmo K-means para el agrupamiento de grandes instancias altamente agrupadas

Espere un momento...