Procesamiento de big data en Hadoop usando el repartition join

Escalante Fol, Néstor Iván; Portilla Flores, Alberto; Vargas-Solar, Genoveva; Sánchez Pérez, Carolina Rocío; Mora Lumbreras, Marva Angélica


Document title:	Procesamiento de big data en Hadoop usando el repartition join
Journal:	Programación matemática y software
Database:
System number:	000573090
ISSN:	2007-3283
Authors:	Escalante Fol, Néstor Iván¹ Portilla Flores, Alberto¹ Vargas-Solar, Genoveva² Sánchez Pérez, Carolina Rocío¹ Mora Lumbreras, Marva Angélica¹
Institutions:	¹Facultad de Ciencias Básicas, Ingeniería y Tecnología, Universidad Autónoma de Tlaxcala. Calzada Apizaquito s/n, Apizaco. CP 90300. Tlaxcala, México, ²French Council of Scientific Research, LIG-LAFMIA. 681 rue de la Passerelle BP 72, 38402. Saint Martin d"Heres, Francia,
Year:	2015
Volumen:	7
Number:	2
Pages:	52-58
Country:	México
Language:	Español
English abstract	The main objective of this work concerns the processing of big data. Therefore repartition implementation algorithm is proposed to perform the join operation in a large data set, applying under the Map Reduce programming model. Implementing a join in the context of big data is complex and costly, therefore we use Hadoop platform, which provides the necessary tool for managing large volumes of information utilities to analyze the behavior of the algorithm and to evaluate its performance. The algorithm was tested in a cluster consisting of 3 nodes, analyzing the execution results for later use with real data.
Spanish abstract	El objetivo principal de este trabajo es el procesamiento de grandes volúmenes de información, conocidos como big data. Presentamos la implementación del algoritmo repartition join para realizar la operación join en un conjunto grande de datos. El algoritmo fue programado bajo el modelo de programación Map Reduce. Implementar un join en el contexto de big data resulta ser complejo y costoso; por ello, apoyados en la plataforma Hadoop, herramienta que ofrece las utilidades necesarias para el manejo de grandes volúmenes de información, analizamos el comportamiento del algoritmo para evaluar su rendimiento. El algoritmo planteado se evaluó en un clúster conformado por tres nodos. Los resultados de ejecución se analizaron para su posterior uso en aplicaciones con datos reales.
Keyword:	big data, Map Reduce, Hadoop, join
Keyword:	big data, Map Reduce, Hadoop, join
Full text:	Texto completo (Ver PDF)

Procesamiento de big data en Hadoop usando el repartition join

Wait a moment...