Aplicación de metodología CRISP-DM para segmentación geográfica de una base de datos pública



Document title: Aplicación de metodología CRISP-DM para segmentación geográfica de una base de datos pública
Journal: Ingeniería. Investigación y tecnología
Database: PERIÓDICA
System number: 000438786
ISSN: 1405-7743
Authors: 1
Institutions: 1Grupo Financiero Ve por Más S.A. de C.V., Gerencia CRM, Ciudad de México. México
Year:
Season: Ene-Mar
Volumen: 21
Number: 1
Country: México
Language: Español
Document type: Artículo
Approach: Aplicado, descriptivo
Spanish abstract El avance tecnológico ha permitido a las organizaciones en todos los niveles almacenar grandes volúmenes de datos. Sin embargo, un problema al cual se están enfrentando actualmente es el análisis de dichos datos a fin de extraer conocimiento útil para toma de decisiones en problemas reales. Actualmente existen varias metodologías que facilitan el análisis de datos para extraer información que se pueda convertir en conocimiento: una de ellas es la metodología CRISP-DM (Cross Industry Standard Process for Data Mining) que a pesar de ser la metodología más utilizada para proyectos de minería de datos, y de tener más de veinte años desde su creación, no es muy conocida en el ámbito laboral de muchas organizaciones de todo tipo en México. El presente artículo tiene como objetivo aplicar la metodología CRISP-DM en la obtención de un modelo de segmentación geográfica sobre la base pública de unidades económicas del Directorio Nacional de Unidades Económicas (DENUE). Para ello, se aplicaron los seis pasos de la metodología (comprensión del problema, comprensión de datos, preparación de datos, modelado, evaluación del modelo e implementación del mismo) para obtener un modelo de segmentación geográfica que clasificó las entidades de la República Mexicana de acuerdo con sus unidades económicas. Aunque se trata de un modelo sobre la base del DENUE susceptible de mejora, muestra el beneficio de aplicar la metodología CRISP-DM, lo cual sin duda es de utilidad para las organizaciones que aplican actualmente dichos proyectos en México, y también muestra la potencialidad de explotar una base pública con información valiosa como la base del DENUE en muchos sentidos (comercial, académico, etcétera) mediante minería de datos
English abstract Technological progress has allowed to the organizations to store big amounts of data. However, organizations are facing to the challenge of analyzing such data for getting useful knowledge for decision making in real situations. Nowadays there are several methodologies that allow organizations to analyze big amounts of data in order to get information and knowledge. One of them is CRISP-DM (Cross Industry Standard Process for Data Mining) that despite the fact of be the most widely used methodology for Data Mining projects and to have more than twenty years old, it is yet not well known for many organizations in Mexico. This article aims to illustrate how to apply CRISP-DM for getting a geographical segmentation model for a public database called DENUE which contains a directory of business units in Mexico. The six steps of the methodology (understanding problem, understanding data, preparation of data, modeling, evaluation and implementation) has been applied in order to get a geographical segmentation model that divides Mexican geographical entities according to their business units. Albit some observations were classified not properly (according to the evaluation that was applied to the model) in general the clusters are acceptable considering the variables used for getting them, and in order to improve the model we suggest to consider additional variables that are no disposable in DENUE database nowadays. Although it is a segmentation model over DENUE database which is susceptible of improvement, it shows the potential of applying CRISP-DM for Data Mining projects and also shows the potential of exploiting public databases in order to get knowledge useful for many purposes (business, scholars, etc.)
Disciplines: Bibliotecología y ciencia de la información
Keyword: Análisis y sistematización de la información,
Minería de datos,
Análisis de datos,
Bases de datos,
Metodología,
Segmentación,
CRISP-DM
Keyword: Information analysis,
Data mining,
Data analysis,
Data bases,
Methodology,
Segmentation,
CRISP-DM
Full text: Texto completo (Ver HTML) Texto completo (Ver PDF)