Climate patterns of political división units obtained using automatic classification trees



Título del documento: Climate patterns of political división units obtained using automatic classification trees
Revista: Atmósfera
Base de datos: PERIÓDICA
Número de sistema: 000404102
ISSN: 0187-6236
Autores: 1
1
1
2
1
3
3
1
2
Instituciones: 1Universidad Nacional Autónoma de México, Centro de Ciencias de la Atmósfera, Ciudad de México. México
2Instituto Politécnico Nacional, Centro de Investigación en Computación, Ciudad de México. México
3Universidad de la Sierra Sur, Instituto de Informática, Miahuatlán de Porfirio Díaz, Oaxaca. México
Año:
Periodo: Oct
Volumen: 29
Número: 4
Paginación: 359-377
País: México
Idioma: Inglés
Tipo de documento: Artículo
Enfoque: Analítico, descriptivo
Resumen en español Este artículo propone una metodología para descubrir patrones en datos climatológicos, particularmente temperaturas y precipitación, observados en unidades políticas subnacionales, usando un algoritmo de clasificación automática (un árbol de decisión producido por el algoritmo C4.5). Por lo tanto, los patrones representan árboles de clasificación, en el supuesto de que: 1) cada unidad de división política contiene al menos una estación climatológica y 2) los periodos de registro de las estaciones son relativamente similares en duración y en sus años iniciales y finales. Se produce una serie de modelos de clasificación mediante el uso de diferentes subconjuntos de un conjunto de datos experimentales. Este conjunto de datos contiene información de 3606 estaciones climatológicas en México cuyos periodos de registro tienen diversas duraciones, años iniciales y finales. La variable objetivo (dependiente) en todos estos modelos es el nombre de la unidad política (es decir, el estado). Los predictores son 36 características mensuales por cada estación climatológica: 12 corresponden a una temperatura mínima, 12 a una temperatura máxima y 12 a la precipitación acumulada. También se usó la altitud como predictor adicional a los 36 mencionados, pero sólo para cuantificar su contribución adicional al modelado. Los resultados muestran que los árboles de clasificación son modelos eficaces para describir y representar los patrones no triviales que caracterizan a las unidades de división política, con base en sus temperaturas y precipitación mensual. Uno de los hallazgos destacables es que la precipitación acumulada de mayo es la característica con el mayor poder discriminatorio en esta tarea de caracterización, lo cual es consistente con el trasfondo teórico de la climatología mexicana. Además, los árboles de clasificación ofrecen alta expresividad a personas poco
Resumen en inglés This article proposes a methodology to discover patterns in observed climatologic data, particularly temperatures and rainfall, in subnational political division units using an automatic classification algorithm (a decision tree produced by the C4.5 algorithm). Thus, the patterns represent classification trees, assuming that: (1) every political division unit contains at least one climatological station, and (2) the recording periods of the stations are relatively similar in duration and in their initial and ending years. A series of classification models are produced by using different subsets from an experimental dataset. This dataset contains information from 3606 climatological stations in Mexico with recording periods whose durations, initial and ending years are diverse. The target (dependent) variable in all these models is the name of the political unit (i.e., the state). The predictors are 36 monthly features per each climatological station: 12 features corresponding to a minimum temperature, 12 to a maximum temperature, and 12 to cumulative rainfall. The altitude feature is also used as one of the predictors, in addition to the other 36; however, it is used only to quantify its additional contribution to the modelling. The results show that classification trees are effective models for describing and representing non-trivial patterns to characterize the political division units based on their monthly temperatures and rainfalls. One of the remarkable findings is that the cumulative rainfall of May is the feature with highest discrimination capability to the characterization task, which is consistent with the theoretical background on Mexican climatology. In addition, classification trees offer higher expressivity to non-experts in machine learning
Disciplinas: Geociencias
Palabras clave: Ciencias de la atmósfera,
Patrones climáticos,
Minería de datos,
Algoritmos,
Arbol de clasificación,
México
Keyword: Earth sciences,
Atmospheric sciences,
Climate patterns,
Data mining,
Algorithms,
Classification tree,
Mexico
Texto completo: Texto completo (Ver PDF)