AsistO: A qualitative MDP- based recommender System for Power Plant Operation



Título del documento: AsistO: A qualitative MDP- based recommender System for Power Plant Operation
Revista: Computación y sistemas
Base de datos: PERIÓDICA
Número de sistema: 000328685
ISSN: 1405-5546
Autores: 1
2
2
Instituciones: 1Instituto de Investigaciones Eléctricas, Cuernavaca, Morelos. México
2Instituto Nacional de Astrofísica, Optica y Electrónica, Tonantzintla, Puebla. México
Año:
Periodo: Jul-Sep
Volumen: 13
Número: 1
Paginación: 5-20
País: México
Idioma: Inglés
Tipo de documento: Artículo
Enfoque: Analítico, descriptivo
Resumen en inglés This paper proposes a novel and practical model-based learning approach with iterative refinement for solving continuous (and hybrid) Markov decision processes. Initially, an approximate model is learned using conventional sampling methods and solved to obtain a policy. Iteratively, the approximate model is refined using variance in the utility values as partition criterion. In the learning phase, initial reward and transition functions are obtained by sampling the state-action space. The samples are used to induce a decision tree predicting reward values from which an initial partition of the state space is built. The samples are also used to induce a factored MDP. The state abstraction is then refined by splitting states only where the split is locally important. The main contributions of this paper are the use of sampling to construct an abstraction, and a local refinement process of the state abstraction based on utility variance. The proposed technique was tested in AsistO, an intelligent recommender system for power plant operation, where we solved two versions of a complex hybrid continuous-discrete problem. We show how our technique approximates a solution even in cases where standard methods explode computationally
Resumen en portugués Este artículo propone una técnica novedosa y práctica de aprendizaje basada en modelos con refinamiento iterativo para resolver procesos de decisión de Markov (MDPs) continuos. Inicialmente, se aprende un modelo aproximado usando métodos de muestreo convencionales, el cual se resuelve para obtener una política. Iterativamente, el modelo aproximado se refina con base en la varianza de los valores de la utilidad esperada. En la fase de aprendizaje, se obtienen las funciones de recompensa inmediata y de transición mediante muestras del tipo estado-acción. Éstas primero se usan para inducir un árbol de decisión que predice los valores de recompensa y a partir del cual se construye una partición inicial del espacio de estados. Posteriormente, las muestras también se usan para inducir un MDP factorizado. Finalmente, la abstracción de espacio de estados resultante se refina dividiendo aquellos estados donde pueda haber cambios en la política. Las contribuciones principales de este trabajo son el uso de datos para construir una abstracción inicial, y el proceso de refinamiento local basado en la varianza de la utilidad. La técnica propuesta fue probada en AsistO, un sistema inteligente de recomendaciones para la operación de plantas generadoras de electricidad, donde resolvimos dos versiones de un problema complejo con variables híbridas continuas y discretas. Aquí mostramos como nuestra técnica aproxima una solución aun en casos donde los métodos estándar explotan computacionalmente
Disciplinas: Ciencias de la computación,
Matemáticas,
Ingeniería
Palabras clave: Matemáticas aplicadas,
Ingeniería eléctrica,
Sistemas de recomendaciones,
Centrales eléctricas,
Procesos de decisión de Markov,
Abstracción matemática
Keyword: Computer science,
Mathematics,
Engineering,
Applied mathematics,
Electrical engineering,
Recommender systems,
Power plants,
Markov processes,
Mathematic abstraction
Texto completo: Texto completo (Ver HTML)