Journal: | Controle & automacao |
Database: | PERIÓDICA |
System number: | 000315345 |
ISSN: | 0103-1759 |
Authors: | Monteiro, Sildomar T1 Ribeiro, Carlos H.C |
Institutions: | 1Instituto Tecnologico de Aeronautica, Divisao de Ciencia da Computacao, Sao Jose dos Campos, Sao Paulo. Brasil |
Year: | 2004 |
Season: | Jul-Sep |
Volumen: | 15 |
Number: | 3 |
Pages: | 320-338 |
Country: | Brasil |
Language: | Portugués |
Document type: | Artículo |
Approach: | Experimental |
English abstract | We analyzed the performance variation of reinforcement learning algorithms in ambiguous state situations commonly caused by the low sensing capability of mobile robots. This variation is caused by violation of the Markov condition, which is important to guarantee convergence of these algorithms. Practical consequences of this violation in real systems are not firmly established in the literature. The algorithms assessed in this study were Q-learning, Sarsa and Q(lambda), and the experiments were performed on a Magellan Pro™robot. A method to build variable resolution cognitive maps of the environment was implemented in order to provide realistic data for the experiments. The implemented learning algorithms presented satisfactory performance on real systems, with a graceful degradation of efficiency due to state ambiguity. The Q-learning algorithm accomplished the best performance, followed by the Sarsa algorithm. The Q(lambda) algorithm had its performance restrained by experimental parameters. The cognitive map learning method revealed to be quite efficient, allowing adequate algorithms assessment |
Portuguese abstract | Analisamos a variação de desempenho de algoritmos de aprendizagem por reforço em situações de ambigüidade de estados comumente produzidas pela baixa capacidade sensorial de robôs móveis. Esta variação é produzida pela violação da condição de Markov, importante para garantir a convergência destes algoritmos. As conseqüências práticas desta violação em sistemas reais não estão avaliadas de maneira definitiva na literatura. São estudados neste artigo os algoritmos Q-learning, Sarsa e Q(lambda), em experimentos realizados em um robô móvel Magellan Pro™. De modo a definir um verificador de desempenho para os algoritmos testados, foi implementado um método para criar mapas cognitivos de resolução variável. Os resultados mostram um desempenho satisfatório dos algoritmos, com uma degradação suave em função da ambigüidade sensorial. O algoritmo Q-learning teve o melhor desempenho, seguido do algoritmo Sarsa. O algoritmo Q(lambda) teve seu desempenho limitado pelos parâmetros experimentais. O método de criação de mapas se mostrou bastante eficiente, permitindo uma análise adequada dos algoritmos |
Disciplines: | Ingeniería |
Keyword: | Ingeniería de control, Robótica, Robots móviles, Aprendizaje reforzado, Redes neuronales artificiales, Algoritmos |
Keyword: | Engineering, Control engineering, Robotics, Mobile robot, Reinforced learning, Artificial neural networks, Algorithms |
Full text: | Texto completo (Ver HTML) |