Desempenho de algoritmos de aprendizagem por reforço sob condições de ambiguidade sensorial em robótica móvel



Document title: Desempenho de algoritmos de aprendizagem por reforço sob condições de ambiguidade sensorial em robótica móvel
Journal: Controle & automacao
Database: PERIÓDICA
System number: 000315345
ISSN: 0103-1759
Authors: 1
Institutions: 1Instituto Tecnologico de Aeronautica, Divisao de Ciencia da Computacao, Sao Jose dos Campos, Sao Paulo. Brasil
Year:
Season: Jul-Sep
Volumen: 15
Number: 3
Pages: 320-338
Country: Brasil
Language: Portugués
Document type: Artículo
Approach: Experimental
English abstract We analyzed the performance variation of reinforcement learning algorithms in ambiguous state situations commonly caused by the low sensing capability of mobile robots. This variation is caused by violation of the Markov condition, which is important to guarantee convergence of these algorithms. Practical consequences of this violation in real systems are not firmly established in the literature. The algorithms assessed in this study were Q-learning, Sarsa and Q(lambda), and the experiments were performed on a Magellan Pro™robot. A method to build variable resolution cognitive maps of the environment was implemented in order to provide realistic data for the experiments. The implemented learning algorithms presented satisfactory performance on real systems, with a graceful degradation of efficiency due to state ambiguity. The Q-learning algorithm accomplished the best performance, followed by the Sarsa algorithm. The Q(lambda) algorithm had its performance restrained by experimental parameters. The cognitive map learning method revealed to be quite efficient, allowing adequate algorithms assessment
Portuguese abstract Analisamos a variação de desempenho de algoritmos de aprendizagem por reforço em situações de ambigüidade de estados comumente produzidas pela baixa capacidade sensorial de robôs móveis. Esta variação é produzida pela violação da condição de Markov, importante para garantir a convergência destes algoritmos. As conseqüências práticas desta violação em sistemas reais não estão avaliadas de maneira definitiva na literatura. São estudados neste artigo os algoritmos Q-learning, Sarsa e Q(lambda), em experimentos realizados em um robô móvel Magellan Pro™. De modo a definir um verificador de desempenho para os algoritmos testados, foi implementado um método para criar mapas cognitivos de resolução variável. Os resultados mostram um desempenho satisfatório dos algoritmos, com uma degradação suave em função da ambigüidade sensorial. O algoritmo Q-learning teve o melhor desempenho, seguido do algoritmo Sarsa. O algoritmo Q(lambda) teve seu desempenho limitado pelos parâmetros experimentais. O método de criação de mapas se mostrou bastante eficiente, permitindo uma análise adequada dos algoritmos
Disciplines: Ingeniería
Keyword: Ingeniería de control,
Robótica,
Robots móviles,
Aprendizaje reforzado,
Redes neuronales artificiales,
Algoritmos
Keyword: Engineering,
Control engineering,
Robotics,
Mobile robot,
Reinforced learning,
Artificial neural networks,
Algorithms
Full text: Texto completo (Ver HTML)