Desempenho de algoritmos de aprendizagem por reforço sob condições de ambiguidade sensorial em robótica móvel

Monteiro, Sildomar T; Ribeiro, Carlos H.C


Título del documento:	Desempenho de algoritmos de aprendizagem por reforço sob condições de ambiguidade sensorial em robótica móvel
Revista:	Controle & automacao
Base de datos:	PERIÓDICA
Número de sistema:	000315345
ISSN:	0103-1759
Autores:	Monteiro, Sildomar T¹ Ribeiro, Carlos H.C
Instituciones:	¹Instituto Tecnologico de Aeronautica, Divisao de Ciencia da Computacao, Sao Jose dos Campos, Sao Paulo. Brasil
Año:	2004
Periodo:	Jul-Sep
Volumen:	15
Número:	3
Paginación:	320-338
País:	Brasil
Idioma:	Portugués
Tipo de documento:	Artículo
Enfoque:	Experimental
Resumen en inglés	We analyzed the performance variation of reinforcement learning algorithms in ambiguous state situations commonly caused by the low sensing capability of mobile robots. This variation is caused by violation of the Markov condition, which is important to guarantee convergence of these algorithms. Practical consequences of this violation in real systems are not firmly established in the literature. The algorithms assessed in this study were Q-learning, Sarsa and Q(lambda), and the experiments were performed on a Magellan Pro™robot. A method to build variable resolution cognitive maps of the environment was implemented in order to provide realistic data for the experiments. The implemented learning algorithms presented satisfactory performance on real systems, with a graceful degradation of efficiency due to state ambiguity. The Q-learning algorithm accomplished the best performance, followed by the Sarsa algorithm. The Q(lambda) algorithm had its performance restrained by experimental parameters. The cognitive map learning method revealed to be quite efficient, allowing adequate algorithms assessment
Resumen en portugués	Analisamos a variação de desempenho de algoritmos de aprendizagem por reforço em situações de ambigüidade de estados comumente produzidas pela baixa capacidade sensorial de robôs móveis. Esta variação é produzida pela violação da condição de Markov, importante para garantir a convergência destes algoritmos. As conseqüências práticas desta violação em sistemas reais não estão avaliadas de maneira definitiva na literatura. São estudados neste artigo os algoritmos Q-learning, Sarsa e Q(lambda), em experimentos realizados em um robô móvel Magellan Pro™. De modo a definir um verificador de desempenho para os algoritmos testados, foi implementado um método para criar mapas cognitivos de resolução variável. Os resultados mostram um desempenho satisfatório dos algoritmos, com uma degradação suave em função da ambigüidade sensorial. O algoritmo Q-learning teve o melhor desempenho, seguido do algoritmo Sarsa. O algoritmo Q(lambda) teve seu desempenho limitado pelos parâmetros experimentais. O método de criação de mapas se mostrou bastante eficiente, permitindo uma análise adequada dos algoritmos
Disciplinas:	Ingeniería
Palabras clave:	Ingeniería de control, Robótica, Robots móviles, Aprendizaje reforzado, Redes neuronales artificiales, Algoritmos
Keyword:	Engineering, Control engineering, Robotics, Mobile robot, Reinforced learning, Artificial neural networks, Algorithms
Texto completo:	Texto completo (Ver HTML)

Desempenho de algoritmos de aprendizagem por reforço sob condições de ambiguidade sensorial em robótica móvel

Espere un momento...