Управление манипулятором с помощью обучения с подкреплением

Аннотация

Рассматривается метод построения системы управления роботом-манипулятором с использованием обучения с подкреплением. Система управления будет строиться с помощью обучающегося алгоритма, где информацией для обучения будут совершаемые действия и «награда», — величина, характеризующая качество работы системы управления. Целью обучения является построение алгоритма управления, максимизирующего суммарную награду за некоторый промежуток времени. Алгоритм обучения и построенная в результате его работы система управления протестированы для задачи уклонения манипулятора от летящего в него предмета.

Ключевые слова: обучение с подкреплением, манипулятор, управление.

Полнотекстовая версия

N.P. Koshmanova, V.E. Pavlovsky, D.S. Trifonov. Reinforcement learning for manipulator control. Rus. J. Nonlin. Dyn., 2012, V.8, №4, p. 689-704

Abstract

We present method for constructing manipulator control system with reinforcement learning algorithm. We construct learning algorithm which uses information about performed actions and their quality with respect to desired behaviour called “reward”. The goal of the learning algorithm is to construct control system maximizing total reward. Learning algorithm and constructed control system were tested on the manipulator collision avoidance problem.

Keywords: reinforcement learning, manipulator, control, newton-euler algorithm.