![]() |
||||||||||||
|
Аннотация Вработе описываются методы обучения с подкреплением спайковой нейронной сети, управляющей роботом или интеллектуальным агентом. Применение спайковых нейронов в качестве базовых элементов сети позволяет использовать как пространственную, так и временную структуру входной сенсорной информации. Обучение сети производится с помощью подкрепляющих сигналов, идущих из внешней среды и отражающих степень успешности недавно выполненных агентом действий. Максимизация получаемого подкрепления ведется путем модулированной минимизации информационной энтропии функционирования нейрона, которая зависит от весов нейронов. Полученные законы изменения весов близки к явлениям синаптической пластичности, наблюдающейся в реальных нейронах. Работа алгоритма обучения с подкреплением проверяется на тестовой задаче поиска ресурсов агентом в дискретной виртуальной среде. Ключевые слова: спайковый нейрон, адаптивное управление, обучение с подкреплением, информационная энтропия. ![]() O.Y. Sinyavskiy, A.I. Kobrin. Reinforcement learning of a spiking neural network in the task of control of an agent in a virtual discrete environment. Rus. J. Nonlin. Dyn., 2011, V.7, №4, p. 859-875 Abstract Method of reinforcement learning of spiking neural network that controls robot or virtual agent is described. Using spiking neurons as key elements of a network allows us to exploit spatial and temporal structure of input sensory information. Teaching of the network is implemented with a use of reinforcement signals that come from the external environment and reflect the success of agent’s recent actions. A maximization of the received reinforcement is done via modulated minimization of neurons’ informational entropy that depends on neurons’ weights. The laws of weights changes were close to modulated synaptic plasticity that was observed in real neurons. Reinforcement learning algorithm was tested on a task of a resource search in a virtual discrete environment. Keywords: spiking neuron, adaptive control, reinforcement learning, informational entropy. |
|||||||||||