-
DDPG学习心得:如何在matlab中清空代码-understand
资源介绍
如何清空matlab的代码
Deep
deterministic
policy
gradients
(DDPG)
本文记录学习DDPG算法细节中遇到的若干问题。
Click
to
open
TOC
DDPG的主要特征
DDPG的优点以及特点,
在若干blog,
如以及中已经详述,
在此不再赘述细节。其主要的tricks在于:
Memory
replay,
与
DQN中想法完全一致;
Actor-critic
框架,
其中critic负责value
iteration,
而actor负责policy
iteration;
Soft
update,
agent同时维持四个networks,
其中actor与critic各两个,
分别有一个为target
network,
其更新方式为soft
update,
即每一步仅采用相对小的权重采用相应训练中的network更新;如此的目的在于尽可能保障训练能够收敛;
Exploration
via
random
process,
typically
OU
process,
为actor采取的action基础上增加一定的随机扰动,
以保障一定的探索完