登录 注册
当前位置:主页 > 资源下载 > 34 > DDPG学习心得:如何在matlab中清空代码-understand

DDPG学习心得:如何在matlab中清空代码-understand

  • 更新:2024-07-30 11:28:56
  • 大小:85KB
  • 推荐:★★★★★
  • 来源:网友上传分享
  • 类别:Matlab - 大数据
  • 格式:ZIP

资源介绍

如何清空matlab的代码 Deep deterministic policy gradients (DDPG) 本文记录学习DDPG算法细节中遇到的若干问题。 Click to open TOC DDPG的主要特征 DDPG的优点以及特点, 在若干blog, 如以及中已经详述, 在此不再赘述细节。其主要的tricks在于: Memory replay, 与 DQN中想法完全一致; Actor-critic 框架, 其中critic负责value iteration, 而actor负责policy iteration; Soft update, agent同时维持四个networks, 其中actor与critic各两个, 分别有一个为target network, 其更新方式为soft update, 即每一步仅采用相对小的权重采用相应训练中的network更新;如此的目的在于尽可能保障训练能够收敛; Exploration via random process, typically OU process, 为actor采取的action基础上增加一定的随机扰动, 以保障一定的探索完