当前位置:主页 > 资源下载 > 34 > DDPG学习心得：如何在matlab中清空代码-understand

DDPG学习心得：如何在matlab中清空代码-understand

更新：2024-07-30 11:28:56
大小：85KB
推荐：★★★★★
来源：网友上传分享
类别：Matlab - 大数据
格式：ZIP

反馈 / 投诉

资源介绍

如何清空matlab的代码 Deep deterministic policy gradients (DDPG) 本文记录学习DDPG算法细节中遇到的若干问题。 Click to open TOC DDPG的主要特征 DDPG的优点以及特点, 在若干blog, 如以及中已经详述, 在此不再赘述细节。其主要的tricks在于: Memory replay, 与 DQN中想法完全一致； Actor-critic 框架, 其中critic负责value iteration, 而actor负责policy iteration； Soft update, agent同时维持四个networks, 其中actor与critic各两个, 分别有一个为target network, 其更新方式为soft update, 即每一步仅采用相对小的权重采用相应训练中的network更新；如此的目的在于尽可能保障训练能够收敛； Exploration via random process, typically OU process, 为actor采取的action基础上增加一定的随机扰动, 以保障一定的探索完

相关推荐

12-02 DDPG学习心得：如何在matlab中清空代码-understand

DDPG学习心得：如何在matlab中清空代码-understand

资源介绍

热门标签

资源声明