-
在OpenAI Gym环境中实现的DDPG(深度确定性策略梯度)算法,应用于连续控制,具备深度强化学习特性,即ddpg-aigym
资源介绍
ddpg-aigym
深度确定性策略梯度
Tensorflow中深度确定性策略梯度算法的实现(Lillicrap等人 。)
如何使用
git clone https://github.com/stevenpjg/ddpg-aigym.git
cd ddpg-aigym
python main.py
培训期间
一旦训练
学习曲线
InvertedPendulum-v1环境的学习曲线。
依存关系
Tensorflow(在tensorflow版本0.11.0rc0 )
OpenAi体育馆
Mujoco
产品特点
批量归一化(提高学习速度)
梯度转换器(在arXiv中提供: )
注意
使用不同