-
在PyTorch中实施深度强化学习的工具:PyTorch-RL
资源介绍
强化学习算法的PyTorch实现
该存储库包含:
策略渐变方法(TRPO,PPO,A2C)
重要笔记
该代码现在适用于PyTorch 0.4。 对于PyTorch 0.3,请检出0.3分支。
要运行mujoco环境,先安装和。
如果您有GPU,建议将OMP_NUM_THREADS设置为1(PyTorch在执行计算时会创建其他线程,这可能会损害多处理的性能。此问题在Linux上最为严重,在Linux中,多处理甚至比单线程还要慢):
export OMP_NUM_THREADS=1
特征
支持离散和连续的动作空间。
支持代理的多重处理,以同时在多个环境中收集样本。 (比单线程快x8)
快速费舍尔矢量乘积计算。 对于这一部分,Ankur友好地写了一个解释了实现细节。
政策梯度法
->
->
->
例子
python examples / ppo_gym.py --e