-
在PyTorch中广受欢迎的ActorCritic深度强化学习算法,适用于OpenAI Gym环境,即AC-Gym
资源介绍
该存储库结合了来自三个来源qv的代码,以获取详细信息:
Pack Publishing的第19章
斯科特·藤本的
马克斯·拉潘(Max Lapan)的
我使用此存储库的目标是将所有这些算法集中在一个地方,并具有简单,统一的命令行界面和最小的外部依存关系( , )。
快速开始
python3 td3-learn.py --target -500
这将在默认环境( )上运行算法,直到达到-500的平均奖励(在我的Asus Predator Helios笔记本电脑上大约需要23秒)。 程序完成后,您可以通过运行以下命令显示结果
python3 ac-test.py models/td3-Pendulum-v0-.dat
其中是奖励值。
如果您已安装 ,则可以通过运行以下命令可视化情节奖励
python3 ac-plot.py models/td3