-
在CartPole OpenAI Gym环境中,我们对A3C-LSTM算法进行了测试
资源介绍
使用长期短期记忆网络(A3C-LSTM)的异步优势参与者关键算法的实现
重要说明:此处显示的模型无法在此环境下收敛。 要查看融合模型,请查看
从Arthur
可在此处找到论文:
在测试
要求
和 。
用法
训练仅在大于30的小批量上进行,有效地防止了表现不佳的事件影响训练。 奖励因素用于以更快的学习速度进行有效的训练。
每100集会保存一次模型。 通过将全局参数中的任何一个设置为True,可以重新加载它们以进行进一步的培训,也可以对其进行可视化以进行测试。
这只是测试A3C-LSTM实现的示例代码。 这不应该被认为是在这种环境下学习的最佳方式!