-
A3C(异步优势Actor-Critic)算法在超级马里奥兄弟游戏中的Super-mario-bros-A3C-pytorch实现
资源介绍
[PYTORCH]扮演超级马里奥兄弟的非同步优势演员评判(A3C)
介绍
这是我的python源代码,用于训练特工玩超级马里奥兄弟。 通过使用纸异步方法用于深强化学习引入异步优势演员,评论家(A3C)算法。
样品结果
动机
在我实施该项目之前,有多个存储库可以很好地重现本文的结果,这些存储库可以在Tensorflow,Keras和Pytorch等不同的常见深度学习框架中进行。 我认为,其中大多数都很棒。 但是,它们似乎在许多方面都过于复杂,包括图像的预处理,环境设置和权重初始化,这使用户的注意力从更重要的事情上转移了。 因此,我决定编写更简洁的代码,以简化不重要的部分,同时仍然严格