登录 注册
当前位置:主页 > 资源下载 > 47 > 2020年研究生华为杯,数学建模竞赛C题.rar下载

2020年研究生华为杯,数学建模竞赛C题.rar下载

  • 更新:2024-07-29 13:18:32
  • 大小:91.42MB
  • 推荐:★★★★★
  • 来源:网友上传分享
  • 类别:其它 - 考试认证
  • 格式:RAR

资源介绍

那我们讲一下它的 algorithm。假设我们 learn 了一个 Q-function,Q-function 就是 input s 跟 a,output 就是 Q^{\pi}(s,a)Q π (s,a)。那接下来,我们要 learn 一个 actor,这个 actor 的工作就是解这个 arg max 的 problem。这个 actor 的工作就是 input 一个 state s,希望可以 output 一个 action a。这个 action a 被丢到 Q-function 以后,它可以让 Q^{\pi}(s,a)Q π (s,a) 的值越大越好。那实际上在 train 的