登录 注册
当前位置:主页 > 资源下载 > 9 > 在“强化学习”框架下,该项目实施了基本概念,它是CS747课程作业的集合

在“强化学习”框架下,该项目实施了基本概念,它是CS747课程作业的集合

  • 更新:2024-07-31 10:09:50
  • 大小:24.24MB
  • 推荐:★★★★★
  • 来源:网友上传分享
  • 类别:其它 - 开发技术
  • 格式:ZIP

资源介绍

强化学习 此仓库包含“强化学习”框架下处理的基本概念的实现 在这里,您将发现对随机多臂匪徒的手臂进行采样的不同算法的实现和比较。 每个手臂都从固定的伯努利分布中获得iid奖励。 目的是最大程度地减少后悔。 实施的算法是epsilon-greedy探查,UCB,KL-UCB和Thompson采样。 马尔可夫决策过程可用于需要根据先前结果做出决策的问题中。 在这里,实现了用于找到给定MDP的最佳策略的算法。 第一部分是应用线性规划(LP)公式,第二部分是实现策略迭代(PI)的三种不同变体。 霍华德的PI,Mansour和Singh的随机PI和批量转换PI。 此后,通过运行一组实验比较PI的这些变体的效率。 本节包含Sarsa(λ)和Q学习的实现和比较。 调整学习和探索速度以获得最佳性能。 报告中讨论了调整超参数的系统过程。 对于Sarsa,已实现了替换跟踪方法以及累积跟踪方法。 本节介绍