-
在“强化学习”框架下,该项目实施了基本概念,它是CS747课程作业的集合
资源介绍
强化学习
此仓库包含“强化学习”框架下处理的基本概念的实现
在这里,您将发现对随机多臂匪徒的手臂进行采样的不同算法的实现和比较。 每个手臂都从固定的伯努利分布中获得iid奖励。 目的是最大程度地减少后悔。 实施的算法是epsilon-greedy探查,UCB,KL-UCB和Thompson采样。
马尔可夫决策过程可用于需要根据先前结果做出决策的问题中。
在这里,实现了用于找到给定MDP的最佳策略的算法。 第一部分是应用线性规划(LP)公式,第二部分是实现策略迭代(PI)的三种不同变体。 霍华德的PI,Mansour和Singh的随机PI和批量转换PI。 此后,通过运行一组实验比较PI的这些变体的效率。
本节包含Sarsa(λ)和Q学习的实现和比较。
调整学习和探索速度以获得最佳性能。 报告中讨论了调整超参数的系统过程。
对于Sarsa,已实现了替换跟踪方法以及累积跟踪方法。
本节介绍
- 上一篇: 机器学习案例ppt.zip
- 下一篇: 图像数据集 CALTECH 101