当前位置:主页 > 资源下载 > 9 > 在“强化学习”框架下，该项目实施了基本概念，它是CS747课程作业的集合

在“强化学习”框架下，该项目实施了基本概念，它是CS747课程作业的集合

更新：2024-07-31 10:09:50
大小：24.24MB
推荐：★★★★★
来源：网友上传分享
类别：其它 - 开发技术
格式：ZIP

反馈 / 投诉

资源介绍

强化学习此仓库包含“强化学习”框架下处理的基本概念的实现在这里，您将发现对随机多臂匪徒的手臂进行采样的不同算法的实现和比较。每个手臂都从固定的伯努利分布中获得iid奖励。目的是最大程度地减少后悔。实施的算法是epsilon-greedy探查，UCB，KL-UCB和Thompson采样。马尔可夫决策过程可用于需要根据先前结果做出决策的问题中。在这里，实现了用于找到给定MDP的最佳策略的算法。第一部分是应用线性规划（LP）公式，第二部分是实现策略迭代（PI）的三种不同变体。霍华德的PI，Mansour和Singh的随机PI和批量转换PI。此后，通过运行一组实验比较PI的这些变体的效率。本节包含Sarsa（λ）和Q学习的实现和比较。调整学习和探索速度以获得最佳性能。报告中讨论了调整超参数的系统过程。对于Sarsa，已实现了替换跟踪方法以及累积跟踪方法。本节介绍

上一篇: 机器学习案例ppt.zip
下一篇: 图像数据集 CALTECH 101

相关推荐

12-02 在“强化学习”框架下，该项目实施了基本概念，它是CS747课程作业的集合

在“强化学习”框架下，该项目实施了基本概念，它是CS747课程作业的集合

资源介绍

热门标签

资源声明