当前位置:主页 > 资源下载 > 50 > 使用 Q-learning 和 epsilon-greedy 策略进行强化学习的确定性清洁机器人无模型值迭代算法：MATLAB 实现示例

使用 Q-learning 和 epsilon-greedy 策略进行强化学习的确定性清洁机器人无模型值迭代算法：MATLAB 实现示例

更新：2024-08-20 21:12:02
大小：3KB
推荐：★★★★★
来源：网友上传分享
类别：Matlab - 大数据
格式：ZIP

反馈 / 投诉

资源介绍

Q-learning with epsilon-greedy explore Algorithm for Deterministic Cleaning Robot V1 确定性清洁机器人 MDP 清洁机器人必须收集用过的罐子也必须为其充电电池。状态描述了机器人的位置和动作描述运动的方向。机器人可以向左移动或向左移动正确的。第一个 (1) 和最后 (6) 个状态是终端状态。目标是找到最大化回报的最优策略从任何初始状态。这里是 Q-learning epsilon-greedy 探索使用算法（在强化学习中）。算法 2-3，来自： @book{busoniu2010reinforcement, title={使用函数逼近器的强化学习和动态规划}，作者={Busoniu，Lucian 和 Babuska，Robert 和 De Schutter，Bart 和 Ernst，Damien

相关推荐

12-02 使用 Q-learning 和 epsilon-greedy 策略进行强化学习的确定性清洁机器人无模型值迭代算法：MATLAB 实现示例

使用 Q-learning 和 epsilon-greedy 策略进行强化学习的确定性清洁机器人无模型值迭代算法：MATLAB 实现示例

资源介绍

热门标签

资源声明