登录 注册
当前位置:主页 > 资源下载 > 50 > 使用 Q-learning 和 epsilon-greedy 策略进行强化学习的确定性清洁机器人无模型值迭代算法:MATLAB 实现示例

使用 Q-learning 和 epsilon-greedy 策略进行强化学习的确定性清洁机器人无模型值迭代算法:MATLAB 实现示例

  • 更新:2024-08-20 21:12:02
  • 大小:3KB
  • 推荐:★★★★★
  • 来源:网友上传分享
  • 类别:Matlab - 大数据
  • 格式:ZIP

资源介绍

Q-learning with epsilon-greedy explore Algorithm for Deterministic Cleaning Robot V1 确定性清洁机器人 MDP 清洁机器人必须收集用过的罐子也必须为其充电电池。 状态描述了机器人的位置和动作描述运动的方向。 机器人可以向左移动或向左移动正确的。 第一个 (1) 和最后 (6) 个状态是终端状态。 目标是找到最大化回报的最优策略从任何初始状态。 这里是 Q-learning epsilon-greedy 探索使用算法(在强化学习中)。 算法 2-3,来自: @book{busoniu2010reinforcement, title={使用函数逼近器的强化学习和动态规划}, 作者={Busoniu,Lucian 和 Babuska,Robert 和 De Schutter,Bart 和 Ernst,Damien