一类基于启发式搜索的 激励学习算法

上传人:e****s 文档编号:252585935 上传时间:2024-11-18 格式:PPT 页数:19 大小:189KB
返回 下载 相关 举报
一类基于启发式搜索的 激励学习算法_第1页
第1页 / 共19页
一类基于启发式搜索的 激励学习算法_第2页
第2页 / 共19页
一类基于启发式搜索的 激励学习算法_第3页
第3页 / 共19页
点击查看更多>>
资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,一类基于启发式搜索的 鼓励学习算法,报告人:苏姗,11/18/2024,主要内容,鼓励学习的根本介绍,时间差分算法和SARSA算法,基于启发式的鼓励学习,实验结果和分析,总结,11/18/2024,鼓励学习的根本介绍,机器学习包括有监督学习,无监督学习和鼓励学习。鼓励学习与有监督学习不同,在学习中,agent不被告知哪个动作是最好的,而是让它自己与未知环境交互,不断地试错,从环境中得到奖惩信息,积累经验,然后让agent自己判断哪个动作是最好的。,11/18/2024,鼓励学习的根本介绍,最优控制策略 :S,A,11/18/2024,鼓励学习的根本介绍,折算累积回报:,状态-动作的值函数:,最优策略:,返回,S,t+1,状态最大的值函数,11/18/2024,时间差分算法和SARSA算法,蒙特卡罗算法,更新准那么:,常量 的蒙特卡罗算法,是学习率,一次迭代之后才能得到折扣累积回报总和(即值函数的真实值)对估计的值函数进行更新。,11/18/2024,时间差分算法和SARSA算法,时间差分(temporal difference),结合了动态规划和蒙特卡罗算法,一方面TD算法在环境模型未知的情况下可以直接从agent的经验中学习,另一方面TD算法利用估计的值函数进行迭代。,11/18/2024,时间差分算法和SARSA算法,TD(0)算法,一步TD算法,agent获得的瞬时奖赏值仅向后回退一步,即只迭代的修改了相邻状态的估计值,更新规那么:,时间差分,11/18/2024,时间差分算法和SARSA算法,SARSA算法,是一种典型的TD算法。,在动作at+1的选择上不同。SARSA算法采用随机概率的方法,一定程度上防止了Q学习中易陷入局部最优的问题。,返回,更新规那么,11/18/2024,基于启发式的鼓励学习,启发式搜索,评估函数f(x):从初始结点s,0,约束的经过结点x到达目标结点s,r,的所有路径中最小路径代价的估计值。,一般形式:f(x)=g(x)+h(x),11/18/2024,基于启发式的鼓励学习,一般形式:f(x)=g(x)+h(x),g(x)h(x),s,0,x s,r,g(x)是从初始节点s,0,到x点的实际代价;,h(x)是从x点到目标节点的最优路径的评,估代价。,11/18/2024,基于启发式的鼓励学习,鼓励学习虽然适合处理环境模型未知的情况,但是只能从环境中得到才奖惩函数。,对于鼓励学习,在求解初期,简单的启发信息会加速智能体的搜索速度。,提出基于启发式的鼓励学习:,H-SARSA,11/18/2024,基于启发式的鼓励学习,设置一个总控制器C,包括两个子控制器c1(启发式)和c2(SARSA),每个控制器有两个参数:优先权M和选择概率P。,首先比较优先级,如果相同再比较选择概率,值较大的控制器所决定的动作将被总控制器所选择,作为智能体的下一步动作。,Ms Mh,Ps Ph,11/18/2024,基于启发式的鼓励学习,Mh初始为一个不小的非负常量,Ph初始设为不小的常量(0Ph1),Ms=0,Ps=0。,求解初期,agent经验很少,Ms Mh。随着经验的增加,agent学习能力加强,Ms增加。当Ms=Mh时,转入鼓励学习为主,启发式为辅的阶段。,返回,11/18/2024,实验结果和分析,agent从S点出发,在尽可能短的时间内到达G点。,到达G点,r=1000;,经过可通行区域r=-0.02;,经过不可通行区域和边,界r=-5。,S,图一 20*20迷宫,G,h(x):当前位置和目标位置的最短距离,11/18/2024,实验结果和分析,11/18/2024,实验结果和分析,返回,11/18/2024,总结,存在的问题:实验中参数是人为调整的,应用:在中国象棋博弈中,把数据库与,鼓励学习结合起来。,返回,11/18/2024,谢 谢,11/18/2024,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业管理 > 商业计划


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!