强化学习介绍概述课件

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,强化学习介绍,强化学习介绍,简介,一种能够让机器解决科学或经济方面学习问题的设计方案，并通过数学分析或计算实验来评估的方法称为强化学习。,从交互中进行，以目标为导向。,简介一种能够让机器解决科学或经济方面学习问题的设计方案，并通,强化学习介绍,学习者不被告知采取哪个动作，而是通过尝试来发现获得最大奖赏的动作。,agent,必须尝试,各种动作，并且渐渐,趋近于,那些表现最好的动作，以达到,目标,。,强化学习介绍学习者不被告知采取哪个动作，而是通过尝试来发现获,强化学习介绍,监督学习,是从样例中学习，样例是由富有知识的外部监督者提供的。这是一种重要的学习方法，但是它不能单独地用于交互学习。,强化学习,没有外部指导者，是在交互中，从自身经验中学习。,强化学习介绍监督学习是从样例中学习，样例是由富有知识的外部监,强化学习挑战,学习者,必须尝试,各种动作，并且渐渐,趋近于,那些表现最好的动作，以达到,目标,。,尝试各种动作即为试错，也称为,探索,趋近于好的动作即为强化，也称为,利用,探索与利用之间的平衡，是强化学习的一个挑战。,探索多了，有可能找到差的动作，探索少了，有可能错过好的动作。总体趋势：探索变少，利用变多,监督学习中根本就不存在探索和利用的平衡问题，样例学习阶段之后，就只有利用了。,强化学习挑战学习者必须尝试各种动作，并且渐渐趋近于那些表现,例子,一个机器人决定：,1,、进入一个新房间去寻找更多垃圾，,2,、寻找一条回去充电的路。,它根据以前找到充电器的快慢和难易程度来作决定。这是以前与环境交互得到的经验,例子一个机器人决定：1、进入一个新房间去寻找更多垃圾，2、,强化学习关键特征,强化学习明确整个问题时一个以目标为导向的,agent,与不确定环境交互问题,强化学习关键特征强化学习明确整个问题时一个以目标为导向的ag,例子,五子棋：棋手通过数学公式计算，发现位置,1,比位置,2,价值大，这是强化学习吗？,这不叫强化学习，叫,规划,如果通过几次尝试，走位置,1,比走位置,2,赢棋的可能大，得出经验，则为,强化学习,例子五子棋：棋手通过数学公式计算，发现位置1比位置2价值大,例子,小牛羚在出生后几分钟内挣扎着站起来。半小时后，每小时能跑几十公里,例子小牛羚在出生后几分钟内挣扎着站起来。半小时后，每小时能,例子,一个进行石油提炼操作的搅拌控制器。,该控制器,逐步优化,产量,/,成本,/,质量之间的平衡,而不是,严格按照工程师的最初设置来搅拌。,例子一个进行石油提炼操作的搅拌控制器。,例子,走到电梯门口，发现等电梯的人很多,选择：,1,等电梯；,2,走下去,根据经验来选择，是强化学习,例子走到电梯门口，发现等电梯的人很多,例子,家长一直采用严厉的方法对待子女，从不,尝试,平和的方式对待子女。,或许错过了采取更好动作的机会（如平和的教育方式）。,例子家长一直采用严厉的方法对待子女，从不尝试平和的方式对待,例子,这些例子中，随时间推移，学习者利用它获得的经验,不断,提高自己的性能。,简言之，强化学习就是,试出来的经验,。,例子这些例子中，随时间推移，学习者利用它获得的经验不断提高,自主学习,分析一下动物自主学习的特点：,1,、试错：尝试不同的做法（,动作,）,2,、强化：有好处多做，没有好处少做,3,、目标：是动物努力的方向，目标导向,动物（学习者）,必须尝试,各种动作，并且渐渐,趋近于,那些表现最好的动作，以达到,目标,。,自主学习分析一下动物自主学习的特点：动物（学习者）必须尝试各,相关定义,为便于研究，定义几个概念,agent,（学习的主体，如小猫、小狗、人、机器人、控制程序等）,agent,以目标为导向，与,不确定的,环境之间进行交互，,在交互过程中强化好的动作，获得经验。,agent,特点,1,、能感知环境的状态,2,、选择动作（可能会影响环境的状态）,3,、有一个目标（与环境状态有关的）,相关定义为便于研究，定义几个概念 agent以目标为导向，,相关定义,agent,的,目标导向,与许多其他学习方法相比，其他方法只考虑了子任务，而没有解决怎样可以把这些子任务整合到一个更大的框架中。,而强化学习是以最终目标为导向的，可以把不同的子任务整合到一个大框架中。,相关定义agent的目标导向,强化学习的基本要素,策略,奖赏函数,值函数,环境模型,强化学习的基本要素策略,强化学习的基本要素,策略定义了,agent,在给定时间内的行为方式，一个策略就是从环境感知的状态到在这些状态中可采用动作的一个映射。,可能是一个查找表，也可能是一个函数,强化学习的基本要素策略定义了agent在给定时间内的行为方式,强化学习的基本要素,奖赏函数是强化学习问题中的目标，它把环境中感知到的状态映射为单独的一个奖赏,奖赏函数可以是改变策略的基础。,强化学习的基本要素奖赏函数是强化学习问题中的目标，它把环境中,强化学习的基本要素,值函数：一个状态的值一个,agent,从那个状态开始到将来预期的累积的奖赏和。,在决策和评价决策中考虑最多的是值。,强化学习的基本要素值函数：一个状态的值一个agent从那个状,强化学习的基本要素,环境模型模拟了环境的行为，即给定一个状态和动作，模型可以预测必定导致下一个状态和下一个奖赏。模型一般用于规划。,规划是,算出来,的，强化学习是,试出来,的。,将模型和规划结合到强化学习是一个新进展，也是我们学习研究的重要内容。,强化学习的基本要素环境模型模拟了环境的行为，即给定一个状态和,强化学习介绍,本书中所有强化学习方法围绕估计值来组织，但这不是解决强化学习问题所必须的。,直接在策略空间中搜索而不利用值函数的方法称为,进化方法,。,适合用在策略空间比较小或者策略空间被构造地很好地情况下。,强化学习介绍本书中所有强化学习方法围绕估计值来组织，但这不是,例子：,Tic,Tac,Toe,初始,10.5,20.5,30.5,40.5,。,。,。,3,9,0.5,当前,10.5,20.5,30.5 S,40.5,。,1001 S,。,3,9,0.5,不断对弈，不断,更新估计,例子：TicTacToe初始当前不断对弈，不断更新估计,例子：,Tic,Tac,Toe,更新贪心走棋之前的状态,s,：,例子：TicTacToe 更新贪心走棋之前的状态s：,例子：,Tic,Tac,Toe,例子：TicTacToe,强化学习关键特征,学习时与环境交互（本例中与对手交互）,有一个清晰的目标,强化学习关键特征学习时与环境交互（本例中与对手交互）,强化学习历史,主要有两条线路,一条线路关注试错学习，以动物心理学为起点。（贯穿人工智能早期）,另一条线路关注最优控制问题以及使用值函数和动态规划的解决方案。,强化学习历史主要有两条线路,强化学习历史,最优控制描述的问题是如何设计一个控制器来随时间而最小化动态系统的行为计量,一个解决这个问题的方法是使用动态系统中状态和值函数的概念来定义一个函数方程，即贝尔曼方程。,用贝尔曼方程来解决最优控制问题的就是动态规划。,强化学习历史最优控制描述的问题是如何设计一个控制器来随时间而,强化学习历史,另一条路以试错学习为中心。,改变动作选择的趋向是根据动作结果好坏来决定的。,强化学习历史另一条路以试错学习为中心。,强化学习历史,围绕以上两条路产生了第三条路，即时间差分方法。,三条路线整合起来形成现代强化学习。,强化学习历史围绕以上两条路产生了第三条路，即时间差分方法。,

展开阅读全文

强化学习介绍概述课件

最新文档