资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2020/12/11 Friday,#,新课导入,前一小节我们已经简单介绍了马尔可夫型,决策,并求出了平均收益矩阵,对短期收益也,做了简单的分析,本节将在长期准则下分析马尔可夫型决策,.,4,.,3,长期准则下的马尔可夫型决策,教学目标,知识与能力,进一步加深对马尔可夫型决策的理解,,掌握平稳分布的意义,能用平稳准则马尔可夫型决策,.,过程与方法,通过学生讨论理解,老师讲解具体案例,最后能独立解决长期准则下的马尔,可夫型决策,.,情感态度与价值观,通过长期准则下马尔可夫型决策的学习,更加全面和清晰地了解马尔可夫型决策,能解决长期准则下的马尔可夫型决策案例,.,当机器处于状态状态是对它进行检修,在一小时内排除故障的概率为,0.6,.,X,n,表示时刻,n,时的状态,试分析时刻,n,分布的规律,.,教学重难点,重点:,平稳分布,.,难点:,长期准则下的马尔可夫型案例分析,.,高中数学人教,A,版选修,4-9,第四讲 三 长期准则下的马尔可夫型决策理论 课件,(,共,27,张,PPT),高中数学人教,A,版选修,4-9,第四讲 三 长期准则下的马尔可夫型决策理论 课件,(,共,27,张,PPT),案例分析,案例,5,某工厂的一台自动加工机有,2,种工作状态,:,正常状态和故障状态,.,在每个整数钟点的起始时刻检查机器的工作情况,,,若机器处于正常状态,,,则让它继续工作,;,若机器处于故障状态,,,则他进行检修,.,假设处于正常状态的机器,在一小时后发生故障的概率为,0.05.,高中数学人教,A,版选修,4-9,第四讲 三 长期准则下的马尔可夫型决策理论 课件,(,共,27,张,PPT),高中数学人教,A,版选修,4-9,第四讲 三 长期准则下的马尔可夫型决策理论 课件,(,共,27,张,PPT),解:,依题意 为马尔可夫链,则有,时刻,n,的分布和时刻,n,+1,的分布的关系为,又有,高中数学人教,A,版选修,4-9,第四讲 三 长期准则下的马尔可夫型决策理论 课件,(,共,27,张,PPT),高中数学人教,A,版选修,4-9,第四讲 三 长期准则下的马尔可夫型决策理论 课件,(,共,27,张,PPT),所以,,,时刻,n,的分布和时刻,n,+1,的分布,的关系为,假设初始分布,高中数学人教,A,版选修,4-9,第四讲 三 长期准则下的马尔可夫型决策理论 课件,(,共,27,张,PPT),高中数学人教,A,版选修,4-9,第四讲 三 长期准则下的马尔可夫型决策理论 课件,(,共,27,张,PPT),则得各个时刻的分布表,0,1,2,3,50,100,高中数学人教,A,版选修,4-9,第四讲 三 长期准则下的马尔可夫型决策理论 课件,(,共,27,张,PPT),高中数学人教,A,版选修,4-9,第四讲 三 长期准则下的马尔可夫型决策理论 课件,(,共,27,张,PPT),根据上表数据,做出假设当,n,足够大时状态分布为一固定值,设稳定分布为,则有,高中数学人教,A,版选修,4-9,第四讲 三 长期准则下的马尔可夫型决策理论 课件,(,共,27,张,PPT),高中数学人教,A,版选修,4-9,第四讲 三 长期准则下的马尔可夫型决策理论 课件,(,共,27,张,PPT),化简得,解之得,高中数学人教,A,版选修,4-9,第四讲 三 长期准则下的马尔可夫型决策理论 课件,(,共,27,张,PPT),高中数学人教,A,版选修,4-9,第四讲 三 长期准则下的马尔可夫型决策理论 课件,(,共,27,张,PPT),所以当,n,足够大时,,,存在 使,n,以后各个时刻,的分步都相等,.,说明假设成立,高中数学人教,A,版选修,4-9,第四讲 三 长期准则下的马尔可夫型决策理论 课件,(,共,27,张,PPT),高中数学人教,A,版选修,4-9,第四讲 三 长期准则下的马尔可夫型决策理论 课件,(,共,27,张,PPT),定义,一般地分布,如果时刻,n,的分布,w,能使马尔可夫链在,n,以后的各个时刻的分布相等,即,w=wP,,其中,P,为该马尔可夫链的转移矩阵,则称,w,为该马尔可夫链的一个,平稳分布,.,高中数学人教,A,版选修,4-9,第四讲 三 长期准则下的马尔可夫型决策理论 课件,(,共,27,张,PPT),高中数学人教,A,版选修,4-9,第四讲 三 长期准则下的马尔可夫型决策理论 课件,(,共,27,张,PPT),对于一般情况,,,若马尔可夫链 的转移概率矩阵为,P,,平稳分布,则有,高中数学人教,A,版选修,4-9,第四讲 三 长期准则下的马尔可夫型决策理论 课件,(,共,27,张,PPT),高中数学人教,A,版选修,4-9,第四讲 三 长期准则下的马尔可夫型决策理论 课件,(,共,27,张,PPT),小练习,对于案例,5,,假设,采取的是加急检修,在一小时内排除故障的概率,0.9,,,则是否存在平稳分布,若存在求出,若不存在说明理由,.,高中数学人教,A,版选修,4-9,第四讲 三 长期准则下的马尔可夫型决策理论 课件,(,共,27,张,PPT),高中数学人教,A,版选修,4-9,第四讲 三 长期准则下的马尔可夫型决策理论 课件,(,共,27,张,PPT),长期准则也成为平稳准则,用平稳准则进行马尔可夫型决策的一般步骤,(,1,)根据背景确定所研究对象是否可以用马尔可夫链描述,若可以则明确决策目标,否则运用其他决策方法;,(,2,)确定所有行动方案,可能状态,损益函数或损益矩阵;,(,3,)对于给定行动方案,确定马尔可夫链在该行动方案下的转移概率矩阵,并判断相应平稳分布是否唯一;,(,4,)如果各个行动方案所对应的平稳分布唯一,就可以用平稳准则选择可行的方案,.,解,:,设平稳分布,则,解之得,所以,存在平稳分布,案例,6,某建筑公司的施工队长期分别在甲,乙和丙三地区施工,施工所需要的大型设备由建筑公司统一调配,由以往规律,大型设备在三地的状态转移规律为:,停留在甲地的概率为,0.8,;甲转到乙的概率为,0.2,;由乙转到甲的概率为,0.2,;由乙转到丙的概率为,0.8,;停留在丙地的概率为,0.6,;由丙转到乙的概率为,0.4,,三地的距,离如下图,运费与距离成正比,如果该建筑公司想建一个大型设备维修厂,从长远考虑,应该选甲,乙,丙哪个地方,?,甲,乙,丙,4,3,5,依题意,该公司长远决策目标是使运输费用最少,行动方案,d,1,:建在甲地,,d,2,:建在乙地,,d,3,:建在丙地;,大型设备可能所处的状态,h,1,:在甲地,,h,2,:在乙地,,h,3,:在丙地;,损失矩阵,状态转移矩阵为,高中数学人教,A,版选修,4-9,第四讲 三 长期准则下的马尔可夫型决策理论 课件,(,共,27,张,PPT),高中数学人教,A,版选修,4-9,第四讲 三 长期准则下的马尔可夫型决策理论 课件,(,共,27,张,PPT),设平稳分布,则有,高中数学人教,A,版选修,4-9,第四讲 三 长期准则下的马尔可夫型决策理论 课件,(,共,27,张,PPT),高中数学人教,A,版选修,4-9,第四讲 三 长期准则下的马尔可夫型决策理论 课件,(,共,27,张,PPT),解之得,3,个行动方案所对应的风险分别为,高中数学人教,A,版选修,4-9,第四讲 三 长期准则下的马尔可夫型决策理论 课件,(,共,27,张,PPT),高中数学人教,A,版选修,4-9,第四讲 三 长期准则下的马尔可夫型决策理论 课件,(,共,27,张,PPT),因为 所以应该选择,d,3,,,即建在丙地,.,高中数学人教,A,版选修,4-9,第四讲 三 长期准则下的马尔可夫型决策理论 课件,(,共,27,张,PPT),高中数学人教,A,版选修,4-9,第四讲 三 长期准则下的马尔可夫型决策理论 课件,(,共,27,张,PPT),再见,高中数学人教,A,版选修,4-9,第四讲 三 长期准则下的马尔可夫型决策理论 课件,(,共,27,张,PPT),高中数学人教,A,版选修,4-9,第四讲 三 长期准则下的马尔可夫型决策理论 课件,(,共,27,张,PPT),
展开阅读全文