运筹学北京邮电大学动态规划1

资源描述

,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第五章动态规划,不要过河拆桥,动态规划,Dynamic programming,五十年代贝尔曼(,B.E.Bellman,),为代表的研究成果,属于现代控制理论的一部分,以长远利益为目标的一系列决策,最优化原理，可归结为一个递推公式,5.1,动态规划的最优化原理及其算法,5.1.1 求解多阶段决策过程的方法,例5.1.1 最短路问题,2,决策树法,可以枚举出20条路径，其中最短的路径长度为16,3,例,5.1.1,最短路问题,表现为明显的阶段性,一条从,A,到,B,的,最短路径中的任何一段都是最短的,最优性原理,“最优策略的一部分也是最优的,”,每步的决策只与相邻阶段状态有关，而与如何达到这一状态无关,因此我们可以从,B,向回搜索最短路,标记法,如何找出最短路径,4,5.1.2,动态规划的基本概念及递推公式,状态,(每阶段初始的出发点),最短路问题中，各个节点就是状态,生产库存问题中，库存量是状态,物资分配问题中，剩余的物资量是状态,控制变量,(决策变量),最短路问题中，走哪条路,生产库存问题中，各阶段的产品生产量,物资分配问题中，分配给每个地区的物资量,阶段的,编号,与递推的,方向,一般采用反向递推，所以阶段的编号也是逆向的,当然也可以正向递推,5,动态规划的步骤,1、确定问题的阶段和编号,2、确定状态变量,用,S,k,表示第,k,阶段的状态变量及其值,3、确定决策变量,用,x,k,表示第,k,阶段的决策变量，并以,x,k,*,表示该阶段的最优决策,4、状态转移方程,s,k,-1,=,g,(,s,k,x,k,),反向编号,s,k,+1,=,g,(,s,k,x,k,),正向编号,5、直接效果,直接一步转移的效果,d,k,(,s,k,x,k,),6、,总效果函数,指某阶段某状态下到终端状态的总效果，它是一个递推公式,6,动态规划的步骤,h,k,是一般表达形式，求当前阶段当前状态下的阶段最优总效果,(1)如最短路问题，是累加形式，此时有,终端的边际效果一般为,f,0,(,s,0,x,0,)=0,(2),如串联系统可靠性问题，是连乘形式，此时有,终端的边际效果一般为,f,0,(,s,0,x,0,)=1,从第1阶段开始，利用边际效果和边界条件，可以递推到最后阶段,7,5.2 动态规划模型举例,5.2.1 产品生产计划安排问题,例1,某工厂生产某种产品的月生产能力为10件，已知今后四个月的产品成本及销售量如表所示。如果本月产量超过销售量时，可以存储起来备以后各月销售，一件产品的月存储费为2元，试安排月生产计划并做到：,1、保证满足每月的销售量，并规定计划期初和期末库存为零；,2、在生产能力允许范围内，安排每月生产量计划使产品总成本(即生产费用加存储费)最低。,8,例1 产品生产计划安排,设,x,k,为第,k,阶段生产量，则有直接成本,d,k,(,s,k,x,k,)=,c,k,x,k,+2,s,k,状态转移公式为,s,k,-1,=,s,k,+,x,k,-,y,k,总成本递推公式,第一阶段,：(即第4月份),由边界条件和状态转移方程,s,0,=,s,1,+,x,1,y,1,=,s,1,+,x,1,6=0,得,s,1,+,x,1,=6,或,x,1,=6,s,1,0,估计,第一阶段，即第4月份初库存的可能,状态：,0,s,1,306712=5，,所以，,s,1,0,5,9,第一阶段最优决策表,第二阶段,：最大可能库存量 7 件,由状态转移方程：,s,1,=,s,2,+,x,2,12,0,及,x,2,10，,可知,s,2,2,7，min,x,2,=5,由阶段效果递推公式有：,f,2,(2,10)=,d,2,(2,10)+,f,1,*(0,6)=2,2+8010+456=1260,得第二,阶段最优决策表，如下,10,第二阶段最优决策表,第三阶段,：最大可能库存量 4 件,由状态转移方程：,s,2,=,s,3,+,x,3,7,2,及,x,3,10，,可知,s,3,0,4，min,x,3,=5,由阶段效果递推公式有：,f,3,(1,10)=,d,3,(1,10)+,f,2,*(4,8)=2,1+,7210+1104=1826,得第三,阶段最优决策表，如下,11,第三阶段最优决策表,第四阶段,：初始库存量,s,4,=0,由状态转移方程：,s,3,=,s,4,+,x,4,6,0,可知,x,4,6，,由阶段效果递推公式有：,f,4,(0,6)=,d,4,(0,6)+,f,3,*(0,10)=,706+1902=2322,得第四,阶段最优决策表，如下,回,溯,得,此,表,12,例,2,生产库存管理问题,(,连续变量,),设某厂计划全年生产某种产品,A。,其四个季度的订货量分别为600公斤，700公斤，500公斤和1200公斤。已知生产产品,A,的生产费用与产品的平方成正比，系数为0.005。厂内有仓库可存放产品，存储费为每公斤每季度1元。求最佳的生产安排使年总成本最小。,解,：四个季度为四个阶段，采用阶段编号与季度顺序一致。,设,s,k,为第,k,季初的库存量，则边界条件为,s,1,=,s,5,=0,设,x,k,为第,k,季的,生产,量，,设,y,k,为第,k,季的订货量；,s,k,，,x,k,，,y,k,都取实数，状态转移方程为,s,k,+1,=,s,k,+,x,k,-,y,k,仍采用反向递推，但注意阶段编号是正向的,目标函数为,13,例,2,生产库存管理问题,(,连续变量,),第一步,：(第四季度)总效果,f,4,(,s,4,x,4,)=0.005,x,4,2,+,s,4,由边界条件有：,s,5,=,s,4,+,x,4,y,4,=0，,解得：,x,4,*=1200,s,4,将,x,4,*,代入,f,4,(,s,4,x,4,),得：,f,4,*(,s,4,)=0.005(1200,s,4,),2,+,s,4,=7200 11,s,4,+0.005,s,4,2,第二步,：(第三、四季度)总效果,f,3,(,s,3,x,3,)=0.005,x,3,2,+,s,3,+,f,4,*(,s,4,),将,s,4,=,s,3,+,x,3,500,代入,f,3,(,s,3,x,3,),得：,14,例,2,生产库存管理问题,(,连续变量,),第三步,：(第二、三、四季度)总效果,f,2,(,s,2,x,2,)=0.005,x,2,2,+,s,2,+,f,3,*(,s,3,),将,s,3,=,s,2,+,x,2,700,代入,f,2,(,s,2,x,2,),得：,注意,：阶段最优总效果仅是当前状态的函数，与其后的决策无关,15,例,2,生产库存管理问题,(,连续变量,),第四步,：(第一、二、三、四季度)总效果,f,1,(,s,1,x,1,)=0.005,x,1,2,+,s,1,+,f,2,*(,s,2,),将,s,2,=,s,1,+,x,1,600=,x,1,600,代入,f,1,(,s,1,x,1,),得：,由此,回溯,：得最优生产库存方案,x,1,*=600，,s,2,*=0；,x,2,*=700，,s,3,*=0；,x,3,*=800，,s,4,*=300；,x,4,*=900。,16,5.2.2,资源分配问题,例3,某公司有9个推销员在全国三个不同市场推销货物，这三个市场里推销人员数与收益的关系如下表，试作出使总收益最大的分配方案。,解,：设分配人员的顺序为市场1,2,3，采用反向阶段编号。,设,s,k,为第,k,阶段尚未分配的人员数，边界条件为,s,3,=9,设,x,k,为第,k,阶段分配的推销人员数；,仍采用反向递推，,状态转移方程为,s,k,1,=,s,k,x,k,目标函数为,17,例3,第一阶段：给第三市场分配,s,1,有,09种可能，第一阶段最优决策表如下：,为什么与,例1,的第一阶段的表有差别？,因为不存在边界条件,s,0,=0,18,例3,第二阶段：给第二市场分配,s,2,有,09种可能，第二阶段最优决策表如下：,19,例3,第三阶段：给第一市场分配,由边界条件,s,3,=9，,第三阶段最优决策表如下：,得决策过程：,x,3,*=2,x,2,*=0,x,1,*=7,f,3,*=218,即市场1 分配 2人，市场2 不分配，市场3 分配 7人,最优解与分配的顺序有关吗,？,20,5.2.2,资源分配问题,例4,项目选择问题,某工厂预计明年有,A,B,C,D,四个新建项目，每个项目的投资额,w,k,及其投资后的收益,v,k,如右表所示。投资总额为30万元，问如何选择项目才能使总收益最大。,上述问题的静态规划模型如下：,这是一类,0-1规划问题,该问题是经典的,旅行背包问题,(,Knapsack),该问题是,NP-complete,21,例,4,项目选择问题,解,：设项目选择的顺序为,A,B,C,D;,1、,阶段,k,=1,2,3,4,分别,对应,D,C,B,A,项目的选择过程,2、第,k,阶段的状态,s,k,，,代表第,k,阶段初尚未分配的投资额,3、第,k,阶段的决策变量,x,k,，,代表第,k,阶段分配的投资额,4、,状态转移方程为,s,k,1,=,s,k,w,k,x,k,5、,直接效益,d,k,(,s,k,x,k,)=,v,k,或,0,6、总效益递推公式,该问题的难点在于各阶段的状态的确定，当阶段增加时，状态数成指数增长。下面利用决策树来确定各阶段的可能状态。,22,23,例,4,第一阶段(项目,D,),的选择过程,s,1,8,时,，,x,1,只能取0；,w,1,=8,v,1,=5,24,例,4,第二阶段(项目,C,),的选择过程,25,例,4,第三阶段(项目,B,),的选择过程,第四阶段(项目,A,),的选择过程,26,5.2.3,串联系统可靠性问题,例5,有,A,B,C,三部机器串联生产某种产品，由于工艺技术问题，产品常出现次品。统计结果表明，机器,A,B,C,产生次品的概率分别为,p,A,=30%,P,B,=40%,P,C,=20%,而产品必须经过三部机器顺序加工才能完成。为了降低产品的次品率，决定拨款,5 万元进行技术改造，以便最大限度地提高产品的成品率指标。现提出如下四种改进方案：,方案1:不拨款，机器保持原状；,方案2:加装监视设备，每部机器需款 1 万元；,方案3:加装设备，每部机器需款 2 万元；,方案4:同时加装监视及控制设备，每部机器需款 3 万元；,采用各方案后，各部机器的次品率如下表。,27,例,5,串联机器可靠性问题,解,：为三台机器分配改造拨款，设拨款顺序为,A,B,C,，,阶段序号反向编号为,k,，,即第一阶段计算给机器,C,拨款的效果。,设,s,k,为第,k,阶段剩余款，则边界条件为,s,3,=5,；,设,x,k,为第,k,阶段的,拨款额,；,状态转移方程为,s,k,-1,=,s,k,-,x,k,；,目标函数为,max,R,=(1-,P,A,)(1-,P,B,)(1-,P,C,),仍采用反向递推,第一阶段,：对机器,C,拨款的效果,R,1,(,s,1,x,1,)=,d,1,(,s,1,x,1,),R,0,(,s,0,x,0,)=,d,1,(,s,1,x,1,),28,第二阶段最优决策表,第二阶段,：对机器,B,C,拨款的效果,由于机器,A,最多只需,3,万元，故,s,2,2,递推公式：,R,2,(,s,2,x,2,)=,d,2,(,s,2,x,2,),R,1,(,s,1,x,1,*),例：,R,2,(3,2)=,d,2,(3,2),R,1,(1,1)=(1-0.2),0.9=0.72,得,第二阶段最优决策表,29,第二阶段最优决策表,第三阶段,：对机器,A,B,C,拨款的效果,边界条件：,s,3,=5,递推公式：,R,3,(,s,3,x,3,)=,d,3,(,s,3,x,3,),R,2,(,s,2,x,2,*),例：,R,3,(5,3)=,d,3,(5,3),R,2,(2,2)=(1-0.05),0.64=0.

展开阅读全文

运筹学 北京邮电大学动态规划1

最新文档

运筹学北京邮电大学动态规划1