马氏决策规划简介

资源描述

马氏决策规划简介马尔可夫过程马尔可夫过程是一类特殊的随机过程，它因伟大的俄国数学家马尔可夫而得名。这种过程的特点是存在着确定的转移概率，与系统先前的历史无关，有一个很形象的比喻来形容这个过程：池塘里的青蛙在荷叶上跳来跳去，如果将它在某一时刻所在的荷叶称为状态，则青蛙未来处于什么状态只有它现在所在的状态有关，与它以前所处的状态无关。这种性质就是所谓的“一阶Markov性”或“无后效性”一：基本概念 v1.状态转移概率假定系统有n个可能的状态，处于这些状态的概率分别为 p1,p2pi,pn，例如，有1000名顾客在每周只到A和B购物，设定时间阶段为一周，在某一周，有900名顾客到A购物，我们称为状态1，有100名顾客到B，成为状态2，因此，系统的两个状态和概率分别为状态1：顾客到A购物，0.9 状态2：顾客到B购物，0.1假定市场调查数据显示，在随后的一周内，上周去A购物的顾客有90仍然在A购物，有10的顾客则流向了B，去B购物的顾客有80继续在B购物，而20则流向了A，这些状态转移概率可用如下矩阵表示2.状态转移概率矩阵0.90.10.20.8pkijp1112121222312.().kkknkkknnkkknnnnppppppP kpppp该矩阵成为超市的一步转移矩阵。对于k步（周期）的，表示在给定周期内处于状态i 的系统在经过k步后转移到状态j的概率，p(k)表示系统的k步转移概率矩阵，则有状态转移概率矩阵描述了研究对象的变化过程，它有如下特征：01(,1,2,.)kijpi jn11nkijjp3.一步平稳转移概率如果对于每个i和j，均成立的话则称一步转移概率是平稳的，也就是说，从状态i转移到状态j的概率与现在的步数无关，这说明在研究的时间范围内，一步平稳转移概率保持为常数。系统的转移概率矩阵表示为1112121222312.().nnnnnnnppppppP kpppp1ijijpp二马尔可夫过程的预测三：赋值马氏过程有一个工厂为市场生产某种产品，每月月初对产品产品的销售情况进行了一次检查，其结果有二：销路好（记为状态1），也可能销路差（状态2）。若处于状态1，由于各种随机因素的干扰，下月初仍处于销路好的概率为0.5，转为销路差的概率也为0.5；若处于状态2，则下月初转为销路好的概率为0.4，仍处于销路差的概率为0.6。则他的状态转移过程为111221220.50.50.40.6ppppp若在上面所述的马氏过程中，当它在任意时刻从状态i 转移到状态j时可以获得相应的收益记为,这种马氏过程随着状态转移可得到一系列的报酬（效益），我们称其为赋值马氏过程，称R=为报酬矩阵。上述工厂若某月初销路好，下月初仍销路好可获利9千元，下月初转为销路差可获利3千元，若某月初销路差，下月初转为销路好课获利3千元，下月初仍为销路差要亏本7千元。则报酬矩阵为111221229337rrRrrijr*ijN Nr1()Nij ijjq ip r 1,2,.iN(1),(2).()TQqqq N下面考虑系统经过一定阶段的运行后的总期望报酬。记q(i)为状态i 做出一次转移的期望报酬，则有称为一次转移的期望报酬向量。记为系统由状态经过n次转移之后的总期望报酬，则有1111()()()()NNnijijnijnjjviprvjq ip vj ()nV i1,2.iN其中表示有状态转移到状态的概率，表示由状态转移到状态的相应报酬。称为次转移的总期望报酬向量。对定义乘法则有 1VQijpijr(1),(2),.()TnnnnVvvvN,ijijN NN NPpRr11Nij ijjP Rp r 11,.TNNij ijij ijjjQP Rp rp r 1,2,3,.nnVQPVn0.50.50.40.6p9337R163VQ2160.50.567.530.40.632.4VQPV仍以上述工厂为例，根据以上公式得即如果当前销路好，则下月获利6000元，否则下月亏损3000元0.50.59360.40.6373QP R在利用上面的公式，可以得出该工厂在不同的初始状态下，经过若干月后的总期望获利情况。三、马氏决策规划三、马氏决策规划在赋值马氏过程中，如果在某状态选用不同的决策能够改变相应的状态转移矩阵及报酬矩阵，就产生了动态随机系统求值最优策略的问题。马氏决策规划就是研究这类问题的。下面我们通过实例来介绍马氏决策规划中有限阶段的一种求解方法值迭代法。设系统目标为总期望报酬最大化。仍以上述工厂为例，设该工厂在每个状态可选的决策是不登广告（记作方式1）或登广告（记作方式2）。若不登广告，自然无广告费；若登广告，要花额外的广告费，但下月初为销路好的概率可增加。决策方式1的状态转移矩阵及报酬矩阵为：选决策方式2的状态转移矩阵及报酬矩阵为：问题是在若干月内采取什么决策才能使其总期望报酬最大。10.50.50.40.6P19337R 20.80.20.70.3P244119R dijp()nf i用n表示系统的阶段数。表示系统当前处于状态i，下一步以d种决策方式转移到状态j的概率。表示系统初始状态为i，采取最优策略时的期望报酬最大值。则有如下方程：11,21()()()maxNddnijndjf iqip fj2,.n 11,2()()maxddfiqi v由于1(1)1111(2)0.50.5936()()0.40.6373qQPRq2(1)2222(2)0.80.2444()()0.70.31195qQPRq因而1(1)2(1)1(1)max,max 6,46fqq1(1)1d1(2)2(2)1(2)max,max3,53fqq 1(2)1d为第n阶段处于i状态时的决策。这表明，该厂不论处于状态1还是2，如果再继续生产1个月，都应采取决策1，即不论销路好还是销路差都不登广告。如果继续生产两个月：()nd i221(1)12(1)22111111(1)max(),()jjjjfqp fj qp fjmax 60.5 60.5(3),40.8 60.2(3)max 7.5,8.28.2 2(1)2d221(2)12(2)22212111(2)max(),()jjjjfqpfj qpfjmax30.4 60.6(3),50.7 60.3(3)max2.4,1.71.7 2(2)2d 这表明，如果继续生产两个月，第1个月不登广告，第2个月等广告。同样可以计算出经3步，4步，转移时的结果，将结果列入表中，利用上述的值迭代法，可以算出系统当前处于状态i，经任意n步转移应采取怎样的最优策略以及所获得的总报酬期望值。n（经营时间/月）1234（目前销路好，n月后停业的最大总期望报酬）68.210.2212.222（目前销路好，若n月后停业应采取的最优决策）1222（目前销路差，n月后停业的最大总期望报酬）-3-1.70.232.223（目前销路差，若n月后停业应采取的最优决策）1222

展开阅读全文

马氏决策规划简介

最新文档