最优控制与状态估计3课件

资源描述

华东理工大学华东理工大学ECUST最最优优控制与状控制与状态态估估计计3课课件件华东理工大学华东理工大学ECUST第二个办法：从最后一段开始，第二个办法：从最后一段开始，向前倒推。当倒推到某一站时，向前倒推。当倒推到某一站时，计算该站到终点站的总里程，计算该站到终点站的总里程，并选择里程最少的走法。并选择里程最少的走法。第二个第二个办办法：从最后一段开始，向前倒推。当倒推到某一站法：从最后一段开始，向前倒推。当倒推到某一站时时，计计算算华东理工大学华东理工大学ECUST从该例看出，这种解法有两个特点从该例看出，这种解法有两个特点:第一，它把一个复杂的问题第一，它把一个复杂的问题（即：决定一条路线的选择问题）变成许多个简单的问题（即：每（即：决定一条路线的选择问题）变成许多个简单的问题（即：每次只决定向上走（次只决定向上走（p）还是向下走（）还是向下走（q）的问题），因此问题的求解）的问题），因此问题的求解变得简单容易了。变得简单容易了。不变嵌入原理的含义是：为了解决一个特定的最优控制问题，而把不变嵌入原理的含义是：为了解决一个特定的最优控制问题，而把原问题嵌入到一系列相似的但易于求解的问题中去。对于一个多级原问题嵌入到一系列相似的但易于求解的问题中去。对于一个多级最优控制过程来说，就是把原来的多级最优控制问题代换成一系列最优控制过程来说，就是把原来的多级最优控制问题代换成一系列单级最优控制问题。单级最优控制问题。从从该该例看出，例看出，这这种解法有两个特点种解法有两个特点:第一，它把一个复第一，它把一个复杂杂的的问题问题（华东理工大学华东理工大学ECUST二、二、最优性原理最优性原理(Bellman)最优性原理最优性原理在一个多级决策问题中的最优决策具有这样的性在一个多级决策问题中的最优决策具有这样的性质，不管初始级质，不管初始级、初始状态和初始决策是什么，当把其中任何一、初始状态和初始决策是什么，当把其中任何一级和这一级的状态再作为初始级和初始状态时，余下的决策对此必级和这一级的状态再作为初始级和初始状态时，余下的决策对此必定构成一个最优决策。定构成一个最优决策。将最优性原理应用到离散系统中去，系统状态方程为将最优性原理应用到离散系统中去，系统状态方程为初始状态为初始状态为性能指标为性能指标为要求确定要求确定，使性能指标最优，即，使性能指标最优，即二、二、最最优优性原理性原理(Bellman)最最优优性原理性原理在在华东理工大学华东理工大学ECUST一般认为，第一般认为，第k 级决策级决策与第与第k 级以及级以及k 以前各级状态以前各级状态和决策和决策有关有关（64）以上函数称为策略函数以上函数称为策略函数如果记如果记则则对于任意级对于任意级k，有有（65）应该指出，最优性原理所肯定的是余下的决策为最优决策。对以前应该指出，最优性原理所肯定的是余下的决策为最优决策。对以前的决策没有明确的要求。的决策没有明确的要求。一般一般认为认为，第，第k 级级决策决策与第与第k 级级以及以及k 以前各以前各华东理工大学华东理工大学ECUST三、三、用动态规划法求解离散系统最优控制问题用动态规划法求解离散系统最优控制问题系统状态方程为系统状态方程为（66）（67）（68）要求在状态方程约束下，寻求要求在状态方程约束下，寻求使使可以受限制，也可以不受限制。可以受限制，也可以不受限制。三、三、用用动态规动态规划法求解离散系划法求解离散系统统最最优优控制控制问题问题系系统统状状态态方程方程为为华东理工大学华东理工大学ECUST例例 4 线性定常离散系统的状态方程为线性定常离散系统的状态方程为初始状态为初始状态为，性能指标为，性能指标为寻求最优控制序列寻求最优控制序列，使，使（为了简单起见，设（为了简单起见，设）解解运用动态规划法来求解运用动态规划法来求解1）从最后一级开始，即从最后一级开始，即例例 4 线线性定常离散系性定常离散系统统的状的状态态方程方程为为初始状初始状态为态为华东理工大学华东理工大学ECUST2）向前倒推一级，即向前倒推一级，即因为因为不受限制，故不受限制，故可以通过下可以通过下式求得式求得2）向前倒推一向前倒推一级级，即因，即因为为不受限制，故不受限制，故华东理工大学华东理工大学ECUST3）再向前倒推一级，即再向前倒推一级，即注意：注意：1、对一个多级决策过程来说，最优性原理保证了全过程性、对一个多级决策过程来说，最优性原理保证了全过程性能指标最小，并不保证每一级性能指标最小。但是在每考虑一级时，能指标最小，并不保证每一级性能指标最小。但是在每考虑一级时，都不是孤立地只把这一级的性能指标最小的决策作为最优决策，而都不是孤立地只把这一级的性能指标最小的决策作为最优决策，而总是把这一级放到全过程中间去考虑，取全过程的性能指标最优的总是把这一级放到全过程中间去考虑，取全过程的性能指标最优的决策作为最优决策。决策作为最优决策。2、动态规划法给出的是最优控制的充分条件，不是必要条件。这、动态规划法给出的是最优控制的充分条件，不是必要条件。这和极小值原理是不同的。和极小值原理是不同的。由由，解得，解得)0(211)2(*xcx+=3）再向前倒推一再向前倒推一级级，即注意：，即注意：1、对对一个多一个多级级决策决策过过程来程来说说，华东理工大学华东理工大学ECUST四、四、用动态规划法求解连续系统最优控制问题用动态规划法求解连续系统最优控制问题非线性时变系统状态方程为非线性时变系统状态方程为（69）初始条件初始条件（70）性能指标性能指标（71）要寻求最优控制，在满足状态方程（要寻求最优控制，在满足状态方程（69）的条件下，使）的条件下，使J 取极小值取极小值（72）满足条件满足条件（73）求解时，用到连续系统的最优性原理。求解时，用到连续系统的最优性原理。四、四、用用动态规动态规划法求解划法求解连续连续系系统统最最优优控制控制问题问题非非线线性性时变时变系系统统状状华东理工大学华东理工大学ECUST 如果对于初始时刻如果对于初始时刻和初始状态和初始状态来说，来说，和和是系统的最优控制和最优轨线。那么，对于是系统的最优控制和最优轨线。那么，对于和状态和状态，它们仍是所研究的系统往后的最优控制和最优轨线。，它们仍是所研究的系统往后的最优控制和最优轨线。假定假定是存在的且是连续的并且有连续的一阶、二是存在的且是连续的并且有连续的一阶、二阶偏导数，由最优性原理可以写出阶偏导数，由最优性原理可以写出（74）如果如果对对于初始于初始时时刻刻和初始状和初始状态态来来华东理工大学华东理工大学ECUST用类似的处理方法，令用类似的处理方法，令（75）则（则（74）式可以写成）式可以写成（76）由于由于对于对于、是连续可微的，故式（是连续可微的，故式（76）右边第二项可以展开成台劳级数，取一阶近似右边第二项可以展开成台劳级数，取一阶近似（77）用用类类似的似的处处理方法，令（理方法，令（75）则则（74）式可以写成（）式可以写成（76）由于）由于华东理工大学华东理工大学ECUST而由中值定理，（而由中值定理，（76）式右边第一项可以写成）式右边第一项可以写成（78）其中，其中，是介于是介于0和和1之间的某一常数。之间的某一常数。将（将（77）、（）、（78）式代入（）式代入（76）式）式（79）（80）对（对（79）式简化，并且令）式简化，并且令（80）式称为哈密顿贝尔曼方程，是用动态规划法求解最优控）式称为哈密顿贝尔曼方程，是用动态规划法求解最优控制问题的基本方程。制问题的基本方程。而由中而由中值值定理，（定理，（76）式右）式右边边第一第一项项可以写成（可以写成（78）其中，）其中，华东理工大学华东理工大学ECUST显然有显然有（81）方程（方程（80）的边界条件）的边界条件（82）如果性能指标泛函中无末值项，则如果性能指标泛函中无末值项，则（83）注意：哈密顿贝尔曼方程是求解最优控制问题的充分条件，注意：哈密顿贝尔曼方程是求解最优控制问题的充分条件，不是必要条件。不是必要条件。显显然有（然有（81）方程（）方程（80）的）的边边界条件（界条件（82）如果性能指）如果性能指标标泛函泛函华东理工大学华东理工大学ECUST用动态规划法求解连续系统最优控制问题的步骤：用动态规划法求解连续系统最优控制问题的步骤：（84）的解的解1）求满足）求满足在求解方程（在求解方程（84）时，若）时，若不受限制，则在引入哈密顿时，不受限制，则在引入哈密顿时，有有如果如果受限，即受限，即，在确定，在确定时，只时，只能用分析方法，使能用分析方法，使2）将）将代入（代入（80）、（）、（82）和（）和（83）式，解出）式，解出（85）3）将）将再代入（再代入（84）就得到最优控制）就得到最优控制用用动态规动态规划法求解划法求解连续连续系系统统最最优优控制控制问题问题的步的步骤骤：（：（84）的解）的解1）华东理工大学华东理工大学ECUST（86）4）将（）将（85）式代入系统状态方程）式代入系统状态方程可以求出最优轨线可以求出最优轨线。把。把代入（代入（85）式得到最优）式得到最优控制控制例例 5 系统状态方程为系统状态方程为，性能指标，性能指标。11寻求寻求，在状态方程约束下，在状态方程约束下，J 取极小值。取极小值。解解 1）求）求用分析方法，可知用分析方法，可知（86）4）将（）将（85）式代入系）式代入系统统状状态态方程可以求出最方程可以求出最优轨线优轨线华东理工大学华东理工大学ECUST2）将）将代入哈密顿贝尔曼方程代入哈密顿贝尔曼方程即即可以分析出可以分析出是正函数，则哈密顿贝尔曼方程可写成是正函数，则哈密顿贝尔曼方程可写成由于由于与与无关，上式为一元微分方程，其通解为无关，上式为一元微分方程，其通解为其中，其中，c 为积分常数，由边界条件确定为为积分常数，由边界条件确定为 c=0 2）将）将代入哈密代入哈密顿顿贝贝尔尔曼方程即可以分析出曼方程即可以分析出华东理工大学华东理工大学ECUST3）将）将代入代入的表达式中的表达式中本例中本例中4）将）将代入状态方程，可解得代入状态方程，可解得由此得由此得最优性能指标最优性能指标3）将）将代入代入的表达式中本例中的表达式中本例中4）将）将华东理工大学华东理工大学ECUST动态规划与极小值原理动态规划与极小值原理动态规划和极小值原理是最优控制理论的两大基动态规划和极小值原理是最优控制理论的两大基石，它们都可以解决有约束的最优控制问题，虽然在石，它们都可以解决有约束的最优控制问题，虽然在形式上和解题方法上不同，但却存在着内在的联系。形式上和解题方法上不同，但却存在着内在的联系。下面我们从动态规划来推演极小值原理，不过要说明下面我们从动态规划来推演极小值原理，不过要说明这种推演是基于最优指标对和两次连续可微这个条件这种推演是基于最优指标对和两次连续可微这个条件的。的。动态规动态规划与极小划与极小值值原理原理动态规动态规划和极小划和极小值值原理是最原理是最优优控制理控制理论论的两的两华东理工大学华东理工大学ECUST于是最优性能指标与最优状态转移为于是最优性能指标与最优状态转移为要求确定要求确定使性能指标使性能指标极小。其中，极小。其中，固定，固定，自由，自由，可以有约束，也可以没有。可以有约束，也可以没有。于是最于是最优优性能指性能指标标与最与最优优状状态转态转移移为为要求确定要求确定使性能指使性能指标标极极华东理工大学华东理工大学ECUST用极小值原理求解的结果（用极小值原理求解的结果（4545）（）（4646）（）（4848）-（5050）可以用下面来表示，因这里）可以用下面来表示，因这里固定，故不需固定，故不需最优终端时刻条件；最优终端时刻条件；自由，将最优解的条件再写自由，将最优解的条件再写在下面以对照。在下面以对照。用极小用极小值值原理求解的原理求解的结结果（果（45）（）（46）（）（48）-（50）可以）可以华东理工大学华东理工大学ECUST1 1、（状态方程）（状态方程）（8787）2 2、（协态方程）（协态方程）（8888）3 3、（边界方程）（边界方程）（8989）4 4、（横截条件）（横截条件）（9090）5 5、（极值条件）（极值条件）（9191）1、（状（状态态方程）方程）（华东理工大学华东理工大学ECUST用动态规划求解的结果已在上面得到，现在归纳用动态规划求解的结果已在上面得到，现在归纳一下：在动态规划中协态变量一下：在动态规划中协态变量满足满足哈密顿哈密顿贝尔曼方程（贝尔曼方程（8080）本身说明了哈密顿函数）本身说明了哈密顿函数在最优控制上取极值的条件，故等同于上面极小值在最优控制上取极值的条件，故等同于上面极小值原理所得的条件原理所得的条件5 5，不过（，不过（8080）还多给出了一点信息，）还多给出了一点信息，即即（9292）用用动态规动态规划求解的划求解的结结果已在上面得到，果已在上面得到，现现在在归纳归纳一下：在一下：在动态规动态规划中划中华东理工大学华东理工大学ECUST下面由动态规划法来推出协态方程。由（由（9292）下面由下面由动态规动态规划法来推出划法来推出协态协态方程。方程。由（由（92）华东理工大学华东理工大学ECUST因假设对两次连续可微，因此上式成立，且可交因假设对两次连续可微，因此上式成立，且可交换求导次序，得换求导次序，得因假因假设对设对两次两次连续连续可微，因此上式成立，且可交可微，因此上式成立，且可交换换求求导导次序，得次序，得华东理工大学华东理工大学ECUST即协态方程（即协态方程（8888）（因都是最优解条件。故省去）（因都是最优解条件。故省去*号）号）。由（。由（9292）再来推横截条件）再来推横截条件即即协态协态方程（方程（88）（因都是最）（因都是最优优解条件。故省去解条件。故省去*号）。由（号）。由（92

展开阅读全文

最优控制与状态估计3课件

最新文档