以加强式学习建构机器人行为融合演算法

资源描述

,2007 EIS,論文口試,#,2007 EIS,論文口試,2007 EIS,論文口試,#,2007 EIS,論文口試,#,2007 EIS,論文口試,#,2007 EIS,論文口試,#,2007 EIS,論文口試,#,2007 EIS,論文口試,#,2007 EIS,論文口試,#,2007 EIS,論文口試,#,2007 EIS,論文口試,#,2007 EIS,論文口試,#,2007 EIS,論文口試,#,2007 EIS,論文口試,#,以加強式學習建構機器人行為融合演算法,中正大學電機工程學系,黃國勝博士,2,大綱,研究動,機,機,背景介,紹,紹,單一行,為,為模仿,演,演算法,融合行,為,為學習,演,演算法(FBQL),實驗設,計,計與討,論,論,結論與,未,未來展,望,望,3,研究動,機,機,問題一,設計機,器,器人行,為,為構成,的,的困難,：,：,環境多,變,變,需要縝,密,密的考,量,量,需要機,器,器人學,的,的知識,由實測,結,結果來,調,調整修,正,正,Hard Computingv.s,.,.SoftComputing,4,研究動,機,機,問題二,多個行,為,為如何,並,並存?,合作-Behavioralfusion,Game theory,競爭-Subsumption,5,背景介,紹,紹,加強式,學,學習,Q-Learning,決策樹,分,分割法,SubsumptionArchitecture,加強式,學,學習理,論,論結構,a(t,),Stateencoder,7,加強式,學,學習理,論,論結構,控制系,統,統與外,部,部環境,互,互動,控制系,統,統能接,收,收一組,環,環境狀,態,態,S=,s,1,s,2,.,.,s,t,控制系,統,統有一,組,組可執,行,行動作,A=,a,1,a,2,.,.,.a,t,環境繼,以,以反應,一,一獎勵,值,值r,t,=r(s,t,a,t,),環境同,時,時也隨,之,之移轉,到,到一新,的,的狀態s,t+1,=(s,t,a,t,),r,環境的,一,一部份,控制系,統,統不需,已,已知,8,加強式,學,學習理,論,論結構,Markovdecisionprocess,(,(MDP),r(s,t,a,t,),(s,t,a,t,)只相依,現,現有狀,態,態與執,行,行動作,政策(policy)的形成,控制系,統,統學習,政,政策:SA,根據現,有,有狀態s,t,挑選一,最,最有利,的,的動作a,t,可行的,政,政策需,可,可滿足,最,最大化,積,積累獎,勵,勵值V,(s,t,),V,(s,t,)=r,t,+r,t+1,+r,t+2,+,*,=,=argmaxV,(s)foralls,9,Example,r(s,a)immediate rewardvalues,G,G,G,G,0,0,0,0,0,0,0,0,0,0,100,100,0,0,0,Oneoptimalpolicy,Q(s,a)values,V*(s)values,81,90,100,90,100,(suppose,=0,.,.9),V=0+0.9x0+0.92x100+0,.,.93x0.,.,.=81,V=0+0.9x100+0,.,.92x0+,.,.,=,=90,V=100+0,.,.9x0+.,.,.=100,81,81,72,72,90,90,90,81,100,81,81,100,加強式,學,學習理,論,論結構,AdaptiveHeuristicCritic結構,a(t,),Stateencoder,11,背景介,紹,紹:Q,-,-Learning,直接學,習,習*,:,:SA有所困,难,难,因為學,習,習資料少有的形式,每當V*(s,1,)V,*,*(s,2,),控制系,統,統較喜,的,的在狀態s,1,而非狀態s,2,在狀態s下,最佳的,動,動作a,係可最大,化,化獎勵,值,值-r,(,(s,a)以及以算下一,狀,狀態的V*,*,=,=argmax,a,r(s,a),+,+V*,(,(s,a),12,背景介,紹,紹:Q,-,-Learning,Correlated measurement Q,Q(s,a,),)=r(s,a),+,+,*,*(s,a),*,=,=argmax,a,Q(s,a,),),Relationbetween Qand V,*,*,V*(s),=,=max,a,Q(s,a),EstimateQ-value iteratively,Q(s,a),r+max,a,Q(s,a),13,背景介,紹,紹:Q,-,-Learning,14,背景介,紹,紹:決策樹,分,分割法,15,背景介,紹,紹:Subsumption Architecture,16,單一行,為,為模仿,演,演算法,加強式,學,學習之,決,決策樹,分,分割法(RL,-,-basedDT,),),決策樹,結,結構狀,態,態空間,之,之加強,式,式學習,17,加強式,學,學習之,決,決策樹,分,分割法(RL,-,-basedDT,),),18,加強式,學,學習之,決,決策樹,分,分割法(RL,-,-basedDT,),),純度計,算,算公式,：,：,19,加強式,學,學習之,決,決策樹,分,分割法(RL,-,-basedDT,),),切割終,止,止條件,：,：,內部節,點,點所包,含,含的區,域,域太小,內部節,點,點所包,含,含的資,料,料量太,少,少,切割過,後,後，會,導,導致某,一,一邊沒,有,有資料,內部節,點,點的純,度,度夠純,20,加強式,學,學習之,決,決策樹,分,分割法(RL,-,-basedDT,),),21,加強式,學,學習之,決,決策樹,分,分割法(RL,-,-basedDT,),),葉子節點數,22,加強式,學,學習之,決,決策樹,分,分割法(RL,-,-basedDT,),),總純度,23,加強式,學,學習之,決,決策樹,分,分割法(RL,-,-basedDT,),),24,決策樹,結,結構狀,態,態空間,之,之加強,式,式學習,agent,environment,reward,action,state,25,決策樹,結,結構狀,態,態空間,之,之加強,式,式學習,26,加強式,學,學習之,決,決策樹,分,分割法(RL,-,-basedDT,),),展示模,擬,擬影片,展示實,體,體影片,27,融合行,為,為學習,演,演算法(FBQL),FBQL,環境,sensory,reward,Fused,Behavior,input,狀態標,記,記,28,融合行,為,為學習,演,演算法(FBQL),29,融合行,為,為學習,演,演算法(FBQL),狀態標,記,記法(RL,-,-basedDecisionTree)：,6,y,0,8,4,6,x,12,0,9,3,分類,表示範圍,(x,y),N1,(0,3,0,8),N2,(3,6,0,8),N3,(6,9,0,4),N4,(9,12,0,4),N5,(6,12,4,6),N6,(6,9,6,8),N7,(9,12,6,8),30,融合行,為,為學習,演,演算法(FBQL),狀態標,記,記法(FBQL)：,state=N5,N1,N7,31,融合輸,出,出動作(FusedBehavior,),)：,融合行,為,為學習,演,演算法(FBQL),32,融合行,為,為學習,演,演算法(FBQL),回饋值(reward)：,Dense reward,Sparse reward,設計難易度,困難,容易,學習速度,快,慢,學習系統複雜度,低,高,局部極小值問題,可能發生,不會發生,33,融合行,為,為學習,演,演算法(FBQL),評估值Q值更新,：,：,立即回,饋,饋值,積累回,饋,饋值,34,融合行,為,為學習,演,演算法(FBQL),權重值W值更新,：,：,權重值W值正規,化,化：,forall,35,融合行,為,為學習,演,演算法(FBQL),示範動,作,作：,為了加,快,快FBQL的學習,速,速度,引領機,器,器人去,接,接觸到,特,特定的,回,回饋值,節省隨,機,機搜尋,所,所空耗,的,的時間,不需要,特,特殊的,操,操控,加強式,學,學習之,決,決策樹,分,分割法,追球行,為,為模仿,避撞行,為,為模仿,跑位行,為,為模仿,36,37,實驗設,計,計與討,論,論:追球行,為,為模仿,共122種類,38,實驗設,計,計與討,論,論:避牆行,為,為模仿,共11種類,39,實驗設,計,計與討,論,論:跑位行,為,為模仿,共37種類,40,實驗設,計,計與討,論,論:FBQL,41,實驗設,計,計與討,論,論:Subsumption,以SubsumptionArchitecture的融合,方,方式：,42,實驗設,計,計與討,論,論,成功總,步,步數：,43,實驗設,計,計與討,論,論,避牆率,：,：,44,實驗設,計,計與討,論,論,成功率,的,的比較,：,：,45,實驗設,計,計與討,論,論,平均成,功,功總步,數,數的比,較,較：,46,實驗設,計,計與討,論,論,撞牆率,的,的比較,：,：,47,實驗設,計,計與討,論,論,展示單,一,一機器,人,人實驗,影,影片,展示機,器,器人群,組,組模擬,影,影片,群性行,為,為一窩,蜂,蜂,群組合,作,作,48,實驗設,計,計與討,論,論,FBQL於撞牆,率,率效果,不,不佳的,原,原因：,FBQL重視長,遠,遠的目,標,標,SubsumptionArchitecture著重避,牆,牆行為,FBQL希望找,出,出更有,效,效的移,動,動方式,FBQL的總步,數,數很低(避牆率,會,會被放,大,大),先學完,總,總步數,之,之後，,避,避牆率,才,才會收,斂,斂,49,結論,本論文,所,所提出,的,的FBQL結構：,可以融,合,合多個,行,行為,方便設,計,計機器,人,人的單,一,一行為,方便設,計,計機器,人,人的融,合,合行為,具備自,主,主學習,的,的功能,調整及,最,最佳化,容,容易,

展开阅读全文

以加强式学习建构机器人行为融合演算法

最新文档