人工神经网络讲稿ch4课件

资源描述

2024/5/221第4章BP网络主要内容：BP网络的构成隐藏层权的调整分析Delta规则理论推导算法的收敛速度及其改进讨论BP网络中的几个重要问题重点：BP算法难点：Delta规则的理论推导2024/5/2224.1概述1、BP算法的出现非循环多级网络的训练算法UCSDPDP小组的Rumelhart、Hinton和Williams1986年独立地给出了BP算法清楚而简单的描述1982年，Paker就完成了相似的工作1974年，Werbos已提出了该方法2、弱点：训练速度非常慢、局部极小点的逃离问题、算法不一定收敛3、优点：广泛的适应性和有效性。2024/5/2234.2基本BP算法4.2.1网络的构成神经元的网络输入：neti=x1w1i+x2w2i+xnwni神经元的输出：2024/5/224输出函数分析0.5f(net)0.25o011（0,0.5）net（0,0）o应该将net的值尽量控制在收敛比较快的范围内可以用其它的函数作为激活函数，只要该函数是处处可导的2024/5/225网络的拓扑结构x1o1输出层输出层隐藏层隐藏层输入层输入层x2o2omxnW(1)W(2)W(3)W(L)2024/5/226网络的拓扑结构1.BP网的结构2.输入向量、输出向量的维数、网络隐藏层的层数和各个隐藏层神经元的个数的决定3.实验：增加隐藏层的层数和隐藏层神经元个数不一定总能够提高网络精度和表达能力4.BP网一般都选用二级网络2024/5/227网络的拓扑结构x1o1输出层输出层隐藏层隐藏层输入层输入层x2o2omxnWV2024/5/2284.2.2训练过程概述样本：(输入向量，理想输出向量)权初始化：“小随机数”与饱和状态；“不同”保证网络可以学。1、向前传播阶段：（1）从样本集中取一个样本(Xp，Yp)，将Xp输入网络；（2）计算相应的实际输出Op：Op=Fl(F2(F1(XpW(1)W(2)W(L)2024/5/2294.2.2训练过程概述2、向后传播阶段误差传播阶段：（1）计算实际输出Op与相应的理想输出Yp的差；（2）按极小化误差的方式调整权矩阵。（3）网络关于第p个样本的误差测度：（4）网络关于整个样本集的误差测度：2024/5/22104.2.3误差传播分析1、输出层权的调整wpq=wpq+wpqwpq=qop=fn(netq)(yq-oq)op=oq(1-oq)(yq-oq)opwpqANpANq第第L-1层层第第L层层wpq2024/5/22112、隐藏层权的调整ANpANqANhvhppk-11kwp1wpqqkwpmmk第第k-2层层第第k层层第第k-1层层2024/5/22122、隐藏层权的调整pk-1的值和1k，2k，mk有关不妨认为pk-1通过权wp1对1k做出贡献，通过权wp2对2k做出贡献，通过权wpm对mk做出贡献。pk-1=fk-1(netp)(wp11k+wp22k+wpmmk)2024/5/22132、隐藏层权的调整vhp=vhp+vhpvhp=pk-1ohk-2=fk-1(netp)(wp11k+wp22k+wpmmk)ohk-2=opk-1(1-opk-1)(wp11k+wp22k+wpmmk)ohk-2ANpANqANhvhppk-11kwp1wpmqkwpqmk第第k-2层层第第k层层第第k-1层层2024/5/22144.2.4基本的BP算法样本集：S=(X1,Y1),(X2,Y2),(Xs,Ys)基本思想：逐一地根据样本集中的样本(Xk,Yk)计算出实际输出Ok和误差测度E1，对W(1)，W(2)，W(L)各做一次调整，重复这个循环，直到Epdo4.1E=0;2024/5/2216算法4-1基本BP算法4.2对S中的每一个样本（Xp,Yp）：4.2.1计算出Xp对应的实际输出Op；4.2.2计算出Ep；4.2.3E=E+Ep；4.2.4根据相应式子调整W(L)；4.2.5k=L-1；4.2.6whilek0do4.2.6.1根据相应式子调整W(k)；4.2.6.2k=k-14.3E=E/2.02024/5/22174.3算法的改进1、BP网络接受样本的顺序对训练结果有较大影响。它更“偏爱”较后出现的样本2、给集中的样本安排一个适当的顺序，是非常困难的。3、样本顺序影响结果的原因：“分别”、“依次”4、用(X1,Y1)，（X2,Y2），（Xs,Ys）的“总效果”修改W(1)，W(2)，W(L)。w(k)ij=pw(k)ij2024/5/2218算法4-2消除样本顺序影响的BP算法1fork=1toLdo1.1初始化W(k)；2初始化精度控制参数；3E=+1;4whileEdo4.1E=0;4.2对所有的i，j，k：w(k)ij=0；2024/5/22194.3对S中的每一个样本（Xp,Yp）：4.3.1计算出Xp对应的实际输出Op；4.3.2计算出Ep；4.3.3E=E+Ep；4.3.4对所有i，j根据相应式子计算pw(L)ij；4.3.5对所有i，j：w(L)ij=w(L)ij+pw(L)ij；4.3.6k=L-1；4.3.7whilek0do4.3.7.1对所有i,j根据相应式子计算pw(k)ij；4.3.7.2对所有i,j：w(k)ij=w(k)ij+pw(k)ij；4.3.7.3k=k-14.4对所有i，j，k：w(k)ij=w(k)ij+w(k)ij;4.5E=E/2.02024/5/2220算法4-2分析较好地解决了因样本的顺序引起的精度问题和训练的抖动问题收敛速度：比较慢偏移量：给每一个神经元增加一个偏移量来加快收敛速度冲量：联接权的本次修改要考虑上次修改的影响，以减少抖动问题2024/5/2221算法4-2分析冲量设置Rumelhart等人1986年wij=joi+wijwij为上一次的修改量，为冲量系数，一般可取到0.9Sejnowski与Rosenberg，1987年wij=(1-)joi+wij)wij也是上一次的修改量，在0和1之间取值2024/5/22224.4算法的实现主要数据结构WH，m输出层的权矩阵；Vn，H输入（隐藏）层的权矩阵；om输出层各联接权的修改量组成的向量；hH隐藏层各联接权的修改量组成的向量；O1隐藏层的输出向量；O2输出层的输出向量；(X，Y)一个样本。2024/5/2223算法的主要实现步骤1用不同的小伪随机数初始化W，V；2初始化精度控制参数；学习率；3循环控制参数E=+1；循环最大次数M；循环次数控制参数N=0；4whileE&N0，此时，此时wij0取E0wij2024/5/2231而其中的所以，最速下降法，要求E的极小点2024/5/2232令所以wij=joi为学习率最速下降法，要求E的极小点2024/5/2233ANj为输出层神经元oj=f(netj)容易得到从而2024/5/2234ANj为输出层神经元2024/5/2235所以，故，当ANj为输出层的神经元时，它对应的联接权wij应该按照下列公式进行调整：ANj为输出层神经元2024/5/2236ANj为隐藏层神经元函数2024/5/2237ANj为隐藏层神经元netk=oio2o1oHhnetk是是oj下一级的神下一级的神经元的网络输入经元的网络输入oj2024/5/2238ANj为隐藏层神经元2024/5/2239ANj为隐藏层神经元2024/5/2240ANj为隐藏层神经元2024/5/22414.6几个问题的讨论收敛速度问题局部极小点问题逃离/避开局部极小点：修改W、V的初值并不是总有效。逃离统计方法；Wasserman，1986将Cauchy训练与BP算法结合起来，可以在保证训练速度不被降低的情况下，找到全局极小点。2024/5/22424.6几个问题的讨论网络瘫痪问题在训练中，权可能变得很大，这会使神经元的网络输入变得很大，从而又使得其激活函数的导函数在此点上的取值很小。根据相应式子，此时的训练步长会变得非常小，进而将导致训练速度降得非常低，最终导致网络停止收敛稳定性问题用修改量的综合实施权的修改连续变化的环境，它将变成无效的2024/5/22434.6几个问题的讨论步长问题BP网络的收敛是基于无穷小的权修改量步长太小，收敛就非常慢步长太大，可能会导致网络的瘫痪和不稳定自适应步长，使得权修改量能随着网络的训练而不断变化。1988年，Wasserman/10/2944.

展开阅读全文

人工神经网络讲稿ch4课件

最新文档