神经网络设计

上传人:t****d 文档编号:242940968 上传时间:2024-09-12 格式:PPT 页数:98 大小:2.04MB
返回 下载 相关 举报
神经网络设计_第1页
第1页 / 共98页
神经网络设计_第2页
第2页 / 共98页
神经网络设计_第3页
第3页 / 共98页
点击查看更多>>
资源描述
,1,Click to edit Master title style,98,Click to edit Master text styles,Second level,Third level,神经网络设计,生物学的启示,人脑具有巨大的并行计算能力,大脑约有10,11,个神经元,每个神经元约有,10,4,个连接,神经元相对于电子线路要慢许多, 10,-3,秒相对于,10,-9,秒,树突(输入),轴突(输出),突触(权),细胞体,神经元模型和网络结构,单输入神经元,输入,通用神经元,传输函数(激活函数),传输函数(激活函数),多输入神经元,简化符号,神经元的层,输入,个神经元的层,简化符号,W,w,1,1,w,1,2,w,1,R,w,2,1,w,2,2,w,2,R,w,S,1,w,S,2,w,S,R,=,b,1,2,S,=,b,b,b,p,p,1,p,2,p,R,=,a,a,1,a,2,a,S,=,多层网络,简化符号,Hidden Layers,Output Layer,隐层,输出层,感知机学习规则,学习的分类,有监督学习(有导师学习),提供网络一组能代表网络行为的实例集合,(,训练集):,增强学习(半监督学习),仅提供一个级别(或评分),作为网络在某些输,入序列上的性能测度。,无监督学习(无导师学习),学习仅根据网络的输入来学会将输入模式分类,(聚类)。,(,输入,目标输出,),。,感知机的结构,W,w,1,1,w,1,2,w,1,R,w,2,1,w,2,2,w,2,R,w,S,1,w,S,2,w,S,R,=,w,i,w,i,1,w,i,2,w,i,R,=,W,w,T,1,w,T,2,w,T,S,=,单个神经元感知机工作原理,判定边界:,n=w,1,1,p,1,+,w,1,2,p,2,+b =0,单个神经元感知机工作原理,p,1,+,p,2,1,= 0,判定边界,所有在判定边界上的点与权向量的内积相同。,这些点一定是在一条与权向量垂直的线上。,例子, “,或(,OR),”,“或”的解答(图解法),选择一个判定边界,把两类模式向量分割在两个区。能够实现这种划分的边界有无穷多个。合理的选择是判定边界易于确定,且处于这两类模式向量的间隔正中。,在判定边界上取一点(0, 0.5)来定偏值:,选择与判定边界垂直的权向量,该权向量可以是任意长度向量,它同样有无穷多个。这里选择:,“或”的解答(图解法),方程的法向量是权向量 (与判定边界垂直):,方程的常数项是判定边界的偏置值:,两点式直线方程:,例如点(,x,1,y,1,),和(,x,2,y,2,),:,选一个判定边界及其上的两点得其方程:,例如点(,0.5,0,)和(,0,0.5,),多神经元感知机,每个神经元将有自己的判定边界:,单个神经元可以将输入向量分为两类。,一个有,S,个神经元的感知机可将输入向,量分为多类,共有,2,S,种可能的类别。,感知机学习规则,为满足给定的训练样本:,设计一般性的方法来确定感知机的权和偏置值。,学习规则测试实例,测试问题的网络,初始化,将,p,1,送入网络:,随机初始化权:,错误分类,构造学习规则,令,1,w,为,p,1,前后振荡,将,p,1,加到,1,w,上,1,w,的指向偏向,p,1,规则:,第二个输入向量,(,错误分类,见前图,),修正规则:,第三个输入向量,三个模式现在都正确分类了,(,错误分类,见前图,),统一的学习规则,偏置可视,为对应输,入为,1,的权,多神经元感知机,权值矩阵的第,i,行修改为:,矩阵表示:,苹果,/,香蕉例子,训练集:,初始权值:,第一次迭代:,e,t,1,a,1,0,1,=,=,=,第二次迭代,检查,学习规则的能力,只要权值的解存在(问题线性可分),,该学习规则总能收敛到实现期望分类的,权值上。,感知机的局限性,线性判定边界,解决不了线性不可分问题,有导师的,Hebb,学习,Hebb,规则,突触前的信号,突触后的信号,简化形式,无导师的形式:,有导师的形式:,矩阵形式:,学习速度常数,(设,),线性联想器,训练集,:,线性层,输入,批操作,W,t,1,t,2,t,Q,p,1,T,p,2,T,p,Q,T,T,P,T,=,=,T,t,1,t,2,t,Q,=,P,p,1,p,2,p,Q,=,矩阵形式,:,(,权矩阵初始化为,),性能分析,0,q,k,=,情况,输入向量为标准正交向量:,所以网络输出等于相应的目标输出:,情况,输入向量标准化了但不正交:,误差,例子,香蕉,苹果,归一化原型模式,权矩阵,(Hebb,规则,),:,测试:,香蕉,苹果,仿逆规则,- (1),T,t,1,t,2,t,Q,=,P,p,1,p,2,p,Q,=,|,E,|,2,e,i,j,2,j,i,=,性能参数:,矩阵形式:,仿逆规则,- (2),最小化:,若矩阵,P,的逆存在,可以使得,F,(,W,),为零:,当逆阵不存在,,F,(,W,),可以用仿逆规则最小化:,当矩阵,P,的行数大于其列数,且,P,的列向量线性,无关时,其仿逆为:,与,Hebb,规则的关系,W,T,P,T,=,Hebb,规则,仿逆规则,如果原型模式正交:,例子,性能曲面和最优点,性能学习,性能学习的优化分,两步骤,进行:,找一个衡量网络性能的定量标准,即性能指数:,F(x)。,性能指数在网络性能良好时很小,反之则很大。,搜索减小性能指数的参数空间(调整网络权值和偏置值)。下面将研究性能曲面的特性,建立确保极小点(即所寻求的最优点)存在的条件。,学习规则的几种类型:,联想学习,竞争学习,性能学习。,性能学习目的在于调整网络参数以优化网络性能。,Taylor,级数展开,F,x,(,),F,x,*,(,),x,d,d,F,x,(,),x,x,*,=,x,x,*,(,),+,=,1,2,-,-,-,x,2,2,d,d,F,x,(,),x,x,*,=,x,x,*,(,),2,+,+,1,n,!,-,-,-,-,-,x,n,n,d,d,F,x,(,),x,x,*,=,x,x,*,(,),n,+,+,例子,Taylor,级数的近似表示:,F,(,x,),在,x,*,=,0,点的,Taylor,级数展开式为,:,阶近似:,阶近似:,阶近似:,三个近似的图形,向量情况,F,x,(,),F,x,*,(,),x,1,F,x,(,),x,x,*,=,x,1,x,1,*,(,),x,2,F,x,(,),x,x,*,=,x,2,x,2,*,(,),+,+,=,x,n,F,x,(,),x,x,*,=,x,n,x,n,*,(,),1,2,-,-,-,x,1,2,2,F,x,(,),x,x,*,=,x,1,x,1,*,(,),2,+,+,+,1,2,-,-,-,x,1,x,2,2,F,x,(,),x,x,*,=,x,1,x,1,*,(,),x,2,x,2,*,(,),+,+,矩阵形式,F,x,(,),F,x,*,(,),F,x,(,),T,x,x,*,=,x,x,*,(,),+,=,1,2,-,-,-,x,x,*,(,),T,F,x,(,),x,x,*,=,x,x,*,(,),2,+,+,F,x,(,),x,1,F,x,(,),x,2,F,x,(,),x,n,F,x,(,),=,F,x,(,),2,x,1,2,2,F,x,(,),x,1,x,2,2,F,x,(,),x,1,x,n,2,F,x,(,),x,2,x,1,2,F,x,(,),x,2,2,2,F,x,(,),x,2,x,n,2,F,x,(,),x,n,x,1,2,F,x,(,),x,n,x,2,2,F,x,(,),x,n,2,2,F,x,(,),=,梯度,Hessian,矩阵,方向导数,F,(,x,),沿,x,i,轴的一阶导数(斜率),:,F,(,x,),沿,x,i,轴的二阶导数(曲率),:,(,梯度的第,i,个元素,),(Hessian,矩阵的第,i,i,处的元素),p,T,F,x,(,),p,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,F,(,x,),沿向量,p,的一阶导数(斜率),:,F,(,x,),沿向量,p,的二阶导数(曲率),:,p,T,F,x,(,),2,p,p,2,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,极小点,点,x,*,是,F,(,x,),的强极小点,如果存在某个纯量,d,0,使得当,d,|,D,x,|,0,时,对所有,D,x,都有,F,(,x,*) ,F,(,x,*,+,D,x,),成立。, 强极小点:,点,x,*,是,F,(,x,),的唯一全局极小点,如果,F,(,x,*) ,0,使得当,d,|,D,x,|,0,时,对所有,D,x,都有,F,(,x,*),F,(,x,*,+,D,x,),成立。, 弱极小点:,例子,Strong Minimum,Strong Maximum,Global Minimum,向量例子,一阶优化的必要条件,F,x,(,),F,x,*,D,x,+,(,),F,x,*,(,),F,x,(,),T,x,x,*,=,D,x,+,=,=,1,2,-,-,-,D,x,T,F,x,(,),x,x,*,=,D,x,2,+,+,对很小的,D,x,:,如果,x,*,是个极小点,则要求:,如果,则有,这与,x,*,是极小点相矛盾,所以唯一的选择只有,该式对所有的,D,x,都必须成立,D,x,,即,驻点,:使得梯度为零的点称为驻点(稳定点)。一个极小点一定为驻点,这是局部,极小点的一阶必要条件(不是充分条件)。,二阶条件,在,x,*,将存在强极小点,如果,对所有,D,x,0,成立。,Hessian,矩阵正定是强极小点存在的二阶,充分,条件。,一个矩阵,A,是半正定的,如果,任意向量,z,,有,:,如果一阶条件满足,(,梯度为,),则有,一个矩阵,A,是正定的,如果,对任意向量,z,0,,有,:,可以通过检验矩阵的特征值来检验这些条件。如果矩阵所有特征值为正,则矩阵为正定矩阵;如果矩阵所有特征值非负,则矩阵为半正定矩阵。,Hessian,矩阵半正定是强极小点存在的二阶,必要,条件。,例子,F,x,(,),x,1,2,2,x,1,x,2,2,x,2,2,x,1,+,+,+,=,(,不是,x,的函数,),检查上述,Hessian,矩阵的特征值来检验正定性。如果特征值全都大于零,则该,矩阵是正定的。,两个特征值是正定的, 所以,x,*,是强极小点。,二次函数,梯度的性质:,梯度和,Hessian,矩阵:,二次函数的梯度:,二次函数的,Hessian,矩阵:,(,A,是对称矩阵),二次函数特点的小结,如果赫森矩阵的所有特征值为正,则函数有一个强极小点。,如果赫森矩阵的所有特征值为负,则函数有一个强极大点。,如果赫森矩阵的所有特征值有正有负,则函数有一个鞍点。,如果赫森矩阵的所有特征值为非负,但某些特征值为零,则函数要么有一个弱极小点,要么没有驻点。,如果赫森矩阵的所有特征值为非正,但某些特征值为零,则函数要么有一个弱极大点,要么没有驻点。,驻点:,性能优化,基本的优化算法,p,k,搜索方向,a,k,学习速度,or,优化的目标是求出使性能指数,(,x),最小化的,x,的值。,这里讨论迭代算法,设初始值为,x,0,,,然后按下式迭代:,最速下降法,选择下一次迭代使得性能指数函数减小:,对,x,小的变化,F,(,x,),可近似表示为(在,x,k,的一阶,Taylor,级数展开):,这里,g,k,是在,x,k,的梯度:,要使,F,(,x,k+1,) ,F,(,x,k,),,则,Taylor,展式的第二项必须为负,即:,满足上式的任意向量称为一个下降方向。最速下降方向在哪里?,当方向向量与梯度反向时,该内积为负,而绝对值最大(设长度,不变,只改变方向)。所以最速下降方向的向量为:,例子,图,稳定的学习速度,(,二次函数,),稳定性由这个矩,阵的特征值决定,.,即(1 ,l,i,),是,I,-,a,A,的特征值。所以最速下降法稳定条件为:,若二次函数有一个强极小点,则其特征值为正,上式可化为:,如果矩阵,I,-,a,A,的特征值小于1,则该系统就是稳定的。设,l,i,是,A,的特征值,,z,i,是,A,的特征向量。那么,例子,沿直线最小化,选择,a,k,最小化,其中,对二次函数,令该导数为0,可得,a,k,的解析表示:,例子,图,后继每一步都正交,.,F,x,(,),T,x,x,k,1,+,=,p,k,g,k,1,+,T,p,k,=,=,牛顿法,求这个二阶近似式的梯度并设它为零来得到驻点:,例子,图,非二次函数例子,驻点,:,F,(,x,),F,2,(,x,),不同的初始情况,F,(,x,),F,2,(,x,),牛顿法的特点,牛顿法是在当前初始点确定原函数,F(x),的二次近似的驻点,它并不区别极小点、极大点和鞍点,如果原函数为二次函数(有强极小点),牛顿法能够实现一步极小化,如果原函数不是二次函数,则牛顿法一般不能在一步内收敛,甚至有可能收敛到鞍点和发散(最速下降法能够确保收敛,如果学习速度不太快),共扼向量,对于一个正定的,Hessian,矩阵,A, 称向量集合 是两两共扼的如果下式成立:,矩阵,A,的特征向量组成一个共扼向量集合,.,(,对称矩阵的特征向量是正交的,.),已经证明,如果存在沿一个共扼方向集的准确线性搜索序列,就能在最多,n,次搜索内实现具有,n,个参数的二次函数的准确最小化。问题是如何构造这些共扼搜索方向而毋须先求,Hessian,矩阵?即找到一种不需要计算二阶导数的方法。,对于二次函数,在第,k,+1次迭代梯度的变化是,其中,共扼条件可重写成:,这不需要,Hessian,矩阵了。,构造共扼方向,选择初始的搜索方向为梯度的反方向。,构造后继的搜索方向为共扼方向,即使后继向量,p,k,与,g,0, g,1, , g,k-1,正交。类似,Gram-Schmidt,正交化过程(第五章介绍),可有如下简化的迭代式:,其中,or,or,共扼梯度算法,第一次搜索方向是梯度的负方向。,选择学习速度来沿直线最小化。,用下式确定下一个搜索方向:,如果算法不收敛,回到第二步。,一个有,n,个参数的二次函数将在,n,步内被极小化。,(,用于二次函数,),例子,例子,图,共扼梯度,最速下降,Widrow-Hoff,学习算法,(,LMS,算法),LMS,算法,ADALINE,网络,w,i,w,i,1,w,i,2,w,i,R,=,2-,输入的,ADALINE,均方差性能指数,训练集:,输入:,目标:,符号:,均方差:,均方差性能指数分析,ADALINE,网络的均方差性能指数是一个二次函数:,近似的最速下降法,近似的均方误差,(,单个样本,):,近似的梯度值,:,近似的最速下降法,按最速下降方向更新,LMS,算法,多神经元情况,矩阵表示:,稳定条件,由于 , 总是成立。因此稳定性条件为:,对所有,当矩阵,I, 2,a,R,的所有特征值落在单位圆内时,此动态系统趋于稳定。设,l,i,是,R,的一个特征值,则,I,- 2,a,R,的特征值将为,1 2,l,i,。因此系统的稳定的条件为:,或,例子,香蕉,苹果,第一次迭代,香蕉,第二次迭代,苹果,第三次迭代,继续此迭代过程,算法将收敛于,LMS,算法与感知机学习规则, 感知机学习规则:,LMS,算法:,二者有相同的限制:只能分类线性可分的模式。,LMS,算法比感知机学习规则更有效,它使均方误差最小化,能产生比感知机学习规则受噪声影响小的判定边界。,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 大学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!