神经网络设计课件

上传人:沈*** 文档编号:241629388 上传时间:2024-07-11 格式:PPT 页数:98 大小:2.17MB
返回 下载 相关 举报
神经网络设计课件_第1页
第1页 / 共98页
神经网络设计课件_第2页
第2页 / 共98页
神经网络设计课件_第3页
第3页 / 共98页
点击查看更多>>
资源描述
11神经网络设计12生物学的启示人脑具有巨大的并行计算能力大脑约有1011个神经元每个神经元约有104个连接神经元相对于电子线路要慢许多10-3秒相对于10-9秒树突(输入)轴突(输出)突触(权)细胞体13神经元模型和网络结构14单输入神经元输入通用神经元15传输函数(激活函数)16传输函数(激活函数)17多输入神经元简化符号18神经元的层输入个神经元的层19简化符号Ww1 1,w1 2,w1 R,w2 1,w2 2,w2 R,wS 1,wS 2,wS R,=b12S=bbbpp1p2pR=aa1a2aS=110多层网络111简化符号HiddenLayersOutputLayer隐层输出层112感知机学习规则113学习的分类有监督学习(有导师学习)提供网络一组能代表网络行为的实例集合(训练集):增强学习(半监督学习)仅提供一个级别(或评分),作为网络在某些输入序列上的性能测度。无监督学习(无导师学习)学习仅根据网络的输入来学会将输入模式分类(聚类)。(输入,目标输出)。114感知机的结构Ww1 1,w1 2,w1 R,w2 1,w2 2,w2 R,wS 1,wS 2,wS R,=wiwi 1,wi 2,wi R,=WwT1wT2wTS=115单个神经元感知机工作原理判定边界:n=w1,1p1+w1,2p2+b=0116单个神经元感知机工作原理p1+p21=0117判定边界 所有在判定边界上的点与权向量的内积相同。这些点一定是在一条与权向量垂直的线上。118例子“或(OR)”119“或”的解答(图解法)选择一个判定边界,把两类模式向量分割在两个区。能够实现这种划分的边界有无穷多个。合理的选择是判定边界易于确定,且处于这两类模式向量的间隔正中。在判定边界上取一点(0,0.5)来定偏值:选择与判定边界垂直的权向量,该权向量可以是任意长度向量,它同样有无穷多个。这里选择:120“或”的解答(图解法)方程的法向量是权向量(与判定边界垂直):方程的常数项是判定边界的偏置值:两点式直线方程:例如点(x1,y1)和(x2,y2):选一个判定边界及其上的两点得其方程:例如点(0.5,0)和(0,0.5)121多神经元感知机每个神经元将有自己的判定边界:单个神经元可以将输入向量分为两类。一个有S个神经元的感知机可将输入向量分为多类,共有2S种可能的类别。122感知机学习规则为满足给定的训练样本:设计一般性的方法来确定感知机的权和偏置值。123学习规则测试实例测试问题的网络124初始化将p1送入网络:随机初始化权:错误分类125构造学习规则令1w为p1前后振荡将p1加到1w上上1w的指向偏向p1规则:126第二个输入向量(错误分类,见前图)修正规则:127第三个输入向量三个模式现在都正确分类了(错误分类,见前图)128统一的学习规则偏置可视为对应输入为1的权129多神经元感知机权值矩阵的第i行修改为:矩阵表示:130苹果/香蕉例子训练集:初始权值:第一次迭代:et1a101=131第二次迭代132检查133学习规则的能力只要权值的解存在(问题线性可分),该学习规则总能收敛到实现期望分类的权值上。134感知机的局限性线性判定边界解决不了线性不可分问题135有导师的Hebb学习136Hebb规则突触前的信号突触后的信号简化形式无导师的形式:有导师的形式:矩阵形式:学习速度常数(设)137线性联想器训练集:线性层输入138批操作Wt1t2tQp1Tp2TpQTTPT=Tt1t2tQ=Pp1p2pQ=矩阵形式:(权矩阵初始化为)139性能分析0qk=情况,输入向量为标准正交向量:所以网络输出等于相应的目标输出:情况,输入向量标准化了但不正交:误差140例子香蕉苹果归一化原型模式权矩阵(Hebb规则):测试:香蕉苹果141仿逆规则-(1)Tt1t2tQ=Pp1p2pQ=|E|2eij2ji=性能参数:矩阵形式:142仿逆规则-(2)最小化:若矩阵P的逆存在,可以使得F(W)为零:当逆阵不存在,F(W)可以用仿逆规则最小化:当矩阵P的行数大于其列数,且P的列向量线性无关时,其仿逆为:143与Hebb规则的关系WTPT=Hebb规则仿逆规则如果原型模式正交:144例子145性能曲面和最优点146性能学习性能学习的优化分两步骤两步骤进行:(1)找一个衡量网络性能的定量标准,即性能指数:找一个衡量网络性能的定量标准,即性能指数:F(x)。性性能指数在网络性能良好时很小,反之则很大。能指数在网络性能良好时很小,反之则很大。(2)搜索减小性能指数的参数空间搜索减小性能指数的参数空间(调整网络权值和偏置值调整网络权值和偏置值)。下面将研究性能曲面的特性,建立确保极小点下面将研究性能曲面的特性,建立确保极小点(即所寻求即所寻求的最优点的最优点)存在的条件。存在的条件。学习规则的几种类型:联想学习,竞争学习,性能学习。性能学习目的在于调整网络参数以优化网络性能。性能学习目的在于调整网络参数以优化网络性能。147Taylor级数展开F x()F x*()xddF x()xx*=xx*()+=12-x22ddF x()xx*=xx*()2+1n!-xnnddF x()xx*=xx*()n+148例子Taylor级数的近似表示:F(x)在x*=0点的Taylor级数展开式为:阶近似:阶近似:阶近似:149三个近似的图形150向量情况Fx()Fx*()x1Fx()xx*=x1x1*()x2Fx()xx*=x2x2*()+=xnFx()xx*=xnxn*()12-x122Fx()xx*=x1x1*()2+12-x1x22Fx()xx*=x1x1*()x2x2*()+151矩阵形式Fx()Fx*()Fx()Txx*=xx*()+=12-xx*()TFx()xx*=xx*()2+Fx()x1Fx()x2Fx()xnFx()=Fx()2x122Fx()x1x22Fx()x1xn2Fx()x2x12Fx()x222Fx()x2xn2Fx()xnx12Fx()xnx22Fx()xn22Fx()=梯度Hessian矩阵152方向导数F(x)沿xi轴的一阶导数(斜率):F(x)沿xi轴的二阶导数(曲率):(梯度的第i个元素)(Hessian矩阵的第i,i处的元素)pTFx()p-F(x)沿向量p的一阶导数(斜率):F(x)沿向量p的二阶导数(曲率):pTFx()2pp2-153极小点点x*是F(x)的强极小点,如果存在某个纯量d 0,使得当d|Dx|0时,对所有Dx都有F(x*)F(x*+Dx)成立。强极小点:强极小点:点x*是F(x)的唯一全局极小点,如果F(x*)0,使得当d|Dx|0时,对所有Dx都有F(x*)F(x*+Dx)成立。弱极小点:弱极小点:154例子StrongMinimumStrongMaximumGlobalMinimum155向量例子156一阶优化的必要条件Fx()Fx*Dx+()Fx*()Fx()Txx*=Dx+=12-DxTFx()xx*=Dx2+对很小的Dx:如果x*是个极小点,则要求:如果则有这与x*是极小点相矛盾,所以唯一的选择只有该式对所有的该式对所有的D Dx都必须成立都必须成立D Dx,即即驻点驻点:使得梯度为零的点称为驻点(稳定点)。一个极小点一定为驻点,这是局部极小点的一阶必要条件(不是充分条件)。157二阶条件在x*将存在强极小点,如果对所有Dx0成立。Hessian矩阵正定是强极小点存在的二阶充分充分条件。一个矩阵A A是半正定的,如果任意向量z,有:如果一阶条件满足(梯度为),则有一个矩阵A A是正定的,如果对任意向量z0,有:可以通过检验矩阵的特征值来检验这些条件。如果矩阵所有特征值为正,则矩阵为正定矩阵;如果矩阵所有特征值非负,则矩阵为半正定矩阵。Hessian矩阵半正定是强极小点存在的二阶必要必要条件。158例子Fx()x122x1x22x22x1+=(不是x的函数)检查上述Hessian矩阵的特征值来检验正定性。如果特征值全都大于零,则该矩阵是正定的。两个特征值是正定的,所以x*是强极小点。159二次函数梯度的性质:梯度和Hessian矩阵:二次函数的梯度:二次函数的Hessian矩阵:(A是对称矩阵)160二次函数特点的小结如果赫森矩阵的所有特征值为正,则函数有一个强极小点。如果赫森矩阵的所有特征值为负,则函数有一个强极大点。如果赫森矩阵的所有特征值有正有负,则函数有一个鞍点。如果赫森矩阵的所有特征值为非负,但某些特征值为零,则函数要么有一个弱极小点,要么没有驻点。如果赫森矩阵的所有特征值为非正,但某些特征值为零,则函数要么有一个弱极大点,要么没有驻点。驻点:161性能优化162基本的优化算法pk搜索方向ak学习速度or优化的目标是求出使性能指数(x)最小化的x的值。这里讨论迭代算法,设初始值为x0,然后按下式迭代:163最速下降法选择下一次迭代使得性能指数函数减小:对x小的变化F(x)可近似表示为(在xk的一阶Taylor级数展开):这里gk是在xk的梯度:要使F(xk+1)F(xk),则Taylor展式的第二项必须为负,即:满足上式的任意向量称为一个下降方向。最速下降方向在哪里?当方向向量与梯度反向时,该内积为负,而绝对值最大(设长度不变,只改变方向)。所以最速下降方向的向量为:164例子165图166稳定的学习速度(二次函数)稳定性由这个矩阵的特征值决定.即(1li)是I-aA的特征值。所以最速下降法稳定条件为:若二次函数有一个强极小点,则其特征值为正,上式可化为:如果矩阵I-aA的特征值小于1,则该系统就是稳定的。设li是A的特征值,zi是A的特征向量。那么167例子168沿直线最小化选择ak最小化其中对二次函数,令该导数为0,可得ak的解析表示:169例子170图后继每一步都正交.Fx()Txxk1+=pkgk1+Tpk=171牛顿法求这个二阶近似式的梯度并设它为零来得到驻点:172例子173图174非二次函数例子驻点:F(x)F2(x)175不同的初始情况F(x)F2(x)176牛顿法的特点牛顿法是在当前初始点确定原函数F(x)的二次近似的驻点,它并不区别极小点、极大点和鞍点如果原函数为二次函数(有强极小点),牛顿法能够实现一步极小化如果原函数不是二次函数,则牛顿法一般不能在一步内收敛,甚至有可能收敛到鞍点和发散(最速下降法能够确保收敛,如果学习速度不太快)177共扼向量对于一个正定的Hessian矩阵A,称向量集合是两两共扼的如果下式成立:矩阵A的特征向量组成一个共扼向量集合.(对称矩阵的特征向量是正交的.)已经证明,如果存在沿一个共扼方向集的准确线性搜索序列,就能在最多n次搜索内实现具有n个参数的二次函数的准确最小化。问题是如何构造这些共扼搜索方向而毋须先求Hessian矩阵?即找到一种不需要计算二阶导数的方法。178对于二次函数在第k+1次迭代梯度的变化是其中共扼条件可重写成:这不需要Hessian矩阵了。179构造共扼方向选择初始的搜索方向为梯度的反方向。构造后继的搜索方向为共扼方向,即使后继向量pk 与g0,g1,gk-1正交。类似Gram-Schmidt正交化过程(第五章介绍),可有如下简化的迭代式:其中oror180共扼梯度算法第一次搜索方向是梯度的负方向。选择学习速度来沿直线最小化。用下式确定下一个搜索方向:如果算法不收敛,回到第二步。一个有n 个参数的二次函数将在n步内被极小化。(用于二次函数)181例子182例子183图共扼梯度最速下降184Widrow-Hoff学习算法(LMS算法)LMS算法185ADALINE网络wiwi 1,wi 2,wi R,=1862-输入的ADALINE187均方差性能指数训练集:输入:目标:符号:均方差:188均方差性能指数分析ADALINE网络的均方差性能指数是一个二次函数:189近似的最速下降法近似的均方误差(单个样本):近似的梯度值:190近似的最速下降法按最速下降方向更新191LMS算法192多神经元情况矩阵表示:193稳定条件由于,总是成立。因此稳定性条件为:对所有当矩阵I2aR的所有特征值落在单位圆内时,此动态系统趋于稳定。设li是R的一个特征值,则I-2aR的特征值将为12li。因此系统的稳定的条件为:或194例子香蕉苹果195第一次迭代香蕉196第二次迭代苹果197第三次迭代继续此迭代过程,算法将收敛于198LMS算法与感知机学习规则感知机学习规则:LMS算法:二者有相同的限制:只能分类线性可分的模式。LMS算法比感知机学习规则更有效,它使均方误差最小化,能产生比感知机学习规则受噪声影响小的判定边界。
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!