第三讲人工神经网络教材课件

上传人:沈*** 文档编号:241655132 上传时间:2024-07-13 格式:PPT 页数:84 大小:2.13MB
返回 下载 相关 举报
第三讲人工神经网络教材课件_第1页
第1页 / 共84页
第三讲人工神经网络教材课件_第2页
第2页 / 共84页
第三讲人工神经网络教材课件_第3页
第3页 / 共84页
点击查看更多>>
资源描述
模式识别模式识别(Pattern Recognition)潘志松第三讲第三讲 人工神经网络人工神经网络潘志松潘志松1997年年5月月11日深蓝战胜卡斯帕罗夫日深蓝战胜卡斯帕罗夫许峰雄博士许峰雄博士:“深蓝之父深蓝之父”、微软亚洲研究院的高级研究员,绰号:、微软亚洲研究院的高级研究员,绰号:CB“疯狂的鸟疯狂的鸟”。他在。他在1980年毕业于台湾大学,年毕业于台湾大学,1989获得卡耐基梅隆大学计算获得卡耐基梅隆大学计算机博士学位。他和同伴在机博士学位。他和同伴在1997年研制出大型计算机年研制出大型计算机“深蓝深蓝”,拉开电脑与人,拉开电脑与人脑的脑的“世纪之战世纪之战”,以,以“深蓝深蓝”战胜国际象棋世界冠军卡斯帕罗夫而告终,战胜国际象棋世界冠军卡斯帕罗夫而告终,轰动全世界。轰动全世界。2003年春,许峰雄加盟微软亚洲研究院。年春,许峰雄加盟微软亚洲研究院。人工神经网络人工神经网络(Artificial Neural Networks)概述概述概述概述 ANNANN的历史的历史的历史的历史 感知器感知器感知器感知器 感知器法则感知器法则感知器法则感知器法则 DeltaDelta法则法则法则法则 BPBP网络网络网络网络(The Backpropagation Algorithm)(The Backpropagation Algorithm)小结小结小结小结概述概述T.Koholen的定义:的定义:“人工神经网络人工神经网络是由具有适是由具有适应性的简单单元组成的广泛并行互连的网络,应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。体所作出的交互反应。”和冯和冯诺依曼型计算机的区别诺依曼型计算机的区别I(1)根据该问题的特点,建立合适的数学模型。(2)根据所建立的数学模型,生成适合于输入计算机的程序和数据。(3)控制器根据计算步骤的顺序,依次按存贮器地址读出一个计算步骤,然后根据读出指令的规定,控制运算器对相应数据执行规定的运算操作。(4)运算完成后控制器把所得的中间结果记录到存贮器某个确定位置存贮好。(5)控制器再取下一个计算步骡,然后重复上述的执行过程。一直到整个运算完成后,控制器就命令输出器把存贮器中存放的最终结果用打印、显示或绘图等方式输出。和冯和冯诺依曼型计算机的区别诺依曼型计算机的区别IIn按照已经编制好的程序步骤来运行,没有主动学习的能力和自适应能力。n处理信息方式是集中的、串行的。n存贮器的位置(即地址)和其中存贮的具体内容无关。因此,总是先找它所在存贮器的地址,然后再查出所存贮的内容。所以n一方面在数值计算或逻辑运算这类顺序性(串行性)信息处理中,表现出远非人所能及的速度;n另一方面,在涉及人类日常的信息活动,例如识别图形、听懂语言等,却.和冯和冯诺依曼型计算机的区别诺依曼型计算机的区别IIIn神经网络对计算机科学和符号处理的一些难题神经网络对计算机科学和符号处理的一些难题可以得到可以得到比较比较令人满意的解答令人满意的解答:特别是对那些并特别是对那些并行搜索、自组织联想记忆问题行搜索、自组织联想记忆问题n神经网络学习对于逼近实数值、离散值或向量神经网络学习对于逼近实数值、离散值或向量值的目标函数提供了一种健壮性很强的方法值的目标函数提供了一种健壮性很强的方法n对于某些类型的问题,如学习解释复杂的现实对于某些类型的问题,如学习解释复杂的现实世界中的传感器数据,人工神经网络是目前知世界中的传感器数据,人工神经网络是目前知道的最有效的学习方法之一道的最有效的学习方法之一.成功的例子:手写成功的例子:手写识别、语音识别、人脸识别等。识别、语音识别、人脸识别等。研究研究ANN内容和方法内容和方法研究方法研究方法n(1)生理结构的模拟:生理结构的模拟:n(2)宏观功能的模拟:宏观功能的模拟:研究内容研究内容:n(1)理论研究:)理论研究:n(2)实现技术的研究:)实现技术的研究:n(3)应用的研究)应用的研究人脑的神经元人脑的神经元1生物神经元之间的相互连接从而让信息传递的部位称为突触神经冲动传递借助于化学介质的作用 神经细胞是构成神经系统的基本单元,称之为生物神经元称之为生物神经元,简称神经元神经元。神经元主要由三部分构成:(1)细胞体;(2)轴突;(3)树突;信息输入信息输入生物神经元生物神经元信息处理信息处理生物神经元生物神经元信息处理信息处理信息传播与处理信息传播与处理生物神经元生物神经元信息处理信息处理信息传播与处理(整合)信息传播与处理(整合)生物神经元生物神经元信息处理信息处理信息传播与处理结果:兴奋与抑制信息传播与处理结果:兴奋与抑制生物神经元生物神经元信息处理信息处理信息输出信息输出人脑的神经元人脑的神经元2n神经神经元转换的速度元转换的速度:10-3 secsn人脑神经元的数目人脑神经元的数目:1010n每每个神经元连接的数目个神经元连接的数目:104105n人人脸识别的速度脸识别的速度:0.1 secsn依依靠高度的并行计算靠高度的并行计算n分分布式的表示方式布式的表示方式生物学动机生物学动机nANN的一个动机就是获得这种基于分布表示的的一个动机就是获得这种基于分布表示的高度并行算法高度并行算法nANN并未模拟生物神经系统中的很多复杂特征并未模拟生物神经系统中的很多复杂特征nANN的研究分为两个团体的研究分为两个团体n使用使用ANN研究和模拟生物学习过程研究和模拟生物学习过程n获得高效的机器学习算法,不管这种算法是获得高效的机器学习算法,不管这种算法是否反映了生物过程否反映了生物过程n本书属于后一个研究团体本书属于后一个研究团体例子例子nALVINN系统系统nANN的输入是一个的输入是一个30 x32像素的网格像素的网格n每个输出单元对应每个输出单元对应一个特定的驾驶方一个特定的驾驶方向,这些单元的输向,这些单元的输出决定哪一个方向出决定哪一个方向是被最强烈推荐的是被最强烈推荐的人工神经网络人工神经网络(Artificial Neural Networks)概述概述概述概述 ANNANN的历史的历史的历史的历史 感知器感知器感知器感知器 感知器法则感知器法则感知器法则感知器法则 DeltaDelta法则法则法则法则 BPBP网络网络网络网络(The Backpropagation Algorithm)(The Backpropagation Algorithm)小结小结小结小结神经网络发展历史神经网络发展历史n上世纪上世纪4040年代年代兴奋与抑制型神经元模型(兴奋与抑制型神经元模型(MccullochMcculloch,PittsPitts)n神经元连接强度的修改规则(神经元连接强度的修改规则(HebbHebb)n上世纪上世纪5050年代、年代、6060年代年代感知机(感知机(RosenblattRosenblatt)和自适应性元件()和自适应性元件(WidrowWidrow)n上世纪上世纪7070年代年代PerceptronPerceptron一书出版(一书出版(MinskyMinsky和和PapertPapert)研究处于低潮。)研究处于低潮。n上世纪上世纪8080年代后年代后RumelhartRumelhart,McclellandMcclelland以及以及HopfieldHopfield等取得突破性进展等取得突破性进展n上世纪上世纪9090年代开始年代开始功能柱和神经场模型的提出功能柱和神经场模型的提出人工神经网络人工神经网络(Artificial Neural Networks)概述概述概述概述 ANNANN的历史的历史的历史的历史 感知器感知器感知器感知器 感知器法则感知器法则感知器法则感知器法则 DeltaDelta法则法则法则法则 BPBP网络网络网络网络(The Backpropagation Algorithm)(The Backpropagation Algorithm)小结小结小结小结神经网络的基本单元-感知器 图 人工神经网络的组成 图 MP神经元模型 神经网络的基本单元-感知器n激发函数一般具有非线性特性,常用的非线性激发函数如图这里,称为激活值 (a)阈值型 (b)分段线性型 (c)Sigmoid函数型 (d)双曲正切型 图 常用的激发函数 神经网络的基本单元-感知器n阈值型函数又称阶跃函数,它表示激活值和其输出f()之间的关系。阈值型函数为激发函数的神经元是一种最简单的人工神经元,也就是我们前面提到的M-P模型。n 线性分段函数可以看作是一种最简单的非线性函数,它的特点是将函数的值域限制在一定的范围内,其输入、输出之间在一定范围内满足线性关系,一直延续到输出为最大域值为止。但当达到最大值后,输出就不再增大。n S型函数是一个有最大输出值的非线性函数,其输出值是在某个范围内连续取值的。以它为激发函数的神经元也具有饱和特性。n 双曲正切型函数实际只是一种特殊的S型函数,其饱和值是1和1。x1x2xn.w1w2wnw0 x0=-1i=0n wi xi 1 if i=0n wi xi 0o(xi)=-1 otherwiseo感知器感知器(Perceptron)其中每个其中每个wi是一个实数常量,或叫做权值,用来决定输入是一个实数常量,或叫做权值,用来决定输入xi对对感知器输出的贡献率。特别地,感知器输出的贡献率。特别地,w0是阈值。是阈值。ANN的假设空间的假设空间n学习一个感知器意味着选择权学习一个感知器意味着选择权w0,wn的值。所以感知器学习要考虑的候选假的值。所以感知器学习要考虑的候选假设空间设空间H就是所有可能的实数值权向量的就是所有可能的实数值权向量的集合集合 线性可分n n感知器在感知器在感知器在感知器在n n维空间中形成了一个超平面,作为决策维空间中形成了一个超平面,作为决策维空间中形成了一个超平面,作为决策维空间中形成了一个超平面,作为决策面,一侧的值面,一侧的值面,一侧的值面,一侧的值 为为为为1 1,另一侧为,另一侧为,另一侧为,另一侧为-1-1。x2x1不能区分n不能学习非线性可分的情况x2x1+101+Functions for Perceptrons感知器可以学习很多布尔函数感知器可以学习很多布尔函数感知器可以学习很多布尔函数感知器可以学习很多布尔函数:AND,OR,NAND,NOR,but not XOR AND,OR,NAND,NOR,but not XOR AND:AND:x1x1x2x2X0=-1X0=-1W0=0.8W0=0.8W1=0.5W1=0.5W2=0.5W2=0.5 XOR如果“异或”(XOR)问题能用单层感知器解决,则由XOR的真值表9-1可知,1、2 和 必须满足如下方程组:1+2-0 1+0-0 0+0-0 0+2-0 显然,该方程组是无解,这就说明单层感知器是无法解决异或问题的。感知器训练法则1n单个感知器的学习任务单个感知器的学习任务:决定一个权向量,它可以使感决定一个权向量,它可以使感知器对于给定的训练样例输出正确的知器对于给定的训练样例输出正确的1或或-1n主要考虑两种算法主要考虑两种算法n感知器法则感知器法则ndelta法则法则n这两种算法保证收敛到可接受的假设这两种算法保证收敛到可接受的假设n这两种算法提供了学习多个单元构成的网络的基础这两种算法提供了学习多个单元构成的网络的基础感知器训练法则2-In更新权值:这里 是学习率(learning rate)t 是单元的目标输出.n理解:n如果输出正确,什么也不做。n如果输出高了,在活动的单元上降低权值。n如果输出低了,在活动的单元上提高权值。感知器训练法则2-IIn可以把感知器看作是n维实例空间(即点空间)中的超平面决策面n对于超平面一侧的实例,感知器输出1,对于另一侧的实例,输出-1n这个决策超平面方程是n可以被某个超平面分割的样例集合,称为线性可分样例集合感知器法则:感知器法则:一个例子一个例子t=1t=-1o=1o=-1感知器法则3n为什么这个更新法则会成功收敛到正确为什么这个更新法则会成功收敛到正确的权值呢?的权值呢?n刚才的理解刚才的理解n可以证明(可以证明(Minskey&Papert 1969)n如果训练样本例线性可分,并且使用了充分小的如果训练样本例线性可分,并且使用了充分小的 n否则,不能保证否则,不能保证,如何解决呢?如何解决呢?Delta法则法则梯度下降和梯度下降和delta法则法则(1)ndelta法则克服感知器法则的不足,在线性不可法则克服感知器法则的不足,在线性不可分的训练样本上,收敛到目标概念的最佳近似分的训练样本上,收敛到目标概念的最佳近似ndelta法则的关键思想是,使用梯度下降来搜索法则的关键思想是,使用梯度下降来搜索可能的权向量的假设空间,以找到最佳拟合训练可能的权向量的假设空间,以找到最佳拟合训练样例的权向量样例的权向量ndelta法则为反向传播算法提供了基础,而反向法则为反向传播算法提供了基础,而反向传播算法能够学习多个单元的互连网络传播算法能够学习多个单元的互连网络梯度下降和梯度下降和delta法则(法则(2)n把把delta训练法则理解为训练一个无训练法则理解为训练一个无阈值的感知器阈值的感知器 n指定一个度量标准来衡量假设相对指定一个度量标准来衡量假设相对于训练样例的训练误差于训练样例的训练误差 可视化假设空间可视化假设空间梯度:Ew=E/w0,E/wn(w1,w2)(w1+w1,w2+w2)w=-Ewwi=-E/wi E/wi =1/2d(td-od)2/wi =1/2d(td-i wi xi)2/wi =d(td-od)(-xi)梯度下降搜索从一个任意的初始权向量开始,然后沿误差曲面最陡峭下降的方向,以很小的步伐反复修改这个向量,直到得到全局的最小误差点梯度下降法则(梯度下降法则(1)表4-1,训练线性单元的梯度下降算法Gradient-Descent(training_examples,)training_examples中每个训练样例形式为序偶,x 是输入值向量,t是目标输出值,是学习速率n初始化每个wi为某个小的随机值n遇到终止条件之前,做以下操作n初始化每个wi为0n对于训练样例training_examples中的每个,做n把实例x 输入到此单元,计算输出on对于线性单元的每个权增量wi,做 wiwi+(t-o)xin对于线性单元的每个权wi,做nwiwi+wi梯度下降法则(梯度下降法则(2)n因为误差曲面仅包含一个全局的最小值,因为误差曲面仅包含一个全局的最小值,所以无论训练样例是否线性可分,算法所以无论训练样例是否线性可分,算法都会收敛到具有最小误差的权向量,条都会收敛到具有最小误差的权向量,条件是使用足够小的学习速率件是使用足够小的学习速率n算法的一种常用改进方法是随着梯度下算法的一种常用改进方法是随着梯度下降步数的增加逐渐减小学习速率降步数的增加逐渐减小学习速率梯度下降的随机近似梯度下降的随机近似(1)n梯度下降是一种重要的通用学习范型,它是搜索庞大梯度下降是一种重要的通用学习范型,它是搜索庞大假设空间或无限假设空间一种策略假设空间或无限假设空间一种策略n梯度下降应用于满足以下条件的任何情况梯度下降应用于满足以下条件的任何情况:n假设空间包含连续参数化的假设假设空间包含连续参数化的假设(hypothesis)n误差对于这些假设参数可微误差对于这些假设参数可微n梯度下降的主要实践问题梯度下降的主要实践问题:n有时收敛过程可能非常慢有时收敛过程可能非常慢n如果在误差曲面上有多个局部极小值,那么不能保如果在误差曲面上有多个局部极小值,那么不能保证找到全局最小值证找到全局最小值梯度下降的随机近似(2)n随机梯度下降(或称增量梯度下降)n根据某个单独样例的误差增量计算权值更新,得到近似的梯度下降搜索(随机取一个样例)n对表4-1算法的修改n可以看作为每个单独的训练样例定义不同的误差函数n在迭代所有训练样例时,这些权值更新的序列给出了对于原来误差函数的梯度下降的一个合理近似n通过使下降速率的值足够小,可以使随机梯度下降以任意程度接近于真实梯度下降感知器学习小结感知器学习小结n感知器法则和delta法则的关键差异n前者根据阈值化的感知器输出的误差更新权值n后者根据输入的非阈值化线性组合的误差来更新权值n这个差异带来不同的收敛特性n前者经过有限次的迭代收敛到一个能理想分类训练数据的假设,条件是训练样例线性可分n后者可能经过极长的时间,渐近收敛到最小误差假设,但无论训练样例是否线性可分都会收敛n更大的问题是,感知器法则无法扩展到训练多层网络,而delta法则可以很容易扩展到多层网络人工神经网络人工神经网络(Artificial Neural Networks)概述概述概述概述 ANNANN的历史的历史的历史的历史 感知器感知器感知器感知器 感知器法则感知器法则感知器法则感知器法则 DeltaDelta法则法则法则法则 BPBP网络网络网络网络(The Backpropagation Algorithm)(The Backpropagation Algorithm)小结小结小结小结多层网络和反向传播算法多层网络和反向传播算法(1)多层网络能够表示种类繁多的非线性曲面描述了一个典型的多层网络和它的决策曲面多层网络和反向传播算法多层网络和反向传播算法(2)input layerhidden layeroutput layer可微阈值单元n使用什么类型的单元来构建多层网络?n多个线性单元的连接仍产生线性函数,而我们希望构建表征非线性函数的网络n感知器单元可以构建非线性函数,但它的不连续阈值使它不可微,不适合梯度下降算法n我们需要的单元满足的条件n输出是输入的非线性函数n输出是输入的可微函数nSigmoid单元,类似于感知器单元,但基于一个平滑的可微阈值函数可微阈值单元可微阈值单元(2)x1x2xn.w1w2wnw0 x0=1net=i=0n wi xioo=(net)=1/(1+e-net)(x)is the sigmoid function:1/(1+e-x)d(x)/dx=(x)(1-(x)nsigmoid函数函数n也称也称logistic函数函数n挤压函数挤压函数n输出范围是输出范围是0到到1n单调递增单调递增n导数很容易用函数本身表示导数很容易用函数本身表示反向传播算法反向传播算法(1)n用来学习多层网络的权值用来学习多层网络的权值n采用梯度下降方法试图最小化网络输出采用梯度下降方法试图最小化网络输出值和目标值之间的误差平方值和目标值之间的误差平方n网络的误差定义公式,对所有网络输出网络的误差定义公式,对所有网络输出的误差求和的误差求和:反向传播算法反向传播算法(2)反向传播算法面临的学习任务反向传播算法面临的学习任务n搜索一个巨大的假设空间,这个空间由网络搜索一个巨大的假设空间,这个空间由网络中所有的单元的所有可能的权值定义中所有的单元的所有可能的权值定义n在多层网络中,误差曲面可能有多个局部极在多层网络中,误差曲面可能有多个局部极小值,梯度下降仅能保证收敛到局部极小值小值,梯度下降仅能保证收敛到局部极小值n尽管有这个障碍,已经发现对于实践中很多尽管有这个障碍,已经发现对于实践中很多应用,反向传播算法都产生了出色的结果应用,反向传播算法都产生了出色的结果基本基本BPBP算法算法n基本基本BPBP算法算法neti=x1w1i+x2w2i+xnwni反向传播法则的推导n随机梯度下降算法迭代处理训练样例,每次处理一个,对于每个训练样例d,利用关于这个样例的误差Ed的梯度修改权值符号说明nxji,单元j的第i个输入nwji,与xji相关联的权值nnetj,单元j的输入的加权和noj,单元j计算出的输出ntj,单元j的目标输出n,sigmoid函数noutputs,网络最后一层的输出单元的集合nDownstream(j),单元j的输出到达的单元的集合随机梯度下降法则的推导,分情况讨论的推导n输出单元随机梯度下降法则的推导()n隐藏单元BPBP网络拓扑结构网络拓扑结构x1o1输出层输出层隐藏层隐藏层输入层输入层x2o2omxnWVn向后传播阶段向后传播阶段误差传播阶段误差传播阶段n输出层权的调整输出层权的调整nwpq=qop=fn(netq)(yq-oq)op=oq(1-oq)(yq-oq)opn隐藏层权的调整隐藏层权的调整ANpANqANhvhppk-11kwp1wpqqkwpmmkvhp=opk-1(1-opk-1)(wp11k+wp22k+wpmmk)ohk-2BPBP网络训练过程(网络训练过程(2 2)包含两层包含两层sigmoid单元的前馈网络单元的前馈网络的反向传播算法的反向传播算法ntraining_examples是序偶是序偶的集合,是网络输入值向量,是目标输出值。的集合,是网络输入值向量,是目标输出值。是学习速率,是学习速率,nin是网络输入的数量,是网络输入的数量,nhidden是隐藏层单元数,是隐藏层单元数,nout是输出单元是输出单元数,从单元数,从单元i到单元到单元j的输入表示为的输入表示为xji,单元,单元i到单元到单元j的权值表示为的权值表示为wji。n创建具有创建具有nin个输入,个输入,nhidden个隐藏,个隐藏,nout个输出单元的网络个输出单元的网络n初始化所有的网络权值为小的随机值初始化所有的网络权值为小的随机值n在遇到终止条件前在遇到终止条件前n对于训练样例对于训练样例training_examples中的每个中的每个:n把输入沿网络前向传播把输入沿网络前向传播n把实例输入网络,并计算网络中每个单元把实例输入网络,并计算网络中每个单元u的输出的输出oun使误差沿网络反向传播使误差沿网络反向传播n对于网络的每个输出单元对于网络的每个输出单元k,计算它的误差项,计算它的误差项 kok(1-ok)(tk-ok)n对于网络的每个隐藏单元对于网络的每个隐藏单元h,计算它的误差项,计算它的误差项 hoh(1-oh)n更新每个网络权值更新每个网络权值wjiwji+wji,其中,其中 wji=jxji误差反传In首先计算输出层单元的误差并用它来更新输出层到隐含层的权值。outputhiddeninput当前的输出:oj=0.2目标输出:tj=1.0误差:j=oj(1oj)(tjoj)0.2(10.2)(10.2)=0.128更新权值 j误差反传IIn下一步,基于输出单元的误差反馈,计算隐含层的误差。outputhiddeninput误差反传IIIn最后,根据隐含层的误差,更新隐含层到输入层的权值。outputhiddeninput更新权值反向传播算法适合问题的特征反向传播算法适合问题的特征n实例是用很多实例是用很多“属性属性-值值”对表示的对表示的n训练数据可能包含错误训练数据可能包含错误n可容忍长时间的训练可容忍长时间的训练n可能需要快速求出目标函数值可能需要快速求出目标函数值n人类能否理解学到的目标函数是不重要的人类能否理解学到的目标函数是不重要的(医疗诊断就不行)医疗诊断就不行)终止条件终止条件n在典型的应用中,权值的更新迭代会被重复上在典型的应用中,权值的更新迭代会被重复上千次千次n有很多终止条件可以用来停止这个过程有很多终止条件可以用来停止这个过程n迭代的次数到了一个固定值时停止迭代的次数到了一个固定值时停止n当在训练样例上的误差降到某个阈值以下当在训练样例上的误差降到某个阈值以下n在验证样例集合上的误差符合某个标准在验证样例集合上的误差符合某个标准n终止条件很重要,太少的迭代无法有效地降低终止条件很重要,太少的迭代无法有效地降低误差,太多的迭代会导致对训练数据的过度拟误差,太多的迭代会导致对训练数据的过度拟合合反向传播算法的变体反向传播算法的变体:增加冲量项增加冲量项n修改权值更新法则,使第修改权值更新法则,使第n次迭代时的权值的更新部分地次迭代时的权值的更新部分地依赖于发生在第依赖于发生在第n-1次迭代时的更新,即:次迭代时的更新,即:n wji(n)=jxji+wji(n-1)右侧第一项就是传统的的权值更新法则,第二项被称为冲右侧第一项就是传统的的权值更新法则,第二项被称为冲量项量项n冲量有时会使这个球滚过误差曲面的局部极小值或平坦冲量有时会使这个球滚过误差曲面的局部极小值或平坦区域区域收敛性和局部极小值收敛性和局部极小值(1)n对于多层网络,误差曲面可能含有多个对于多层网络,误差曲面可能含有多个不同的局部极小值,梯度下降可能陷入不同的局部极小值,梯度下降可能陷入这些局部极小值中的任何一个这些局部极小值中的任何一个n对于多层网络,反向传播算法仅能保证对于多层网络,反向传播算法仅能保证收敛到误差收敛到误差E的某个局部极小值,不一定的某个局部极小值,不一定收敛到全局最小误差收敛到全局最小误差收敛性和局部极小值收敛性和局部极小值(2)n用来缓解局部极小值问题的启发式规则用来缓解局部极小值问题的启发式规则n为梯度更新法则加一个冲量,可以带动梯度下降过程,为梯度更新法则加一个冲量,可以带动梯度下降过程,冲过狭窄的局部极小值(原则上,也可能冲过狭窄的冲过狭窄的局部极小值(原则上,也可能冲过狭窄的全局最小值)全局最小值)n使用随机的梯度下降而不是真正的梯度下降。使用随机的梯度下降而不是真正的梯度下降。n使用同样的数据训练多个网络,但用不同的随机权值使用同样的数据训练多个网络,但用不同的随机权值初始化每个网络。如果不同的训练产生不同的局部极初始化每个网络。如果不同的训练产生不同的局部极小值,那么对验证集合性能最好的那个网络将被选中,小值,那么对验证集合性能最好的那个网络将被选中,或者保留所有的网络,输出是所有网络输出的平均值或者保留所有的网络,输出是所有网络输出的平均值前馈网络的表征能力前馈网络的表征能力n布尔函数:任何布尔函数可以被具有两层单元的网布尔函数:任何布尔函数可以被具有两层单元的网络准确表示。络准确表示。n连续函数:每个有界的连续函数可以由一个两层的连续函数:每个有界的连续函数可以由一个两层的网络以任意小的误差逼近。适用条件:隐藏层使用网络以任意小的误差逼近。适用条件:隐藏层使用sigmoid单元、输出层使用(非阈值)线性单元的单元、输出层使用(非阈值)线性单元的网络,所需的隐藏单元数量依赖于要逼近的函数。网络,所需的隐藏单元数量依赖于要逼近的函数。n任意函数:任意函数可以被一个有三层单元的网络任意函数:任意函数可以被一个有三层单元的网络以任意精度逼近。两个隐藏层使用以任意精度逼近。两个隐藏层使用sigmoid单元,单元,输出层使用线性单元,每层所需单元数不确定输出层使用线性单元,每层所需单元数不确定。假设空间的搜索和归纳偏置假设空间的搜索和归纳偏置n反向传播算法的假设空间是反向传播算法的假设空间是n个网络权值形成的个网络权值形成的n维维欧氏空间欧氏空间(与与Bayesian的不同的不同)n假设空间的连续性以及误差假设空间的连续性以及误差E关于假设的连续参数关于假设的连续参数可微,导致了一个定义良好的误差梯度,为最佳假可微,导致了一个定义良好的误差梯度,为最佳假设的搜索提供了一个非常有用的结构。设的搜索提供了一个非常有用的结构。n精确地刻画出反向传播学习的归纳偏置有难度,粗精确地刻画出反向传播学习的归纳偏置有难度,粗略地刻画为在数据点之间平滑插值。如果给定两个略地刻画为在数据点之间平滑插值。如果给定两个正例,它们之间没有反例,反向传播算法会倾向于正例,它们之间没有反例,反向传播算法会倾向于把这两点之间的点也标记为正例把这两点之间的点也标记为正例隐藏层表示隐藏层表示(1)隐藏层表示隐藏层表示(2)n反向传播算法的一个特性:它能够在网络反向传播算法的一个特性:它能够在网络内部的隐藏层发现有用的中间表示内部的隐藏层发现有用的中间表示n多层网络在隐藏层自动发现有用表示的能多层网络在隐藏层自动发现有用表示的能力是力是ANN学习的一个关键特性,这允许学学习的一个关键特性,这允许学习器创造出设计者没有明确引入的特征。习器创造出设计者没有明确引入的特征。n网络中使用的单元层越多,就可以创造出网络中使用的单元层越多,就可以创造出越复杂的特征越复杂的特征泛化、过度拟合泛化、过度拟合过度拟合n为什么过度拟合发生在迭代的后期,而不是早期?n设想网络的权值是被初始化为小随机值的,使用这些几乎一样的权值仅能描述非常平滑的决策面n随着训练的进行,一些权值开始增长,以降低在训练数据上的误差,同时学习到的决策面的复杂度也在增加n如果权值调整迭代次数足够多,反向传播算法可能会产生过度复杂的决策面,拟合了训练数据中的噪声和训练样例中没有代表性的特征过度拟合解决方法n权值衰减n它在每次迭代过程中以某个小因子降低每个权值,这等效于修改E的定义,加入一个与网络权值的总量相应的惩罚项,此方法的动机是保持权值较小,从而使学习过程向着复杂决策面的反方向偏置n验证数据n一个最成功的方法是在训练数据外再为算法提供一套验证数据,应该使用在验证集合上产生最小误差的迭代次数,不是总能明显地确定验证集合何时达到最小误差过度拟合解决方法(2)n一般而言,过度拟合是一个棘手的问题n交叉验证方法在可获得额外的数据提供验证集合时工作得很好,但是小训练集合的过度拟合问题更为严重nk-fold交叉方法n把训练样例分成k份,然后进行k次交叉验证过程,每次使用不同的一份作为验证集合,其余k-1份合并作为训练集合。n每个样例会在一次实验中被用作验证样例,在k-1次实验中被用作训练样例n每次实验中,使用上面讨论的交叉验证过程来决定在验证集合上取得最佳性能的迭代次数,然后计算这些迭代次数的均值n最后,运行一次反向传播算法,训练所有m个实例并迭代 次举例:人脸识别举例:人脸识别(1)举例:人脸识别举例:人脸识别(2)n训练样例训练样例n20个不同人的摄影图像个不同人的摄影图像n每个人大约每个人大约32张图像张图像n不同的表情不同的表情n快乐、沮丧、愤怒、中性快乐、沮丧、愤怒、中性n不同的方向不同的方向n左、右、正前、上左、右、正前、上n不同的穿戴不同的穿戴n是否带眼镜是否带眼镜n共共624幅灰度图像幅灰度图像n分辨率为分辨率为120 x128,每个像素使用,每个像素使用0(黑)到(黑)到255(白)的灰度(白)的灰度值描述值描述n任务:学习图像中人脸的朝向任务:学习图像中人脸的朝向人脸识别人脸识别设计要素设计要素(1)n输入编码输入编码nANN的输入必然是图像的某种表示,那么设计的关的输入必然是图像的某种表示,那么设计的关键是如何编码这幅图像键是如何编码这幅图像n对图像进行预处理,分解出边缘、亮度一致的区域对图像进行预处理,分解出边缘、亮度一致的区域或其他局部图像特征,然后把这些特征输入网络或其他局部图像特征,然后把这些特征输入网络n存在的问题:每幅图像有不同数量的特征参数,而存在的问题:每幅图像有不同数量的特征参数,而ANN具具有固定数量的输入单元有固定数量的输入单元n把图像编码成固定的把图像编码成固定的30 x32像素的亮度值,每个像像素的亮度值,每个像素对应一个网络输入,把范围是素对应一个网络输入,把范围是0到到255的亮度值的亮度值按比例线性缩放到按比例线性缩放到0到到1的区间内,以使网络输入和的区间内,以使网络输入和隐藏单元、输出单元在同样的区间取值。隐藏单元、输出单元在同样的区间取值。人脸识别人脸识别设计要素(设计要素(2)n输出编码输出编码nANN必须输出必须输出4个值中的一个来表示输入图像中人个值中的一个来表示输入图像中人脸的朝向脸的朝向n可以使用单一的输出单元来编码这可以使用单一的输出单元来编码这4种情况种情况n使用使用4个不同的输出单元,每一个对应个不同的输出单元,每一个对应4种可能朝向种可能朝向中的一种,取具有最高值的输出作为网络的预测值。中的一种,取具有最高值的输出作为网络的预测值。称为称为1-of-n输出编码输出编码n选择选择1-of-n的原因的原因:n为网络表示目标函数提供了更大的自由度为网络表示目标函数提供了更大的自由度n最高值输出和次高值输出间的差异可以作为对网络预测的置最高值输出和次高值输出间的差异可以作为对网络预测的置信度信度人脸识别人脸识别设计要素设计要素(3)网络包含多少个单元以及如何互连网络包含多少个单元以及如何互连:n目前采用了包含两层目前采用了包含两层sigmoid单元的标准结构单元的标准结构n隐藏单元的数量隐藏单元的数量n3个,达到个,达到90%的精度,训练时间约的精度,训练时间约5分钟分钟n30个,提高个,提高12个百分点,训练时间约个百分点,训练时间约1个小时个小时n实践发现,需要某个最小数量的隐藏单元来精确地学习目标函数,实践发现,需要某个最小数量的隐藏单元来精确地学习目标函数,并且超过这个数量的多余的隐藏单元不会显著地提高泛化精度并且超过这个数量的多余的隐藏单元不会显著地提高泛化精度n如果没有使用交叉验证,那么增加隐藏单元数量经常会增加过度如果没有使用交叉验证,那么增加隐藏单元数量经常会增加过度拟合训练数据的倾向,从而降低泛化精度拟合训练数据的倾向,从而降低泛化精度学习到的隐藏层表示学习到的隐藏层表示人工神经网络人工神经网络(Artificial Neural Networks)概述概述概述概述 ANNANN的历史的历史的历史的历史 感知器感知器感知器感知器 感知器法则感知器法则感知器法则感知器法则 DeltaDelta法则法则法则法则 BPBP网络网络网络网络(The Backpropagation Algorithm)(The Backpropagation Algorithm)小结小结小结小结小结小结(1)n人工神经网络为学习实数值和向量值函数提供了一种实人工神经网络为学习实数值和向量值函数提供了一种实际方法,对于连续值和离散值的属性都可以使用,并且际方法,对于连续值和离散值的属性都可以使用,并且对训练数据中的噪声具有很好的健壮性。对训练数据中的噪声具有很好的健壮性。n反向传播算法是最常见的网络学习算法反向传播算法是最常见的网络学习算法n反向传播算法考虑的假设空间是固定连接的权所能表示反向传播算法考虑的假设空间是固定连接的权所能表示的所有函数的空间的所有函数的空间n包含包含2层权值的前馈网络能够以任意精度逼近任意连续函层权值的前馈网络能够以任意精度逼近任意连续函数,包含数,包含3层权值的前馈网络能够以任意精度逼近任意函层权值的前馈网络能够以任意精度逼近任意函数。数。n反向传播算法使用梯度下降方法搜索可能假设的空间,反向传播算法使用梯度下降方法搜索可能假设的空间,迭代减小网络的误差以拟合训练数据迭代减小网络的误差以拟合训练数据84小结小结(2)n梯度下降收敛到梯度下降收敛到训练误差训练误差相对网络权值的局部极小相对网络权值的局部极小值。只要训练误差是假设参数的可微函数,梯度下值。只要训练误差是假设参数的可微函数,梯度下降可用来搜索很多连续参数构成的假设空间降可用来搜索很多连续参数构成的假设空间n反向传播算法能够创造出网络输入中没有明确出现反向传播算法能够创造出网络输入中没有明确出现的特征。的特征。n交叉验证方法可以用来估计梯度下降搜索的合适终交叉验证方法可以用来估计梯度下降搜索的合适终止点,从而最小化过度拟合的风险止点,从而最小化过度拟合的风险
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!