资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,Artificial Intelligence (AI),人工智能,第,5,章 计算智能,Computational Intelligence,(CI),内 容,第,5,章 计算智能,1,、概述,2,、神经网络,3,、模糊计算,4,、遗传算法,现代科技发展的一个显著特点就是学科间的交叉、渗透和促进。,(,如生物信息学,),计算智能,是另一个有说服力的示例。,计算智能涉及,神经计算,、,模糊计算,、,进化计算,、,粒群计算,、,蚁群计算,、,自然计算,、,免疫计算,和,人工生命,等领域。,反映了,多学科交叉与集成,的发展趋势。,5.1,概述,通过,人工方法,模仿人类智能已有很长历史(如仿生学的众多成果),都是人类人工模仿智能的典型例证,而现代人工智能领域则力图抓住,智能的本质,。,人工神经网络,(,ANN,)主要是通过,Hopfield,网络,的促进和,反向传播,(BP),网络,训练多层感知器,来推广的,将神经网络,(NN),归类于人工智能可能不太合适,而归类于计算智能(,CI,)应更能说明问题实质。,进化计算,、,人工生命,和,模糊逻辑系统,的某些课题,也都归类于计算智能。,第一个对,计算智能,的,定义,由贝兹德克(,Bezdek,)于,1992,年提出。他认为,从严格意义上讲,计算智能,取决于,制造者提供的,数据数值,,而不依赖于知识;另一方面,人工智能则应用知识。,他认为,,人工神经网络,应当称为,计算神经网络,。,尽管,计算智能,与,人工智能,的,界限,并不十分明显,,但讨论它们的,区别和联系,是有必要的。,贝兹德克对相关术语给予一定的符号和简要说明或定义。,他给出有趣的,ABC,:,A,Artificial,,表示人工的(非生物的),即人造的。,B,Biological,,表示物理的化学的,(?),生物的。,C,Computational,,表示数学计算机。,ABC,与神经网络,(NN),、模式识别,(PR),和智能,(I),之间的关系,:,可看出:,计算智能是一种,智力方式的,低层认知,,它与人工智能的,区别只,是,认知层次从中层下降至低层而已,中层系统含有知识,),,而,低层系统则没有。,当一个系统,只涉及,数值,(,低层,),数据,,,含有,模式识别部分,,不使用,人工智能意义上的知识,且,具有,计算适应性、计算容错性、接近人的速度、 近似于人的误差率这,4,个特性,,则该系统就是,计算智能系统,。,一个计算智能系统以,非数值方式,加上,知识值,,即成为,人工智能系统,。,从学科范畴看:,计算智能,是在,神经网络,(NN,),、,进化计算,(EC,),及,模糊系统,(FS,),这三个领域发展相对成熟的基础上,形成的一个统一的学科概念。,1,、什么是计算智能,Computational Intelligence,Darwin Principle,Collective Behavior of Society,Neural Network,EvolutionaryComputation,FuzzySystem,Others,Genetic Algorithm,Evolutionary Strategy,Evolutionary programming,Genetic Programming,Particle Swarm,Ant,Artificial System,神经网络,对人类智能的,结构,模拟方法,。通过对大量人工神经元的,广泛并行,互联,,构造人工神经网络系统以模拟生物神经系统的智能机理。,进化计算,对人类智能的,演化,模拟方法,。通过对生物遗传和演化过程的认识,用,进化算法,模拟人类智能的进化规律。,模糊计算,对人类智能的,逻辑,模拟方法,,通过对人类处理模糊现象认知能力,的认识,用,模糊逻辑,模拟人类的智能行为。,计算智能不仅涉及,神经网络,、,模糊系统,和,进化计算,三个,主要分支,还包括:,粒子群算法,蚁群算法,人工免疫系统,人工生命,模拟退火算法,粗集理论与粒度计算,支持向量机,量子计算,DNA,计算,智能,agent,生物智能,(Biological Intelligence,,,BI),由脑的物理化学过程反映出来的,脑智能的基础。,人工智能,(Artificial Intelligence,,,AI),非生物的,人造的,常用符号表示,来源于人类知识的精华。,计算智能,(Computational Intelligence,,,CI),由数学方法和计算机实现的,来源于数值计算的传感器。,ABC,:,A,rtificial,B,iological,C,omputational,2,、关系,另一种观点,:,计算智能,和,人工智能,是不同的范畴。,虽然人工智能与计算智能之间有重合,但计算,智能是一个全新的学科领域,无论是生物智能,还是机器智能,计算智能都是其,最核心,的部分,而人工智能则是,外层,。,实践证明,只有将,AI,和,CI,很好地,结合,起来,才能更好地,模拟人类智能,才是智能科学发展的正确方向。,内容提要,第,5,章 计算智能,1,、概述,2,、神经计算,3,、模糊计算,4,、遗传算法,5.2,神经计算,以,神经网络,为基础的计算。,广义上,神经网络可泛指,生物神经网络,,也可指,人工神,经网络,。,人工神经网络,(,Artificial Neural Network,),是指模拟,人,脑神经系统,的,结构,和,功能,,运用大量的处理部件,由人工方,式建立起来的,网络系统,。,人脑是,ANN,的原型,,ANN,是对人脑神经系统的模拟。,人工智能领域中,在不引起混淆的情况下,神经网络一般都,指的都是,ANN,。,现代计算机虽有很强的,计算和信息处理能力,,但解决,像模式识别、感知、评判和决策等复杂问题的能力却远远,不及人。特别是其只能按人预先编好的程序机械地执行,,缺乏向环境学习、适应环境的能力。,人脑是由大量的,基本单元(神经元),经过,复杂的互连,而构成的一种高度复杂、非线性、并行处理的,信息处理系,统,单个神经元的反应速度在毫秒级,比起计算机的基本单,元,-,逻辑门,(反应时间在,10,-9,s,量级)慢,5,6,个数量级。但,由于人脑的神经元数量巨大(约为,10,10,个),每个神经元可,与几千个其他神经元连接(总连接数约为,610,13,),因而,对有些问题的处理速度反而比计算机要快得多,且能耗要,低得多。由此可见,人脑的性能要比现代计算机高得多。,所谓,人工神经网络,,是,模仿人脑工作方式,而设计的,一,种机器,,可用电子或光电元件实现,也可用软件在常规计,算机上仿真。,或者说是一种,具有大量连接的并行分布处理器,,具有,通过学习获取知识并解决问题的能力,且知识是分布存储,在,连接权,(对应于生物神经元的突触)中,而不是像常规,计算机那样按地址存储在特定的存储单元中。,符号(功能)主义:符号逻辑推理,联结(结构)主义:人工神经网络,行为主义:智能行为模拟, “模式,-,动作”,联结主义的观点:,智能的,寓所,在大脑皮层,是由大量,非线,性神经元,互联而成,并行处理的神经网络,。,人工智能的各种学派:,总体而言,人工神经网络(,ANN,)是反映,人脑结构及功能,的一种,抽象数学模型,,是由大量,神经元节点,互连而成,的,复杂网络,,用以模拟人,类进行,知识的表示与存储,以及,利用知识进行推理,的行为。,简单地讲,,ANN,是一个,数学模型,,可用电子电路实现,也可用计,算机程序来模拟,是,人工智能研究的一种方法,。,人工神经网络力求从,四个方面,模拟人脑的智能行为:,物理结构,,,计,算模拟,,,存储与操作,,,训练,。,5.2.1,人工神经网络研究的进展,1,、萌芽期,(,20,世纪,40,年代),1890,年,美国生物学家,W. James,首次阐明了有关人脑结构及其功能,以及相关学习、联想、记忆的基本规律。,1943,年,心理学家,McCulloch,和数学家,Pitts,建立起了著名的,阈值加,权和,模型,简称为,M-P,模型,。,1949,年,心理学家提出,,神经元之间突触联系是可变的,假,说,-,Hebb,学习律,。,2,、第一高潮期,(,1950-1968,),以,Minsky,,,Rosenblatt,,,Widrow,等为代表人物。,1957,年,Rosenblatt,定义了一个神经网络结构,称为,感知器,。将,神经,网络研究从纯理论的探讨推向工程实现,在,IBM,计算机上进行了模拟,,并可用电子线路模拟。,3,、反思期,(,1969-1982,),1969,年,Minsky,和,Papert,在,感知机,一书中指出感知机的缺陷,(,异,或运算不可表示,),,使得神经网络的研究从兴起期进入了停滞期。,芬兰学者,Kohonen,提出了,自组织映射理论,(SOM),,美国学者,Grossberg,提出了,自适应谐振理论,(ART),,这些研究成果对神经网络以后,的发展产生了重要影响。,4,、第二高潮期,(,1983-1990,),1982,年,,Hopfield,提出,Hopfield,模型,。,1984,年,,Hopfield,设计研制了,Hopfield,网的电路,。较好地解决了著名的,TSP,问题,引起了较大轰动。,1985,年,,Hinton,、,Sejnowsky,、,Rumelhart,等人在,Hopfield,网络中引,入随机机制,提出,Boltzmann,机,。,1986,年,,Rumelhart, Hinton,提出,多层感知机,与,反向传播,(BP),学习,算法,,该方法克服了感知器非线性不可分类问题,给神经网络研究带来,了新的希望。,1990,年,12,月,中国首届神经网络大会,在北京举行。,5,、成熟期,(,1991-,),平稳发展,应用广泛,与其他领域的结合:与进化计算结合、与模,糊逻辑结合、,。,实际应用:,计算机视觉、自然语言理解、优化计算、智能控制等。,并行分布处理:,并行结构,耐故障。,(,实时、动态,),非线性映射:,任意非线性映射能力。,(,非线性问题,),通过训练进行学习:,通过数据记录进行训练,能处理由数学,模型或描述规则难以处理的问题。,适应与集成:,自适应和信息融合能力。,(,复杂、大规模、多变量,),硬件实现:,快速和大规模处理能力。,(,并行处理,),人工神经网络的特性:,神经网络的,生物学机理,。,、,神经元结构包括,四个部分,胞体:,神经细胞的本体,维持细胞生存功能,树突:,接收来自其他神经元的信号(输入),轴突:,输出信号,突触:,与另一个神经元相联系的特殊部位,5.2.2,人工神经网络的结构,一个神经元有,两种状态,:兴奋、抑制。,平时处于,抑制状态,的神经元,其树突和胞体接收其它神经元由突触,传来的,兴奋电位,,多个输入在神经元中以,代数和,的方式叠加。,如果输入的兴奋电位总量超过某个,阈值,,神经元会被激发进入,兴奋,状态,,发出输出脉冲,并由突触传递给其他神经元。,神经元被触发后进入,不应期,,在不应期内不能被触发,然后阈值逐,渐下降,恢复抑制状态。,、神经元的,基本工作机制,(简化),神经元及其连接。,神经元之间的,连接强度,决定信号传递的强弱。,神经元之间的连接强度可以随,训练,改变。,信号可以起,刺激,作用,也可以起,抑制,作用。,一个神经元接受信号的,累积效果,决定该神经元的状态。,每个神经元有一个“,阈值,”。,、生物神经网络的,六个基本特征,MP,模型:,一种,人工神经元,的,数学模型,,是,最早的,神经元模型之一。,是大多数神经网络模型的基础。,MP,模型示意图:,1,、神经元及其特性,输入,输出,中间状态,人工神经元,是仿照,生物神经元,提出的,神经元可以有,N,个输入,:,每个输入端与神经元之间有一定的,连接权值,:,神经元,总的输入,为对每个输入的,加权求和,,同时,减去阈值,。,u,代表神经,元的活跃值,即,神经元状态,:,神经元的,输出,y,是对,u,的映射:,二值函数,f,称为,输出函数,(,激励函数,,,激活函数,),,有几种形式:,S,型函数,双曲正切函数,输出函数“,f,”,的作用:,控制,输入,对,输出,的,激活作用,。,对输入、输出进行,函数转换,。,将可能,无限域的输入,变换成,有限范围,内的输出。,2,、人工神经网络的基本特性和结构,结构,由,基本处理单元,及其,互连方法,决定。,人工神经网络由,神经元模型,构成。,这种由许多神经元组成的信息处理网络具有,并行分布结构,,每个神经元具有,单一输出,,并且能够与其它神经元连接。,存在许多,(,多重,),输出连接方法,每种连接方法对应一个连接权系数。,严格地说,人工神经网络是一种具有下列特性的,有向图,:,(1),对于每个节点,i,存在一个,状态变量,x,i,;,(2),从节点,i,至节点,j,,存在一个,连接权系数,w,ij,;,(3),对于每个节点,i,,存在一个,阈值,i,;,(4),对于每个节点,i,,定义一个,变换函数,f,i,( x,i,w,ij,i,),;,对于最一般的情况,此函数的形式为:,神经元模型,确定之后,一个神经网络的,特性,及,能力,即主,要取决于,网络的拓扑结构,及,学习方法,。,人工神经网络(,ANN,)可以看成是以,人工神经元,为节点,用,有向加权弧,连接起来的,有向图,。,人工神经元,就是对,生物神经元,的模拟。,有向弧,则是,轴突,突触,树突,对的模拟。,有向弧的,权值,表示相互连接的两个人工神经元之间,相互,作用的强弱,。,人工神经网络的,结构,基本上分为两类:,递归,(,反馈,),网络,、,和,前馈网络,。,、递归网络,在递归网络中,,多个神经元互连,以组织成一个互连神经网络,如图所示。,有些神经元的,输出,被,反馈至,同层,或,前层,神经元。因此,信号能够从,正向,和,反向,流通。,(,Hopfield,网络),递归网络又叫做,反馈网络,。,V,i,:表示节点的状态,x,i,:节点的输入,(,初始,),值,x,i,:收敛后的输出值,(,i=1,2,n,),、前馈网络,前馈网络具有,递阶分层结构,,由一些,同层,神经元间,不存在,互连的层级,组成。,从输入层至输出层,的信号通过,单向连接流通,;,(,感知器,),神经元从一层连接至下一层,,不存在,同层神经元间的连接,。,实线,-,指明实际信号流通,虚线,-,表示反向传播。,(,连接权值,),3,、人工神经网络的主要学习方法,人工神经网络,最具有吸引力的特点,是它的学习能力。,1962,年,,Rosenblatt,给出了人工神经网络著名的,学习,定理:,人工神经网络,可以学会它能表达的任何东西,。,神经网络的,适应性,是通过学习实现的,学习是神经网,络研究的一个重要内容,人工神经网络的学习过程表现为,对,连接权值的训练,。,人工神经网络的,学习方法,涉及到,学习方式,和,学习规则,的确定,不,同的学习方法其学习方式和学习规则是不同的。,、学习方式,通过向环境学习,获取知识并改进自身性能,是,NN,的一个重要特,点。一般情况下,性能的改善是,按某种预定的度量,,通过,调节自身参数,(,权值,)随时间逐步达到的。,按环境提供信息量的多少,,学习方式有,3,种,:,监督学习,(有师学,习)、,非监督学习,(无师学习)、,再励学习,(强化学习)。,监督学习(有师学习),此学习方式需要外界,存在,一个,教师,,可对,给定的,一组输入,提供,应有,的,输出结果,(,正确答案,已知的输出)。,输出数据,称为,训练样本集,,学习系统,(,ANN,),可根据,已知输出,与,实际,输出,之间的,差值,(,误差信号,),来调节系统参数。,非监督学习(无师学习),不存在,外部教师,学习系统完全按照环境提供数据的,某些规律,来,调节自身参数或结构(是一种自组织过程),以表示出外部输入的,某,种固有特性,(如聚类或某种统计上的分布特征)。,再励学习(强化学习),介于有师与无师两种情况之间。外部环境对系统输出结果只给出,评价信息,(奖或惩),而不是给出正确答案,学习系统通过,强化,那些,受奖的动作来改善自身的性能。, 误差纠正学习,令,y,k,(n),为输入,x,k,(n),时,神经元,k,在,n,时刻的,实际输出,,,d,k,(n),表示,应,有的输出,,则,误差信号,可写为:,误差纠正学习的,最终目的,:使,某一基于,e,k,(n),的目标函数,达到最小,,以使,网络中,每一输出单元,的实际输出,在某种意义上,逼近应有的输出,。,、学习规则,一旦选定了目标函数形式,误差纠正学习就变成了一个典型的“,最,优化,”问题。,最常用的目标函数,是“,均方误差判据,”,定义为,误差平方和,的均值,。,其中,,E,为求,期望算子,。,上式的前提是,被学习的过程,是,宽平稳,的,具体方法可用“,最优梯度,下降法,”。直接用,J,作为目标函数时,需要知道整个学习过程的统计特性,为解决这一问题,通常用,J,在时刻,n,的,瞬时值,(n),代替,J,,即:,各数据偏离平均数的距离的平均数。(标准差),表示实验误差大小的偏差平方和。,属“等精度测量”,即在相同条件下,各次测量值,X,i,对测定平均值,X,的偏差平方和后再求和。,(X,i,-X),2,概率意义下的“加权平均”。根据大数定理,有,n,次结果的平均值将趋向数学期望值。,问题变为:,求,(n),对权值,w,的极小值,根据,梯度下降法,可得:,这就是通常所说的,误差纠正学习规则,(或称,delta,学习规则)。在,自适应滤波理论,中,对这种学习的收敛性有较深入的分析。,其中,,为学习步长。,Hebb,学习,由神经心理学家,Hebb,提出的学习规则可归纳为:“当某一突触,(,连,接,),两端,的神经元,同步激活,(,同为激活,同为抑制,),时,该连接的强度应,为增强,反之减弱”。,式中,,y,k,(n),,,x,j,(n),分别为,w,kj,两端神经元的状态,其中最常用的,一种情况是:,因,w,kj,与,y,k,(n),,,x,j,(n),的相关成正比,也称为“,相关学习规则,”。,用数学方式可描述为:, 竞争学习,网络,各输出单元,互相竞争,,最后只有一个最强者激活。最常见的,一种情况是,输出神经元之间,有“,侧向抑制性连接,”。,即原输出单元中如有某一单元较强,则它将获胜并抑制其他单元,最后只有此强者处于激活状态。,最常用的竞争学习规则可写为:,当,学习系统,(,神经网络,),所处环境平稳,时,(,统计特性不随时间变化,),理论上通过,监督学习,可学到环境的统计特性,这些统计特性可被学习系,统,作为经验,记住。但若环境是,非平稳,的,(,统计特性随时间变化,),,通常的,监督学习没有能力跟踪这种变化。,为解决此问题,需要网络有一定的,自适应能力,,此时对每一个不同,输入都作为一个,新的例子,来对待。,、学习与自适应,此时,模型,(即,ANN,)被当做一个,预测器,,基于前一个时刻输入,x,(n-1),和模型在,n-1,时刻的参数,它估计,n,时刻的输出,x(n),,,x(n),与实际值,x(n),(应有的正确答案)比较,其,差值,称为“,信息,”。,若信息,e(n)=0,,则不修正模型参数,否则修正模型参数,以便跟踪,环境的变化。,4,、基于神经网络的知识表示,这里,知识并不像在产生式系统中那样,独立地表示为每,一条规则,,而是,将某一问题的若干知识在同一网络中表示,。,例如,在有些神经网络系统中,知识是用神经网络所对,应的,有向权图,的,邻接矩阵,及,阈值向量,表示的。,5,、基于神经网络的推理,通过,网络计算,实现。,把用户提供的,初始证据,用作,网络的输入,,通过网络计,算最终得到,输出结果,。,一般来说,,正向网络推理,的,步骤,:,将,已知数据,,输入网络输入层的,各个节点,;,利用,特性函数,,分别计算网络中,各层的输出,;,用,阈值函数,,对输出层的输出进行判定,从而得到,输出结果,。,5.2.3,人工神经网络的典型模型及其算法,人工神经网络相关算法,已在智能处理系统中广泛应用。迄今为止,已经开发和应用了,30,多种人工神经网络模型。,在此,我们仅对典型网络模型及其算法作简要介绍。,1,、反向传播,(BP),模型,2,、,Hopfield,网络,3,、自适应共振理论,(ART),模型,1,、反向传播,(BP),模型,神经元的网络输入,:,net,i,= x,1,w,1i,+x,2,w,2i,+x,n,w,ni,输入向量、输出向量的,维数,、网络隐藏层的,层数,和各个隐藏层神经元的,个数,的决定了,网络拓扑,。,增加,隐藏层的,层数,和隐藏层神经元,个数,不一定总能提高,网络精度,和,表达能力,。,BP,网一般都选用,二级(,3,层)网络,。因为可以证明如果,BP,网络中,隐层单元,可以根据需要,自由设定,,那么一个,三层网络,可以实现,以任意精度近似任意连续函数,。,将,待识别模式,的输入矢量输入至输入层,并传至后面的隐含层,最后通过连接权输出到输出层。网络中每个神经元通过求,输入权值,和,非线性激励函数传递结果,来工作。其数学描述为:,式中,,out,i,-,所考虑层中,第,i,个神经元,的,输出,。,out,j,-,前一层中,第,j,个神经元,的,输出,。,( ),-,激励函数,。,net,i,-,网络中第,i,个神经元。,对非线性激励函数,的使用有几种常用形式,其中经常采用的是前面介绍过的,Sigmoid,函数,:,BP,算法基本思想:,样本集,:,S=(X,1,Y,1,),(X,2,Y,2,),(Xs,Ys),逐一根据样本集中的样本,(X,k,Y,k,),计算出,实际输出,O,k,及其,误差,E,1,,,然后对,各层神经元的权值,W,(1),W,(2),W,(L),各做一次调整,重复这个循环,直到,Ep,(所有样本的误差之和)。,用,输出层的误差,调整,输出层“权矩阵”,,并用此误差,估计,输出层的直接前导层,的误差;再用输出层前导层误差,估计,更前一层的误差(逐层前推),,如此获得所有其它各层的误差估计;并用这些估计实现,对权矩阵的修改,。,形成将,输出端表现出的误差,沿着与输入信号相反的方向,逐级向输入端传递的过程,。,BP,算法训练过程概述,前提,-,样本,(,训练,),集,(,输入值,理想,(,期望,),输出值,),1,、首先定义网络误差,对于,BP,反向传播训练算法,通常使用的,网络误差,是熟知的“,均方差,”。但事实上并不是必须使用均方差,可使用任何,连续可微误差函数,,不过选择其他误差函数会增加额外的复杂性。,须注意,不论选用哪种函数作为误差函数,必须在网络,输出期望值,与,实际值,之间,提供一个有意义的度量,-,距离,。,假设这样的训练集合存在,即可讨论怎样利用它来训练一个网络。,均方差定义:,式中,,Ep,是第,p,个样本,(,x,p,t,p,),的,误差,;,t,pj,是第,j,个神经元,输出的,期望值,(即训练集合);,o,pj,是第,j,个神经元,输出的,实际值,。,上式中,每一项都反映,单个输出神经元,对,整个误差,的,影响,,,取绝对误差(期望值和实际值之差)的平方,。,可以看出:,远离期望值的那些输出对总误差影响最大,增加“幂指数”,影响则更明显。,B,P,反向传播算法是“,梯度下降训练算法,”中比较简单的一种,。,核心,思想,:,调整权值,使网络,总误差最小,。,梯度下降法,也称为“,最速下降法,”,。,基本思想:,从当前点出发,取函数在该点处,下降最快的方向,,作为搜索方向。,任一点的,负梯度方向,,是函数值在该点下降最快的方向。,将,n,维问题,转换为一系列沿负梯度方向,用,一维搜索方法,寻优问题。,网络中的,每个权值,都是,N,维误差空间,中的,一个元素,,在误差空间中,权值,作为,独立的变量,,且相应,误差表面,(,曲线,),的形状,由,训练集合,和,误差函数,共同决定,。,权值的误差函数,负梯度,指向,误差函数减小最快的方向,。如果在权值空间沿这个矢量移动,最终将达到,极小值,(,该点梯度为零,),。,但该点可能是,局部极小点,,如下图给出误差空间中梯度与,Ep,之间的关系,形象地指出了误差函数达到局部最小值的情形。,其中,:,p,W,ji,表示连接,L-1,层,的,源神经元,i,和,L,层,的,目的神经元,j,权值的变化,。,权值的这个变化,导致了权值空间中,梯度沿,降低误差方向,变化,。,(正比关系变化),上述结果的数学描述:,权值误差函数负梯度关系式:,因此,,首先必须计算偏微分,-,/,应用公式:,目标:,确定如何调整每个权值,使网络收敛。,任务:,将上式转换成,适合于计算机实现,的,微分方程,。,上式说明:,每个权值,W,ji,将沿着,局部误差表面,最速下降的负梯度方向变化,一步的关系式。,O,pl,是对,L-1,层的所有神经元输出求和得到,因此可计算第二项偏微分:,展开,:,net,pj,由下式给出:,得:,定义误差信号,pj,:,两式合并,得:,前述,权值误差函数负梯度关系式:,式中,常数,是,学习速率,,它控制在权值空间中,对应每步沿负梯度方向变化的大小。,乘上一个比例常数,,重写得:,为了得到可用的微分方程,,暂不考虑,pj,的变化,,运用微分公式:,已知,输出,O,pj,是,net,pj,的函数,表示为:,激励函数,为计算,,必须分别考虑下面两种情况:,目的神经元,j,是一输出神经元。,目的神经元,j,是一隐含层神经元。,、输出层中的目的神经元,对于输出层中的目的神经元,直接得到以,O,pj,为自变量的误差函数,Ep,,可得出:,可将,pj,(,输出层的目的神经元,)写成:,、隐含层中的目的神经元,对于隐含层中的目的神经元,不能直接对误差函数微分。,利用微分公式:,对,L+1,层中的所有神经元求和。根据,net,pk,的定义,可计算式中第二个因子:,得:,由定义可以得到:,得到:,将前述两式与上式合并:,隐含层误差信号,pj,可表示为:,小结:,概括上述结果,公式,给出了关于,pj,的微分方程,,它对隐含层和输出层权值都有效。,公式,对应输出层和隐含层权值,pj,的表达式。,和,修正上述公式。,分别是,公式,给出的是对应于均方差,公式,的解。,因此,若使用其他误差函数,则必须要,为得到,适于计算机的,微分方程,,现仅计算,选择一个特定的输出函数,。因此,必须,,并求函数的解。,利用,Sigmoid,函数,得:,由上式和前述公式,可改写为:,对上式求导,得:,继续计算,即:,将前述公式,代入上式,可将,表示为,O,pj,的函数:,将上式与前述公式一同考虑:,可写出在计算机上用,BP,算法对网络训练所需的微分方程,其中误差函数是均方差函数,输出函数是,Sigmoid,函数。,从推导过程中可看到,若选择另外的误差或激励函数,需要对上述公式进行修正。,综上所述,,BP,反向传播训练算法所需的微分方程是:,其中,,为学习速率;,pj,为,L,层神经元,j,的误差信号;,O,pj,为,L-1,层神经元,i,的输出。,误差信号,pj,可表示为:,其中,,O,pj,代表,L,层神经元,j,的输出;,O,pi,代表,L-1,层神经元,i,的输出;,pk,代表,L+1,层神经元,k,的误差信号。,真正的梯度下降是沿着,梯度确定的方向,,以,无穷小步长,进行的,很明显,这是不切实际的。,因此定义,学习速率,,式中确定了沿梯度方向的一个有限步长。这里,是常量,它相当于确定步长的增益。,其,核心思想,就是:选择足够大的,,使得网络迅速收敛,而不会因调整过度而振荡。,反向传播学习的全部过程,既包括它的,前向路径,,也包括其,反向路径,。,采用反向传播算法时,,网络权值,必须首先用一,小随机值,进行检查初始化。选择小初始权值非常重要,若初始权值选择太大,会导致网络不可训练。,初始化后,训练集矢量就可用于网络。使网络向前运行产生一实际值集合,利用反向传播可以建立一新权值集合,总误差经多次迭代后减小,如果不是如此,可调整训练参数。,BP,算法中的几个问题:,收敛速度问题,收敛速度很慢,其训练需要很多步迭代。,局部极小点问题,逃离,/,避开局部极小点:修改,W,的初值并不是总有效。,逃离,-,统计方法;,Wasserman,,,1986,将,Cauchy,训练与,BP,算法结,合起来,可在保证训练速度不被降低的情况下,找到全局极小点。,网络瘫痪问题,在训练中,权可能变得很大,这会使神经元的网络输入变得很大,从而又使得其激活函数的导函数在此点上的取值很小。根据相应式子,此时的训练步长会变得非常小,进而将导致训练速度降得非常低,最,终导致网络停止收敛。,稳定性问题,用修改量的综合实施权的修改。,连续变化的环境,它将变成无效的。,步长问题,BP,网络的收敛是基于无穷小的权修改量。,步长太小,收敛就非常慢。,步长太大,可能会导致网络的瘫痪和不稳定。,自适应步长,使得权修改量能随着网络的训练而不断变化。,1988,年,,Wasserman,网络隐层中神经元数目及层数的选取尚无理论直到,一般凭借经验,选取。,
展开阅读全文