AI第5章-计算智能资料课件

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,Artificial Intelligence (AI),人工智能,第,5,章计算智能,Computational Intelligence,(CI),内容,第,5,章计算智能,1,、概述,2,、神经网络,3,、模糊计算,4,、遗传算法,现代科技发展的一个显著特点就是学科间的交叉、渗透和促进。,(,如生物信息学,),计算智能,是另一个有说服力的示例。,计算智能涉及,神经计算,、,模糊计算,、,进化计算,、,粒群计算,、,蚁群计算,、,自然计算,、,免疫计算,和,人工生命,等领域。,反映了,多学科交叉与集成,的发展趋势。,5.1,概述,通过,人工方法,模仿人类智能已有很长历史（如仿生学的众多成果）,都是人类人工模仿智能的典型例证，而现代人工智能领域则力图抓住,智能的本质,。,人工神经网络,（,ANN,）主要是通过,Hopfield,网络,的促进和,反向传播,(BP),网络,训练多层感知器,来推广的，将神经网络,(NN),归类于人工智能可能不太合适，而归类于计算智能（,CI,）应更能说明问题实质。,进化计算,、,人工生命,和,模糊逻辑系统,的某些课题，也都归类于计算智能。,第一个对,计算智能,的,定义,由贝兹德克（,Bezdek,）于,1992,年提出。他认为，从严格意义上讲，计算智能,取决于,制造者提供的,数据数值,，而不依赖于知识；另一方面，人工智能则应用知识。,他认为，,人工神经网络,应当称为,计算神经网络,。,尽管,计算智能,与,人工智能,的,界限,并不十分明显,，但讨论它们的,区别和联系,是有必要的。,贝兹德克对相关术语给予一定的符号和简要说明或定义。,他给出有趣的,ABC,：,A,Artificial,，表示人工的（非生物的），即人造的。,B,Biological,，表示物理的化学的,(?),生物的。,C,Computational,，表示数学计算机。,ABC,与神经网络,(NN),、模式识别,(PR),和智能,(I),之间的关系,:,可看出：,计算智能是一种,智力方式的,低层认知,，它与人工智能的,区别只,是,认知层次从中层下降至低层而已，中层系统含有知识,),，而,低层系统则没有。,当一个系统,只涉及,数值,(,低层,),数据,，,含有,模式识别部分，,不使用,人工智能意义上的知识,且,具有,计算适应性、计算容错性、接近人的速度、近似于人的误差率这,4,个特性,，则该系统就是,计算智能系统,。,一个计算智能系统以,非数值方式,加上,知识值,，即成为,人工智能系统,。,从学科范畴看：,计算智能,是在,神经网络,(NN,）,、,进化计算,(EC,）,及,模糊系统,(FS,）,这三个领域发展相对成熟的基础上，形成的一个统一的学科概念。,1,、什么是计算智能,Computational Intelligence,Darwin Principle,Collective Behavior of Society,Neural Network,EvolutionaryComputation,FuzzySystem,Others,Genetic Algorithm,Evolutionary Strategy,Evolutionary programming,Genetic Programming,Particle Swarm,Ant,Artificial System,神经网络,对人类智能的,结构,模拟方法,。通过对大量人工神经元的,广泛并行,互联,，构造人工神经网络系统以模拟生物神经系统的智能机理。,进化计算,对人类智能的,演化,模拟方法,。通过对生物遗传和演化过程的认识,用,进化算法,模拟人类智能的进化规律。,模糊计算,对人类智能的,逻辑,模拟方法,，通过对人类处理模糊现象认知能力,的认识，用,模糊逻辑,模拟人类的智能行为。,计算智能不仅涉及,神经网络,、,模糊系统,和,进化计算,三个,主要分支，还包括：,粒子群算法,蚁群算法,人工免疫系统,人工生命,模拟退火算法,粗集理论与粒度计算,支持向量机,量子计算,DNA,计算,智能,agent,生物智能,(Biological Intelligence,，,BI),由脑的物理化学过程反映出来的,脑智能的基础。,人工智能,(Artificial Intelligence,，,AI),非生物的,人造的,常用符号表示，来源于人类知识的精华。,计算智能,(Computational Intelligence,，,CI),由数学方法和计算机实现的，来源于数值计算的传感器。,ABC,：,A,rtificial,B,iological,C,omputational,2,、关系,另一种观点,：,计算智能,和,人工智能,是不同的范畴。,虽然人工智能与计算智能之间有重合，但计算,智能是一个全新的学科领域，无论是生物智能,还是机器智能，计算智能都是其,最核心,的部分,而人工智能则是,外层,。,实践证明，只有将,AI,和,CI,很好地,结合,起来，才能更好地,模拟人类智能，才是智能科学发展的正确方向。,内容提要,第,5,章计算智能,1,、概述,2,、神经计算,3,、模糊计算,4,、遗传算法,5.2,神经计算,以,神经网络,为基础的计算。,广义上，神经网络可泛指,生物神经网络,，也可指,人工神,经网络,。,人工神经网络,（,Artificial Neural Network,）,是指模拟,人,脑神经系统,的,结构,和,功能,，运用大量的处理部件，由人工方,式建立起来的,网络系统,。,人脑是,ANN,的原型，,ANN,是对人脑神经系统的模拟。,人工智能领域中，在不引起混淆的情况下，神经网络一般都,指的都是,ANN,。,现代计算机虽有很强的,计算和信息处理能力,，但解决,像模式识别、感知、评判和决策等复杂问题的能力却远远,不及人。特别是其只能按人预先编好的程序机械地执行，,缺乏向环境学习、适应环境的能力。,人脑是由大量的,基本单元（神经元）,经过,复杂的互连,而构成的一种高度复杂、非线性、并行处理的,信息处理系,统,单个神经元的反应速度在毫秒级，比起计算机的基本单,元,-,逻辑门,（反应时间在,10,-9,s,量级）慢,5,6,个数量级。但,由于人脑的神经元数量巨大（约为,10,10,个），每个神经元可,与几千个其他神经元连接（总连接数约为,610,13,），因而,对有些问题的处理速度反而比计算机要快得多，且能耗要,低得多。由此可见，人脑的性能要比现代计算机高得多。,所谓,人工神经网络,，是,模仿人脑工作方式,而设计的,一,种机器,，可用电子或光电元件实现，也可用软件在常规计,算机上仿真。,或者说是一种,具有大量连接的并行分布处理器,，具有,通过学习获取知识并解决问题的能力，且知识是分布存储,在,连接权,（对应于生物神经元的突触）中，而不是像常规,计算机那样按地址存储在特定的存储单元中。,符号（功能）主义：符号逻辑推理,联结（结构）主义：人工神经网络,行为主义：智能行为模拟， “模式,-,动作”,联结主义的观点：,智能的,寓所,在大脑皮层，是由大量,非线,性神经元,互联而成,并行处理的神经网络,。,人工智能的各种学派：,总体而言，人工神经网络（,ANN,）是反映,人脑结构及功能,的一种,抽象数学模型,，是由大量,神经元节点,互连而成,的,复杂网络,，用以模拟人,类进行,知识的表示与存储,以及,利用知识进行推理,的行为。,简单地讲，,ANN,是一个,数学模型,，可用电子电路实现，也可用计,算机程序来模拟，是,人工智能研究的一种方法,。,人工神经网络力求从,四个方面,模拟人脑的智能行为：,物理结构,，,计,算模拟,，,存储与操作,，,训练,。,5.2.1,人工神经网络研究的进展,1,、萌芽期,（,20,世纪,40,年代）,1890,年，美国生物学家,W. James,首次阐明了有关人脑结构及其功能,以及相关学习、联想、记忆的基本规律。,1943,年，心理学家,McCulloch,和数学家,Pitts,建立起了著名的,阈值加,权和,模型，简称为,M-P,模型,。,1949,年，心理学家提出，,神经元之间突触联系是可变的,假,说,-,Hebb,学习律,。,2,、第一高潮期,（,1950-1968,）,以,Minsky,，,Rosenblatt,，,Widrow,等为代表人物。,1957,年,Rosenblatt,定义了一个神经网络结构，称为,感知器,。将,神经,网络研究从纯理论的探讨推向工程实现，在,IBM,计算机上进行了模拟，,并可用电子线路模拟。,3,、反思期,（,1969-1982,）,1969,年,Minsky,和,Papert,在,感知机,一书中指出感知机的缺陷,(,异,或运算不可表示,),，使得神经网络的研究从兴起期进入了停滞期。,芬兰学者,Kohonen,提出了,自组织映射理论,(SOM),，美国学者,Grossberg,提出了,自适应谐振理论,(ART),，这些研究成果对神经网络以后,的发展产生了重要影响。,4,、第二高潮期,（,1983-1990,）,1982,年，,Hopfield,提出,Hopfield,模型,。,1984,年，,Hopfield,设计研制了,Hopfield,网的电路,。较好地解决了著名的,TSP,问题，引起了较大轰动。,1985,年，,Hinton,、,Sejnowsky,、,Rumelhart,等人在,Hopfield,网络中引,入随机机制，提出,Boltzmann,机,。,1986,年，,Rumelhart, Hinton,提出,多层感知机,与,反向传播,(BP),学习,算法,，该方法克服了感知器非线性不可分类问题，给神经网络研究带来,了新的希望。,1990,年,12,月,中国首届神经网络大会,在北京举行。,5,、成熟期,（,1991-,）,平稳发展，应用广泛，与其他领域的结合：与进化计算结合、与模,糊逻辑结合、,。,实际应用：,计算机视觉、自然语言理解、优化计算、智能控制等。,并行分布处理：,并行结构，耐故障。,(,实时、动态,),非线性映射：,任意非线性映射能力。,(,非线性问题,),通过训练进行学习：,通过数据记录进行训练，能处理由数学,模型或描述规则难以处理的问题。,适应与集成：,自适应和信息融合能力。,(,复杂、大规模、多变量,),硬件实现：,快速和大规模处理能力。,(,并行处理,),人工神经网络的特性：,神经网络的,生物学机理,。,、,神经元结构包括,四个部分,胞体：,神经细胞的本体，维持细胞生存功能,树突：,接收来自其他神经元的信号（输入）,轴突：,输出信号,突触：,与另一个神经元相联系的特殊部位,5.2.2,人工神经网络的结构,一个神经元有,两种状态,：兴奋、抑制。,平时处于,抑制状态,的神经元，其树突和胞体接收其它神经元由突触,传来的,兴奋电位,，多个输入在神经元中以,代数和,的方式叠加。,如果输入的兴奋电位总量超过某个,阈值,，神经元会被激发进入,兴奋,状态,，发出输出脉冲，并由突触传递给其他神经元。,神经元被触发后进入,不应期,，在不应期内不能被触发，然后阈值逐,渐下降，恢复抑制状态。,、神经元的,基本工作机制,（简化）,神经元及其连接。,神经元之间的,连接强度,决定信号传递的强弱。,神经元之间的连接强度可以随,训练,改变。,信号可以起,刺激,作用，也可以起,抑制,作用。,一个神经元接受信号的,累积效果,决定该神经元的状态。,每个神经元有一个“,阈值,”。,、生物神经网络的,六个基本特征,MP,模型：,一种,人工神经元,的,数学模型,，是,最早的,神经元模型之一。,是大多数神经网络模型的基础。,MP,模型示意图：,1,、神经元及其特性,输入,输出,中间状态,人工神经元,是仿照,生物神经元,提出的，神经元可以有,N,个输入,：,每个输入端与神经元之间有一定的,连接权值,：,神经元,总的输入,为对每个输入的,加权求和,，同时,减去阈值,。,u,代表神经,元的活跃值，即,神经元状态,：,神经元的,输出,y,是对,u,的映射：,二值函数,f,称为,输出函数,(,激励函数,，,激活函数,),，有几种形式：,S,型函数,双曲正切函数,输出函数“,f,”,的作用：,控制,输入,对,输出,的,激活作用,。,对输入、输出进行,函数转换,。,将可能,无限域的输入,变换成,有限范围,内的输出。,2,、人工神经网络的基本特性和结构,结构,由,基本处理单元,及其,互连方法,决定。,人工神经网络由,神经元模型,构成。,这种由许多神经元组成的信息处理网络具有,并行分布结构,，每个神经元具有,单一输出,，并且能够与其它神经元连接。,存在许多,(,多重,),输出连接方法，每种连接方法对应一个连接权系数。,严格地说，人工神经网络是一种具有下列特性的,有向图,：,(1),对于每个节点,i,存在一个,状态变量,x,i,；,(2),从节点,i,至节点,j,，存在一个,连接权系数,w,ij,；,(3),对于每个节点,i,，存在一个,阈值,i,；,(4),对于每个节点,i,，定义一个,变换函数,f,i,( x,i,w,ij,i,),；,对于最一般的情况，此函数的形式为：,神经元模型,确定之后，一个神经网络的,特性,及,能力,即主,要取决于,网络的拓扑结构,及,学习方法,。,人工神经网络（,ANN,）可以看成是以,人工神经元,为节点,用,有向加权弧,连接起来的,有向图,。,人工神经元,就是对,生物神经元,的模拟。,有向弧,则是,轴突,突触,树突,对的模拟。,有向弧的,权值,表示相互连接的两个人工神经元之间,相互,作用的强弱,。,人工神经网络的,结构,基本上分为两类：,递归,(,反馈,),网络,、,和,前馈网络,。,、递归网络,在递归网络中，,多个神经元互连,以组织成一个互连神经网络，如图所示。,有些神经元的,输出,被,反馈至,同层,或,前层,神经元。因此，信号能够从,正向,和,反向,流通。,（,Hopfield,网络）,递归网络又叫做,反馈网络,。,V,i,：表示节点的状态,x,i,：节点的输入,(,初始,),值,x,i,：收敛后的输出值,（,i=1,2,n,）,、前馈网络,前馈网络具有,递阶分层结构,，由一些,同层,神经元间,不存在,互连的层级,组成。,从输入层至输出层,的信号通过,单向连接流通,；,(,感知器,),神经元从一层连接至下一层，,不存在,同层神经元间的连接,。,实线,-,指明实际信号流通,虚线,-,表示反向传播。,(,连接权值,),3,、人工神经网络的主要学习方法,人工神经网络,最具有吸引力的特点,是它的学习能力。,1962,年，,Rosenblatt,给出了人工神经网络著名的,学习,定理：,人工神经网络,可以学会它能表达的任何东西,。,神经网络的,适应性,是通过学习实现的，学习是神经网,络研究的一个重要内容，人工神经网络的学习过程表现为,对,连接权值的训练,。,人工神经网络的,学习方法,涉及到,学习方式,和,学习规则,的确定，不,同的学习方法其学习方式和学习规则是不同的。,、学习方式,通过向环境学习，获取知识并改进自身性能，是,NN,的一个重要特,点。一般情况下，性能的改善是,按某种预定的度量,，通过,调节自身参数,（,权值,）随时间逐步达到的。,按环境提供信息量的多少,，学习方式有,3,种,：,监督学习,（有师学,习）、,非监督学习,（无师学习）、,再励学习,（强化学习）。,监督学习（有师学习）,此学习方式需要外界,存在,一个,教师,，可对,给定的,一组输入,提供,应有,的,输出结果,(,正确答案,已知的输出）。,输出数据,称为,训练样本集,，学习系统,(,ANN,),可根据,已知输出,与,实际,输出,之间的,差值,(,误差信号,),来调节系统参数。,非监督学习（无师学习）,不存在,外部教师，学习系统完全按照环境提供数据的,某些规律,来,调节自身参数或结构（是一种自组织过程），以表示出外部输入的,某,种固有特性,（如聚类或某种统计上的分布特征）。,再励学习（强化学习）,介于有师与无师两种情况之间。外部环境对系统输出结果只给出,评价信息,（奖或惩），而不是给出正确答案，学习系统通过,强化,那些,受奖的动作来改善自身的性能。, 误差纠正学习,令,y,k,(n),为输入,x,k,(n),时，神经元,k,在,n,时刻的,实际输出,，,d,k,(n),表示,应,有的输出,，则,误差信号,可写为：,误差纠正学习的,最终目的,：使,某一基于,e,k,(n),的目标函数,达到最小,，以使,网络中,每一输出单元,的实际输出，在某种意义上,逼近应有的输出,。,、学习规则,一旦选定了目标函数形式，误差纠正学习就变成了一个典型的“,最,优化,”问题。,最常用的目标函数,是“,均方误差判据,”，定义为,误差平方和,的均值,。,其中，,E,为求,期望算子,。,上式的前提是,被学习的过程,是,宽平稳,的，具体方法可用“,最优梯度,下降法,”。直接用,J,作为目标函数时,需要知道整个学习过程的统计特性,为解决这一问题，通常用,J,在时刻,n,的,瞬时值,(n),代替,J,，即：,各数据偏离平均数的距离的平均数。（标准差）,表示实验误差大小的偏差平方和。,属“等精度测量”，即在相同条件下，各次测量值,X,i,对测定平均值,X,的偏差平方和后再求和。,(X,i,-X),2,概率意义下的“加权平均”。根据大数定理，有,n,次结果的平均值将趋向数学期望值。,问题变为：,求,(n),对权值,w,的极小值，根据,梯度下降法,可得：,这就是通常所说的,误差纠正学习规则,（或称,delta,学习规则）。在,自适应滤波理论,中，对这种学习的收敛性有较深入的分析。,其中，,为学习步长。,Hebb,学习,由神经心理学家,Hebb,提出的学习规则可归纳为：“当某一突触,(,连,接,),两端,的神经元,同步激活,(,同为激活,同为抑制,),时，该连接的强度应,为增强，反之减弱”。,式中，,y,k,(n),，,x,j,(n),分别为,w,kj,两端神经元的状态，其中最常用的,一种情况是：,因,w,kj,与,y,k,(n),，,x,j,(n),的相关成正比，也称为“,相关学习规则,”。,用数学方式可描述为：, 竞争学习,网络,各输出单元,互相竞争,，最后只有一个最强者激活。最常见的,一种情况是,输出神经元之间,有“,侧向抑制性连接,”。,即原输出单元中如有某一单元较强，则它将获胜并抑制其他单元,最后只有此强者处于激活状态。,最常用的竞争学习规则可写为：,当,学习系统,(,神经网络,),所处环境平稳,时,(,统计特性不随时间变化,),理论上通过,监督学习,可学到环境的统计特性，这些统计特性可被学习系,统,作为经验,记住。但若环境是,非平稳,的,(,统计特性随时间变化,),，通常的,监督学习没有能力跟踪这种变化。,为解决此问题，需要网络有一定的,自适应能力,，此时对每一个不同,输入都作为一个,新的例子,来对待。,、学习与自适应,此时,模型,（即,ANN,）被当做一个,预测器,，基于前一个时刻输入,x,(n-1),和模型在,n-1,时刻的参数，它估计,n,时刻的输出,x(n),，,x(n),与实际值,x(n),（应有的正确答案）比较，其,差值,称为“,信息,”。,若信息,e(n)=0,，则不修正模型参数，否则修正模型参数，以便跟踪,环境的变化。,4,、基于神经网络的知识表示,这里，知识并不像在产生式系统中那样,独立地表示为每,一条规则,，而是,将某一问题的若干知识在同一网络中表示,。,例如，在有些神经网络系统中，知识是用神经网络所对,应的,有向权图,的,邻接矩阵,及,阈值向量,表示的。,5,、基于神经网络的推理,通过,网络计算,实现。,把用户提供的,初始证据,用作,网络的输入,，通过网络计,算最终得到,输出结果,。,一般来说，,正向网络推理,的,步骤,：,将,已知数据,，输入网络输入层的,各个节点,；,利用,特性函数,，分别计算网络中,各层的输出,；,用,阈值函数,，对输出层的输出进行判定，从而得到,输出结果,。,5.2.3,人工神经网络的典型模型及其算法,人工神经网络相关算法,已在智能处理系统中广泛应用。迄今为止，已经开发和应用了,30,多种人工神经网络模型。,在此，我们仅对典型网络模型及其算法作简要介绍。,1,、反向传播,(BP),模型,2,、,Hopfield,网络,3,、自适应共振理论,(ART),模型,1,、反向传播,(BP),模型,神经元的网络输入,：,net,i,= x,1,w,1i,+x,2,w,2i,+x,n,w,ni,输入向量、输出向量的,维数,、网络隐藏层的,层数,和各个隐藏层神经元的,个数,的决定了,网络拓扑,。,增加,隐藏层的,层数,和隐藏层神经元,个数,不一定总能提高,网络精度,和,表达能力,。,BP,网一般都选用,二级（,3,层）网络,。因为可以证明如果,BP,网络中,隐层单元,可以根据需要,自由设定,，那么一个,三层网络,可以实现,以任意精度近似任意连续函数,。,将,待识别模式,的输入矢量输入至输入层，并传至后面的隐含层，最后通过连接权输出到输出层。网络中每个神经元通过求,输入权值,和,非线性激励函数传递结果,来工作。其数学描述为：,式中，,out,i,-,所考虑层中,第,i,个神经元,的,输出,。,out,j,-,前一层中,第,j,个神经元,的,输出,。,( ),-,激励函数,。,net,i,-,网络中第,i,个神经元。,对非线性激励函数,的使用有几种常用形式，其中经常采用的是前面介绍过的,Sigmoid,函数,：,BP,算法基本思想：,样本集,：,S=(X,1,Y,1,),(X,2,Y,2,),(Xs,Ys),逐一根据样本集中的样本,(X,k,Y,k,),计算出,实际输出,O,k,及其,误差,E,1,，,然后对,各层神经元的权值,W,(1),W,(2),W,(L),各做一次调整，重复这个循环，直到,Ep,（所有样本的误差之和）。,用,输出层的误差,调整,输出层“权矩阵”,，并用此误差,估计,输出层的直接前导层,的误差；再用输出层前导层误差,估计,更前一层的误差（逐层前推）,，如此获得所有其它各层的误差估计；并用这些估计实现,对权矩阵的修改,。,形成将,输出端表现出的误差,沿着与输入信号相反的方向,逐级向输入端传递的过程,。,BP,算法训练过程概述,前提,-,样本,(,训练,),集,(,输入值，理想,(,期望,),输出值,),1,、首先定义网络误差,对于,BP,反向传播训练算法，通常使用的,网络误差,是熟知的“,均方差,”。但事实上并不是必须使用均方差，可使用任何,连续可微误差函数,，不过选择其他误差函数会增加额外的复杂性。,须注意，不论选用哪种函数作为误差函数，必须在网络,输出期望值,与,实际值,之间,提供一个有意义的度量,-,距离,。,假设这样的训练集合存在，即可讨论怎样利用它来训练一个网络。,均方差定义：,式中，,Ep,是第,p,个样本,（,x,p,t,p,）,的,误差,；,t,pj,是第,j,个神经元,输出的,期望值,（即训练集合）；,o,pj,是第,j,个神经元,输出的,实际值,。,上式中，每一项都反映,单个输出神经元,对,整个误差,的,影响,，,取绝对误差（期望值和实际值之差）的平方,。,可以看出：,远离期望值的那些输出对总误差影响最大，增加“幂指数”，影响则更明显。,B,P,反向传播算法是“,梯度下降训练算法,”中比较简单的一种,。,核心,思想,：,调整权值,使网络,总误差最小,。,梯度下降法,也称为“,最速下降法,”,。,基本思想：,从当前点出发，取函数在该点处,下降最快的方向,，作为搜索方向。,任一点的,负梯度方向,，是函数值在该点下降最快的方向。,将,n,维问题，转换为一系列沿负梯度方向，用,一维搜索方法,寻优问题。,网络中的,每个权值,都是,N,维误差空间,中的,一个元素,，在误差空间中,权值,作为,独立的变量,，且相应,误差表面,(,曲线,),的形状,由,训练集合,和,误差函数,共同决定,。,权值的误差函数,负梯度,指向,误差函数减小最快的方向,。如果在权值空间沿这个矢量移动，最终将达到,极小值,(,该点梯度为零,),。,但该点可能是,局部极小点,，如下图给出误差空间中梯度与,Ep,之间的关系，形象地指出了误差函数达到局部最小值的情形。,其中,:,p,W,ji,表示连接,L-1,层,的,源神经元,i,和,L,层,的,目的神经元,j,权值的变化,。,权值的这个变化，导致了权值空间中,梯度沿,降低误差方向,变化,。,（正比关系变化）,上述结果的数学描述：,权值误差函数负梯度关系式：,因此,，首先必须计算偏微分,-,/,应用公式：,目标：,确定如何调整每个权值，使网络收敛。,任务：,将上式转换成,适合于计算机实现,的,微分方程,。,上式说明：,每个权值,W,ji,将沿着,局部误差表面,最速下降的负梯度方向变化,一步的关系式。,O,pl,是对,L-1,层的所有神经元输出求和得到，因此可计算第二项偏微分：,展开,：,net,pj,由下式给出：,得：,定义误差信号,pj,：,两式合并，得：,前述,权值误差函数负梯度关系式：,式中，常数,是,学习速率,，它控制在权值空间中，对应每步沿负梯度方向变化的大小。,乘上一个比例常数,，重写得：,为了得到可用的微分方程，,暂不考虑,pj,的变化,，运用微分公式：,已知，输出,O,pj,是,net,pj,的函数，表示为：,激励函数,为计算,，必须分别考虑下面两种情况：,目的神经元,j,是一输出神经元。,目的神经元,j,是一隐含层神经元。,、输出层中的目的神经元,对于输出层中的目的神经元，直接得到以,O,pj,为自变量的误差函数,Ep,，可得出：,可将,pj,（,输出层的目的神经元,）写成：,、隐含层中的目的神经元,对于隐含层中的目的神经元，不能直接对误差函数微分。,利用微分公式：,对,L+1,层中的所有神经元求和。根据,net,pk,的定义，可计算式中第二个因子：,得：,由定义可以得到：,得到：,将前述两式与上式合并：,隐含层误差信号,pj,可表示为：,小结：,概括上述结果，公式,给出了关于,pj,的微分方程，,它对隐含层和输出层权值都有效。,公式,对应输出层和隐含层权值,pj,的表达式。,和,修正上述公式。,分别是,公式,给出的是对应于均方差,公式,的解。,因此，若使用其他误差函数，则必须要,为得到,适于计算机的,微分方程,，现仅计算,选择一个特定的输出函数,。因此，必须,，并求函数的解。,利用,Sigmoid,函数，得：,由上式和前述公式,可改写为：,对上式求导，得：,继续计算,即：,将前述公式,代入上式，可将,表示为,O,pj,的函数：,将上式与前述公式一同考虑：,可写出在计算机上用,BP,算法对网络训练所需的微分方程，其中误差函数是均方差函数，输出函数是,Sigmoid,函数。,从推导过程中可看到，若选择另外的误差或激励函数，需要对上述公式进行修正。,综上所述，,BP,反向传播训练算法所需的微分方程是：,其中，,为学习速率；,pj,为,L,层神经元,j,的误差信号；,O,pj,为,L-1,层神经元,i,的输出。,误差信号,pj,可表示为：,其中，,O,pj,代表,L,层神经元,j,的输出；,O,pi,代表,L-1,层神经元,i,的输出；,pk,代表,L+1,层神经元,k,的误差信号。,真正的梯度下降是沿着,梯度确定的方向,，以,无穷小步长,进行的，很明显，这是不切实际的。,因此定义,学习速率,，式中确定了沿梯度方向的一个有限步长。这里,是常量，它相当于确定步长的增益。,其,核心思想,就是：选择足够大的,，使得网络迅速收敛，而不会因调整过度而振荡。,反向传播学习的全部过程，既包括它的,前向路径,，也包括其,反向路径,。,采用反向传播算法时，,网络权值,必须首先用一,小随机值,进行检查初始化。选择小初始权值非常重要，若初始权值选择太大，会导致网络不可训练。,初始化后，训练集矢量就可用于网络。使网络向前运行产生一实际值集合，利用反向传播可以建立一新权值集合，总误差经多次迭代后减小，如果不是如此，可调整训练参数。,BP,算法中的几个问题：,收敛速度问题,收敛速度很慢，其训练需要很多步迭代。,局部极小点问题,逃离,/,避开局部极小点：修改,W,的初值并不是总有效。,逃离,-,统计方法；,Wasserman,，,1986,将,Cauchy,训练与,BP,算法结,合起来，可在保证训练速度不被降低的情况下，找到全局极小点。,网络瘫痪问题,在训练中，权可能变得很大，这会使神经元的网络输入变得很大,从而又使得其激活函数的导函数在此点上的取值很小。根据相应式子,此时的训练步长会变得非常小，进而将导致训练速度降得非常低，最,终导致网络停止收敛。,稳定性问题,用修改量的综合实施权的修改。,连续变化的环境，它将变成无效的。,步长问题,BP,网络的收敛是基于无穷小的权修改量。,步长太小，收敛就非常慢。,步长太大，可能会导致网络的瘫痪和不稳定。,自适应步长，使得权修改量能随着网络的训练而不断变化。,1988,年，,Wasserman,网络隐层中神经元数目及层数的选取尚无理论直到，一般凭借经验,选取。,

展开阅读全文

AI第5章-计算智能资料课件

最新文档