资源描述
,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,人工神经网络,内容安排,一、生物神经元,二、人工神经网络结构,三、神经网络基本学习算法,学科交叉,是当前研究领域的一个重要特征,信息科学与生命科学的相互交叉、相互渗透和相互促进是现代科学技术发展的一个显著特点。,概述,计算智能是是学科交叉研究过程中出现的一个重要研究方向,计算智能涉及神经网络、模糊逻辑、进化计算和人工生命等领域,它的研究和发展正是反映了当代科学技术多学科交叉与集成的重要发展趋势。,什么是计算智能,神经网络与人工智能(,AI,) ,把神经网络归类于人工智能可能不大合适,而归类于,计算智能 (,CI,)更能说明问题实质。进化计算、人工生,命和模糊逻辑系统的某些课题,也都归类于计算智能,计算智能与人工智能,计算智能取决于制造者(,manufacturers,)提供的数值数,据,不依赖于知识;,人工智能应用知识精品(,knowledge tidbits,),故,此,一种说法是 人工神经网络应当称为计算神经网络。,计算智能与人工智能的区别和关系,计算智能与人工智能的区别和关系,A,Artificial,,即人工的(非生物的),B,Biological,,即物理的化学的,(,?,),C,Computational,,表示数学计算机,计算智能是一种智力方式的低层认知,它与人工智 能的区别只是认知层次从中层下降至低层而已。中层系统含有知识(精品),低层系统则没有,。,计算智能与人工智能的区别和关系,当一个系统只涉及数值(低层)数据,含有模式识别,部分,不应用人工智能意义上的知识,而且能够呈现出:,(,1,)计算适应性;,(,2,)计算容错性;,(,3,)接近人的速度;,(,4,)误差率与人相近,,则该系统就是计算智能系统。,当一个智能计算系统以非数值方式加上知识(精品),值,即成为人工智能系统。,神经计算,大脑模型,生物神经系统,生物神经系统是一个有高度组织和相互作用的数量巨大的细胞组织群体。人类大脑的神经细胞大约在,10,11,一,10,13,个左右。神经细胞也称神经元,是神经系统的基本单元,它们按不同的结合方式构成了复杂的神经网络。通过神经元及其联接的可塑性,使得大脑具有学习、记忆和认知等各种智能。,生物神经系统,生物神经元主要由以下几个部分组成:,胞体,是神经细胞的本体,;,树突,,,用以接受来自其它细胞元的信号,;,轴突,用以输出信号,与多个神经元连接,;,突触,是一个神经元与另一个神经元相联系的特殊部位,通过神经元轴突的端部靠化学接触和电接触将信号传递给下一个神经元的树突或胞体。,生物神经元示意图,生物神经元的基本工作机制,一个神经元有两种状态,-,兴奋和抑制。平时处于抑制状态的神经元,其树突和胞体接受其它神经元经由突触传来的兴奋电位,多个输入在神经元中以代数和的方式叠加;如输入兴奋总量超过阈值,神经元被激发进入兴奋状态,发出输出脉冲,由轴突的突触传递给其它神经元。,一个神经元的兴奋和抑制两种状态是由细胞膜内外之间不同的电位差来表征的。在抑制状态,细胞膜内外之间有内负外正的电位差,这个电位差大约在,-50,-100mv,之间。在兴奋状态,则产生内正外负的相反电位差,这时表现为约,60100mv,的电脉冲。细胞膜内外的电位差是由膜内外的离子浓度不同导致的。细胞的兴奋电脉冲宽度一般大约为,1ms,。,生物神经特性,(1),并行分布处理的工作模式,实际上大脑中单个神经元的信息处理速度是很慢的,每次约,1,毫秒,(ms),,比通常的电子门电路要慢几个数量级。每个神经元的处理功,能也很有限,估计不会比计算机的一条指令更复杂。 但是人脑对某,一复杂过程的处理和反应却很快,一般只需几百毫秒。例如要判定,人眼看到的两个图形是否一样,实际上约需,400ms,,而在这个处理过,程中,与脑神经系统的一些主要功能,如视觉、记亿、推理等有关。,按照上述神经元的处理速度,如果采用串行工作模式,就必须在几,百个串行步内完成,这实际上是不可能办到的。因此只能把它看成,是一个由众多神经元所组成的超高密度的并行处理系统。例如在一,张照片寻找一个熟人的面孔,对人脑而言,几秒钟便可完成,但如,用计算机来处理,以现有的技术,是不可能在短时间内完成的。由,此可见,大脑信息处理的并行速度已达到了极高的程度,生物神经特性,(2),神经系统的可塑性和自组织性。,神经系统的可塑性和自组织性与人脑的生长发育过程有关。例如,人的幼年时期约在,9,岁左右,学习语言的能力十分强,说明在幼年时期,大脑的可塑性和柔软性特别良好。从生理学的角度看,它体现在突触的可塑性和联接状态的变化,同时还表现在神经系统的自组织特性上。例如在某一外界信息反复刺激下接受该信息的神经细胞之间的突触结合强度会增强。这种可塑性反映出大脑功能既有先天的制约因素,也有可能通过后天的训练和学习而得到加强。神经网络的学习机制就是基于这种可塑性现象,并通过修正突触的结合强度来实现的。,生物神经特性,(3),信息处理与信息存贮合二为一。,大脑中的信息处理与信息存贮是有机结合在一起的,而不像现行计算机那样存贮地址和存贮内容是彼此分开的。由于大脑神经元兼有信息处理和存贮功能,所以在进行回亿时,不但不存在先找存贮地址而后再调出所存内容的问题,而且还可以由一部分内容恢复全部内容,.,(4),信息处理的系统性,大脑是一个复杂的大规模信息处理系统,单个的元“神经元”不能体现全体宏观系统的功能。实际上,可以将大脑的各个部位看成是一个大系统中的许多子系统。各个子系统之间具有很强的相互联系,一些子系统可以调节另一些子系统的行为。例如,视觉系统和运动系统就存在很强的系统联系,可以相互协调各种信息处理功能,生物神经特性,(5),能接受和处理模糊的、模拟的、随机的信息。,(6),求满意解而不是精确解,.,人类处理日常行为时,往往都不是一定要按最优或最精确的方式去求解,而是以能解决问题为原则,即求得满意解就行了。,(7),系统具有鲁棒性和容错性,人工神经网络结构,人工神经网络,人工神经元模型,常见响应函数,人工神经网络典型结构,人工神经网络的进展,初创阶段(二十世纪四十年代至六十年代),1943,年,美国心理学家,W. S. Mcculloch,和数理逻辑学家,W. Pitts,合作,以数学逻辑为研究手段,探讨了客观事件在神经网络的形式问题,在此基础上提出了神经元的数学模型,即,MP,(,Mcculloch-Pitts,)模型。,1960,年,威德罗和霍夫率先把神经网络用于自动控制研究。,过度阶段(二十世纪六十年代初至七十年代),M. Minsky,和,S. Papert,经过多年的潜心研究,于,1969,年出版了影响深远的,Perceptron,一 书,从理论上证明了以单层感知机为代表的网络系统在某些能力方面的局限性。,60,年代末期至,80,年代中期,神经网络控制与整个神经网络研究一样,处于低潮,高潮阶段(二十世纪八十年代),1982,和,1984,年,美国加州理工学院的生物物理学家,,J. Hopfield,在美国科学院院刊发表的两篇文章,有力地推动了人工神经网络的研究与应用,并引发了研究神经网络的一次热潮。,80,年代后期以来,随着人工神经网络研究的复苏和发展,对神经网络控制的研究也十分活跃。 这方面的研究进展主要在神经网络自适应控制和模糊神经网络控制及其在机器人控制中的应用上,平稳发展阶段(二十世纪九十年代以后),人工神经网络的进展,1.,可以充分逼近任意复杂的非线性关系,2.,所有定量或定性的信息都等势分布贮存于 网络内的各神经元,故有很强的鲁棒性和容错性,3.,采用并行分布处理方法,使得快速进行大量运算成为可能,4.,可学习和自适应不知道或不确定的系统,5.,能够同时处理定量、定性知识。,6.,可以通过软件和硬件实现。,人工神经网络的特性,人工神经网络,直观理解,神经网络是一个并行和分布式的信息处理网络结构,它一般由大量神经元组成,每个神经元只有一个输出,可以连接到很多其他的神经元,每个神经元输入有多个连接通道,每个连接通道对应于一个连接权系数,概念,人工神经网络是反映人脑结构及功能的一种抽象数学模型,是由大量神经元节点互连而成的复杂网络,用以模拟人类进行知识的表示与存储以及利用知识进行推理的行为。,人工神经网络(,ANN,)可以看成是以人工神经元为结点,用有向加权弧连接起来的有向图。在此有向图中,,,人工神经元,就是对,生物神经元,的模拟,而,有向弧,则是,轴突,突触,树突,对的模拟。有向弧的,权值,表示相互连接的两个人工神经元间,相互作用的强弱,。,人工神经元模型,通用模型,求和操作,激励函数,f,激励函数的基本作用,控制输入对输出的激活作用,对输入、输出进行函数转换,将可能无限域的输入变换成指定的有限范围内的输出,f,为输出变换函数,也叫激励函数,往往采用,0,、,1,二值函数或形函数,这三种函数都是连续和非线性的,如下图。,b. Sigmoid,型激发函数称为西格莫伊德(,Sigmoid,)函数,简称,S,型函数,其输入输出特性常用对数曲线或正切曲线等表示。这类曲线反映了神经元的饱和特性。,S,型函数是最常用的激发函数,它便于应用梯度技术进行搜索求解。,a.,阈值型,对于这种模型,神经元没有内部状态,激发函数,为一阶跃函数,如上图(,a,)所示。这时,输出为:,c.,双曲正切函数(见图(,c,)来取代常规形函数,因为形函数的输出均为正值,而双曲正切函数的输出值可为正或负。双曲正切函数如下式所示:,人工神经网络结构,人工神经网络结构,人工神经网络是具有下列特性的有向图,对于每个节点,i,存在一个状态变量,x,i,; ,从节点,j,至节点,i ,存在一个连接权系数,w,ij,;,对于每个节点,i,,存在一个阈值,i,; ,对于每个节点,i,,定义一个变换函数,f,i,;对于最一般的情况,此函 数取如下的形式,神经网络的基本特性和结构,神经元的模型确定之后,一个神经网络的特性及能力主要取决于网络的拓扑结构及学习方法,人工神经网络连接的几种基本形式,前向网络,(a),从输出到输入有反馈的前向网络,(b),用来存储某种模式序列,层内互连前向网络,(c),限制层内同时动作的神经元;分类功能,相互结合型网络,(d),人工神经网络典型结构,x,1,x,2,x,n,y,1,y,2,y,n,x,1,x,2,x,n,y,1,y,2,y,n,有反馈的前馈网络,单纯前馈网络,a,),b,),x,1,x,2,x,n,y,1,y,2,y,n,前馈内层互联网络,x,1,x,2,x,3,x,4,y,1,y,2,y,3,y,4,反馈型全互联网络,c,),d,),人工神经网络最具有吸引力的特点是它的学习能力。学习是神经网络研究的一个重要内容,神经网络的适应性是通过学习实现的,.,人工神经网络的学习过程就是对它的训练过程,.,神经网络基本学习算法,什么是学习?,学习就是对信息进行编码,其目的就是通过向有限个例子(训练样本)的学习来找到隐藏在例子背后(即产生这些例子)的规律(如函数形式)。,当样本数据改变系统参数时,系统会对这些改变进行自适应或自组织的学习,在神经网络中表现为突触的改变。,按突触修正假说,神经网络在拓扑结构固定时,其学习归结为连接权的变化。,主要学习算法,神经网络基本学习算法,分为:,有师学习(监督学习),无师学习(非监督学习),强化学习,有师学习,有师(监督)就是对每一个输入,Xi,都假定我们已经知道它的期望输出,Yi,这个,Yi,可以理解为监督信号,也叫,“,教师信号,”,。对每一个输入,Xi,及其对其估计的期望输出,Yi,,就构成了一个训练样本。根据这若干组训练样本,(,Xi,,,Yi,),,对人工神经网络进行训练,利用学习系统的误差( 期望输出与实际输出之差),不断校正学习系统的行为(即突触权值),直到误差满足要求,算法停止。有师学习算法主要有,规则、,BP,算法、,LVQ,算法等。,其关键之处,就是将教师信号加入到了网络中,.,无师学习,无师学习不需要知道期望输出。在训练过程中,只要想神经网络提供输入模式,神经网络就能够自动地适应连接权,以便按照相似特征把输入模式分组聚集。无师学习算法主要在自适应谐振理论,ART,、,Kohonen,等自组织竞争型网络中采用。,强化学习,人类通常从与外界环境的交互中学习。,强化学习技术是从控制理论、统计学、心理学等相关学科发展而来,最早可以追溯到巴甫洛夫的条件反射实验。,所谓强化(,reinforcement,)学习是指从环境状态到行为映射的学习,以使系统行为从环境中获得的累积奖励值最大。我们并没有直接告诉主体要做什么或者要采取哪个动作,而是主体通过看哪个动作得到了最多的奖励来自己发现。主体的动作的影响不只是立即得到的奖励,而且还影响接下来的动作和最终的奖励。,主体,强化学习模型,i: input,r: reward,s: state,a: action,状态,s,i,s,i+1,r,i+1,奖励,r,i,环境,行为,a,i,a,0,a,1,a,2,s,0,s,1,s,2,s,3,基本原理是:如果主体的某个行为策略导致环境正的奖赏(强化信号),那么主体以后产生这个行为策略的趋势便会加强,.,监督学习与非监督学习的区别:,在监督学习中,假定我们知道每一输入对应的期望输出,并利用学习系统的误差,不断校正系统的行为;,在非监督学习中,我们不知道学习系统的期望输出,。,监督学习与强化学习的区别:,Supervised Learning, Learn from examples provided by a knowledgable external supervisor.,Reinforcement Learning, Learn from interaction learn from its own experience, and the o,bjective,is to,get as much reward as possible,. The learner is not told which actions to take, but instead must discover which actions yield the most reward by trying them.,人工神经网络基本模型,1. MP,模型,MP,模型属于一种阈值元件模型,它是由美国,Mc Culloch,和,Pitts,提出的最早神经元模型之一。,MP,模型是大多数神经网络模型的基础。,标准,MP,模型,w,ij,代表神经元,i,与神经元,j,之间的连接强度,(,模拟生物神经元之间突触连接强度,),,称之为连接权;,u,i,代表神经元,i,的活跃值,即神经元状态;,v,j,代表神经元,j,的输出,即是神经元,i,的一个输入;,i,代表神经元,i,的阈值。,函数,f,表达了神经元的输入输出特性。在,MP,模型中,,f,定义为阶跃函数:,如果把阈值,i,看作为一个特殊的权值,则可改写为,:,其中,,w,0i,-i,,,v,0,1,为用连续型的函数表达神经元的非线性变换能力,常采用,s,型函数,:,MP,模型在发表时并没有给出一个学习算法来调整神经元之间的连接权。但是,我们可以根据需要,采用一些常见的算法来调整神经元连接权,以达到学习目的。下面介绍的,Hebb,学习规则就是一个常见学习算法。,Hebb,学习规则,神经网络具有学习功能。对于人工神经网络而言,这种学习归结为神经元连接权的变化。调整,w,ij,的原则为:若第,i,和第,j,个神经元同时处于兴奋状态,则它们之间的连接应当加强,即:,w,ij,u,i,v,j,这一规则与“条件反射”学说一致,并已得到神经细胞学说的证实。,是表示学习速率的比例常数。,2,感知器模型,感知器是一种早期的神经网络模型,由美国学者于,1957,年提出,.,感知器中第一次引入了学习的概念,使人脑所具备的学习功能在基于符号处理的数学到了一定程度的模拟,所以引起了广泛的关注。,简单感知器,简单感知器模型实际上仍然是,MP,模型的结构,但是它通过采用监督学习来逐步增强模式划分的能力,达到所谓学习的目的。,其结构如下图所示,感知器处理单元对,n,个输入进行加权和操作即:,其中,,W,i,为第,i,个输入到处理单元的连接权值,为阈值。,f,取阶跃函数,.,感知器在形式上与,MP,模型差不多,它们之间的区别在于神经元间连接权的变化。感知器的连接权定义为可变的,这样感知器就被赋予了学习的特性。利用简单感知器可以实现逻辑代数中的一些运算。,Y=f(w,1,x,1,+w,2,x,2,-),(1)“,与”运算。当取,w,1,w,2,1,,,时,上式完成逻辑“与”的运算。,(2)“,或”运算,,当取,w,l,w,2,1,,,时,上式完成逻辑“或”的运算。,(3)“,非”运算,,当取,w,l,=-1,,,w,2,0,,,-1,时,完成逻辑“非”的运算。,与许多代数方程一样,上式也具有一定的几何意义。对于一个两输入的简单感知器,每个输入取值为,0,和,1,,如上面结出的逻辑运算,所有输入样本有四个,记为,(x1,,,x2),:,(0,,,0),,,(0,,,1),,,(1,,,0),,,(1,,,1),,构成了样本输入空间。例如,在二维平面上,对于“或”运算,各个样本的分布如下图所示。,直线,1 * x,1,+1 * x,2,- 0.5,0,将二维平面分为两部分,上部为激发区,(y,,,=1,,用表示,),,下部为抑制区,(y,0,,用表示,),。,Roseblatt,已经证明,如果两类模式是线性可分的(指存在一个超平面将它们分开),则算法一定收敛,.,可以把感知器看作是,n,维实例空间(即点空间)中的超平面决策面,.,对于超平面一侧的实例,感知器输出,1,,对于另一侧的实例,输出,-1.,基于神经网络的知识表示和推理,1,、基于神经网络的知识表示,基于神经网络系统中知识的表示方法与传统人工智能系统中所用的方法(如产生式、框架、语义网络等)完全不同,传统人工智能系统中所用的方法是知识的显式表示,而神经网络中的知识表示是一种隐式的表示方法。在这里,知识并不像产生式系统中独立地表示为每一条规则,而是将某一问题的若干知识在同一网络中表示。,例如,在有些神经网络系统中,知识是用神经网络所对应有向权图的邻接矩阵及阈值向量表示的。如对下图所示的异或逻辑的神经网络来说,其邻接矩阵为:,异或逻辑的神经网络表示,IF x,1,=0 AND x,2,=0 THEN y=0,IF x,1,=0 AND x,2,=1 THEN y=1,IF x,1,=1 AND x,2,=0 THEN y=1,IF x,1,=1 AND x,2,=1 THEN y=0,如果用产生工规则描述,则该网络代表下述的,4,条规则:,一般而言, ANN,与经典计算方法相比并非优越,只有当常规方法解决不了或效果不佳时,ANN,方法才能显示出其优越性。尤其对问题的机理不甚了解或不能用数学模型表示的系统,如故障诊断、特征提取和预测等问题, ANN,往往是最有利的工具。另一方面, ANN,对处理大量原始数据而不能用规则或公式描述的问题,表现出极大的灵活性和自适应性。,黑箱,下面讨论一个用于医疗诊断的例子。假设系统的诊断模型只有六种症状、两种疾病、三种治疗方案。对网络训练样本是选择一批合适的病人并从病历中采集如下信息:,(,1,)症状:对每一症状只采集有、无及没有记录这三种信息。,(,2,)疾病:对每一疾病也只采集有、无及没有记录这三种信息。,(,3,)治疗方案:对每一治疗方案只采集是否采用这两种信息。,其中,对“有”、“无”、“没有记录”分别用,+1,,,-1,,,0,表示。这样对每一个病人就可以构成一个训练样本。,假设根据症状、疾病及治疗方案间的因果关系以及通过训练本对网络的训练得到了下图所示的神经网络。,其中,x,1,x,2,,,x,6,为症状;,x,7, x,8,为疾病名;,x,9, x,10, x,11,为治疗方案;,x,a, x,b, x,c,是附加层,这是由 于学习算法的需要 而增加的。在此网络中,,x,1,,,x,2,,,x,6,是输入层;,x,9, x,10,x,11,是输出层;两者之间以疾病名作为中间层。,一个医疗诊断系统的神经网络模型,下面对图加以进一步说明:,a.,这是一个带有正负权值,w,ij,的前向网络,由,w,ij,可构成相应的学习矩阵。当,ij,时,,w,ij,=0,;当,ij,且节点,i,之间不存在连接孤时,,w,ij,也为,0,;其余,,w,ij,为图中连接弧上所标出的数据。这个学习矩阵可用来表示相应的神经网络。,b.,神经元取值为,+1,,,0,,,-1,,特性函数为一离散型的阈值函数,其计算公式为:,其中,,X,j,表示节点,j,输入的加权和;,x,j,为节点,j,的输出,为计算方便,式中增加了,w,0j,x,0,项,,x,0,的值为常数,1,,,w,0j,的值标在节点的圆圈中,它实际上是,-,,是节点,j,的阈值。,c.,图中连接弧上标出的,w,ij,值是根据一组训练样本,通过某种学习算法(如,BP,算法)对网络进行 训练得到的。这就是神经网络系统所进行的知识获取。,d.,由全体,w,ij,值及各种症状、疾病、治疗方案名所构成的集合形成了该疾病诊治系统的知识库。,2.,基于神经网络的推理,基于神经网络的推理是通过网络计算实现的。把用户提供的初始证据用作网络的输入,通过网络计算最终得到输出结果。,例如,对上面给出的诊治疾病的例子,若用户提供的证据是,x1=1,(即病人有 这个症状),,x2=x3= -1(,病人没有这个症状),有,0+21+,(,-2,),(,-1,),+3,(,-1,),=1,0,因此,该病人患的病是,x7,。,由上例可以看出网络推理的大致过程。一般来说,正向网络推理的步聚如下:,(1),把已知数据输入网络输入层的各个节点。,(2),利用 特性函数分别计算网络中各层的输出。计算中,前一层的输出作为后一层有关节点的输入,逐层进行计算 ,直至计算出输出层的输出值为止。,(3),用阈值函数对输出层的输出进行判定,从而得到输出结果。,
展开阅读全文