资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,第,3章,人工神经网络及模式识别,2024/9/22,2,3.1 引言,模式识别与,人工智能所研究的是如何用计算机实现入脑的一些功能。,一方面,从要实现的功能出发,将功能分解成子功能,直至设计出算法来实现这些子功能。这是自顶向下的分析方法,前面各章是这条思路的产物。,另一方面,入脑无论多么复杂,都可以看作是由大量神经元组成的巨大的神经网络。从神经元的基本功能出发,逐步从简单到复杂组成各种神经网络,研究它所能实现的功能,是自底向上的综合方法。,2024/9/22,3,人工神经网络研究的发展,1943年,McCulloch和Pitts提出了神经元的数学模型,1949年,Hebb提出神经元之间突触联系强度可变的假设,并据此提出神经元的学习准则,为神经网络的学习算法奠定了基础,50年代末,Rosenblatt提出了感知器模型,首次把神经网络的研究付诸工程实践。,1969年,,人工智能创始入之一的,Minsky和Papert出版了感知器,深,入分析了感知器的原理,指出其局限性。,1982年,Hopfield提出了神经网络模型,引,入了能量函数的概念,研究了其动力学性质,设计出用电子线路实现这一网络的方案,开拓了神经网络用于联想记忆和优化计算的新途径,大大促进了神经网络的研究。,1986年,Rumelhart及LeCun等学者提出了多层感知器的反向传播算法,克服了阻碍感知器模型发展的重要障碍。,2024/9/22,4,另一方面,,20世纪80年代以来,传统的基于符号处理的,人工智能在解决工程问题时遇到了许多困难。串行机尽管有很好的性能,但在解决像模式识别、学习等对入来说是轻而易举的问题上显得非常困难。这就促使入们怀疑当前的,VonNeumann机是否能解决智能问题,也促使,入们探索更接近入脑的计算模型,于是又形成了对神经网络研究的热潮。,现在神经网络的应用已渗透到多个领域,如智能控制、模式识别、信号处理、计算机视觉、优化计算、知识处理、生物医学工程等。,2024/9/22,5,3.2,人工神经元,生物神经元,图,典型的神经元构成示意图,2024/9/22,6,典型的神经元构成,胞体。,是神经细胞的本体,内有细胞核和细胞质,完成普通细胞的生存功能,树突。,有大量的分枝,长度较短,接受自其他神经元的信号,轴突。,它用以输出信号;较长的轴突被髓鞘包裹,以提高传导速度并减少相互干扰,相当于导线的绝缘层;轴突远端也有分枝,可与多个神经元连接。,突触。,它是一个神经元与另一个神经元相联系的特殊部位,通常是一个神经元轴突的端部靠化学接触或电接触将信号(兴奋)传递给下一个神经元的树突或胞体;对树突的突触多为兴奋性的,使下一个神经元兴奋,而对胞体的突触多为抑制性,其作用是阻止下一个神经元兴奋。,2024/9/22,7,神经元的基本工作机制,一个神经元有两种状态兴奋和抑制。,平时处于抑制状态的神经元,其树突和胞体接收其他神经元经由突触传来的兴奋电位,多个输,入在神经元中以代数和的方式叠加;,如果输入兴奋总量超过某个闹值,神经元就会被激发进入兴奋状态,发出输出脉冲,并由轴突的突触传递给其他神经元。,神经元被触发之后有一个不应期,在此期间内不能被触发,然后闽值逐渐下降,恢复兴奋性。,神经元是按照“全或无”的原则工作的,只有兴奋和抑制两种状态,但也不能认为神经元只能表达或传递二值逻辑信号。因为神经元兴奋时往往不是只发出一个脉冲,而是发出一串脉冲,如果把这一申脉冲看成是一个调频信号,脉冲的密度是可以表达连续量的。,2024/9/22,8,3.2.2,人工神经元,人工神经元模型与两种常见的输出函数,2024/9/22,9,图中的,n个输入,, 相当于其他神经元的输出值,,n个权值,相当于突触的连接强度,,f是一个非线性函数,例如阈值函数或Sigmoid函数, 是阈值。神经元的动作如下:,当,f为阈值函数时,其输出为:,或,2024/9/22,10,选取不同的输出函数,f,y的取值范围也不同,则,则,某些重要的学习算法要求输出函数,f可微,此时通常选用Sigmoid函数:,若,若,则,则,也可以选,2024/9/22,11,Sigmoid函数的特性:,非线性,单调性。,无限次可微。,当权值很大时可近似阑值函数。,当权值很小时可近似线性函数。,2024/9/22,12,如果神经元u,i,接收来自另一神经元u,j,的输出,则当这两个神经元同时兴奋时,从u,j,到u,i,的权值w,ij,就得到加强。,具体到前述的神经元模型,可以将Hebb规则表现为如下的算法:,式中 是对第i个权值的修正量,,是控制学习速度的系数。,神经元的学习算法- Hebb学习规则,2024/9/22,13,3.3 前馈神经网络及其主要算法,前馈神经网络,构成前馈网络的各神经元接受前一级输,入,并输出到下一级,无反馈,可用一有向无环图表示。,图的节点分为两类,即输入节点与计算单元。,每个计算单元可有任意个输入,但只有一个输出,而输出可藕合到任意多个其他节点的输入。,前馈网络通常分为不同的层,第,i层的输入只与第i-1层的输出相联,这里认为输入节点为第一层。,输入和输出节点由于可与外界相连,直接受环境影响,称为可见层,而其他的中间层则称为隐层,2024/9/22,14,3.3.2 感知器,感知器(,Pereceptron)是一种双层神经网络模型,一层为输入层,另一层具有计算单元,可以通过监督学习建立模式判别的能力。,学习的目标是通过改变权值使神经网络由给定的输入得到给定的输出。,感知器模型示意图,2024/9/22,15,作为分类器,可以用已知类别的模式向量或特征向量作为训练集,当输入为属于第,j类的特征向量X时,应使对应于该类的输出,,,而其他神经元的输出则为,0(或-1)。设理想的输出为,实际的输出,为了使实际的输出逼近理想输出,可以反复依次输入训练集中的向量,X,并计算出实际的输出 ,,对权值,作如下的修改:,其中,2024/9/22,16,感知器的学习过程与求取线性判别函数的过程是等价的,感知器的一些特性:,两层感知器只能用于解决线性可分问题。,学习过程收敛很快,且与初始值无关。,2024/9/22,17,3.3.3 三层前馈网络,利用,人工神经元的非线性特性,可以实现各种逻辑门。例如,,NAND(与非门)可用如图所示的阈值神经元实现,用感知器模型实现“与非”逻辑,2024/9/22,18,由于任何逻辑函数都可以由与非门组成,因此,,任何逻辑函数都可以用前馈网络实现。,单个闭值神经元可以实现任意多输,入的与、或及与非、或非门;由于任何逻辑函数都可以化为析取(或合取)形式所以任何逻辑函数都可用一个三层(只有两层计算单元)的前馈网络实现。,当神经元的输出函数为,Sigmoid函数时,上述结论可以推广到连续的非线性函数,在很宽松的条件下,三层前馈网络可以逼近任意的多元非线性函数,突破了二层前馈网络线性可分的限制。这种三层或三层以上的前馈网络通常又被叫做多层感知器(Multi-Layer,Perceptron简称MLP)。,2024/9/22,19,反向传播算法(BP法),三层前馈网络的适用范围大大超过二层前馈网络,但学习算法较为复杂,主要困难是中问的隐层不直接与外界连接,无法直接计算其误差。为解决这一问题,提出了反向传播,(Back-Propogation,简称BP)算法。,主要思想:,从后向前(反向)逐层传播输出层的误差,以间接算出隐层误差,。算法分为两个阶段:第一阶段(正向过程)输,入信息从输入层经隐层,逐层计算各单元的输出值,;第二阶段(反向传播过程)内输出误差逐,层向前算出隐层各单元的误差,并用此误差修正前层权值,。,2024/9/22,20,在反向传播算法中通常采用梯度法修正权值,为此要求输出函数可微,通常采用,Sigmoid函数作为输出函数。,不失一般性,我们研究处于某一层的第j个计算元,脚标i代表其前层第i个单元,脚标k代表后层第k个单元,Oj代表本层输出,wij是前层到本层的权值,如图所示,反向传播算法中的音量约定,2024/9/22,21,反向传播算法步骤,(,1)选定权系数初始值,(2)重复下述过程直至收敛(对各样本依次计算),从前向后各层计算各单元,对输出层计算,从后向前计算各隐层,计算并保存各权值修正量,修正权值,2024/9/22,22,反向传播算法解决了隐层权值修正问题,但它是用梯度法求非线性函数极值,因而,有可能陷,入局部极小点,不能保证收敛到全局极小点,。,二层前馈网络的收敛性不受初始值影响,各权值的初始值可以全设定为零;但三层以上的前馈网络(含有一个以上隐层)使用反向传播算法时,如果权值初始值都为零或都相同,隐层各单元不能出现差异,运算不能正常进行。因此,,通常用较小的随机数(例如,)作为权值初始值,。初始值对收敛有影响当计算不收敛时,可以改变初始值试算。,2024/9/22,23,参数,和,步长,对收敛性影响很大,而且对于不同的间题其最佳值相差也很大,通赏可在0.10.3之间试探,对于较复杂的问题应用较大的值。,惯性项系数,影响收敛速度,,在很多应用中其值可在0.91之间选择(比如0.95)时不收敛;有些情况下也可不用惯性项(即,=0)。,2024/9/22,24,输出层、输,入层、隐层,三层前馈网络的输出层与输,入层是由问题本身决定的。,例如,作为模式判别时输入单元数是特征维数,输出单元数是类数。但中间隐层的单元数如何确定则缺乏有效的方法。,一般来说,问题越复杂,需要的隐层单元越多;或者说同样的问题,隐层单元越多越容易收敛。但是隐层单元数过多会增加使用时的计算量,而且会产生“过学习”效果,使对未出现过的样本的推广能力变差。,2024/9/22,25,多类的模式识别问题,对于多类的模式识别问题来说,要求网络输出把特征空间划分成一些不同的类区(对应不同的类别),每一隐单元可形成一个超平面。,2024/9/22,26,隐层数,当隐层数难以确定时,可以先选较多的隐层单元数,待学习完成后,再逐步删除一些隐层单元,使网络更为精简。,删除的原则:可以考虑某一隐层单元的贡献。例如,其输出端各权值绝对值大小,或输,入端权向量是否与其他单元相近更直接的方法是,删除某个隐层单元,继续一段学习算法;如果网络性能明显变坏,则恢复原状,逐个测试各隐层单元的贡献,把不必要的删去。,2024/9/22,27,反向传播算法完全可以用于四层或更多层的前馈网络。,三层网络可以应付任何问题,但对于较复杂的问题,更多层的网络有可能获得更精简的结果。,遗憾的是,,反向传播算法直接用于多于三层的前馈网络时,陷入局部极小点而不收敛的可能性很大,。此时需要运用更多的先验知识减小搜索范围,或者找出一些原则来逐层构筑隐层。,2024/9/22,28,3.3.5 径向基函数网络,简称,RBF网络,其基本结构如图所示。,这种网络的特点是:只有一个隐层,隐层单元采用径向基函数作为其输出特性,,输入层到隐层之间的权值均固定为,1,;输出节点为线性求和单元,,隐层到输出节点之间的权值可调,,因此输出为隐层的加权求和。,2024/9/22,29,所谓径向基函数(Radial Basis Functlon简称RBF),就是,某种沿径向对称的标量函数,。通常定义为空间中任一点x到某一中心xc之间欧氏距离的单调函数,可记作 k(|x-xc|),其作用往往是局部的,即当x远离xc时函数取值很小。最常用的径向基函数是高斯核函数,形式为,其中xc为核函数中心,,为函数的宽度参数,控制了函数的径向作用范围。在RBF网络中,这两个参数往往是可调的,2024/9/22,30,RBF网络的作用,(,l)把网络看成对未知函数f(x)的逼近器。一般任何函数都可表示成一组基函数的加权和,这相当于用隐层单元的输出函数构成一组基函数来逼近f(x)。,(,2)在RBF网络中,从输,入层到隐层的基函数输出是一种非线性映射,而输出则是线胜的。这样,,RBF网络可以看成是首先将原始的非线性可分的特征空间变换到另一空间(通常是高维空间),通过合理选择这一变换使在新空间中原问题线性可分,然后用一个线性单元来解决问题。,2024/9/22,31,隐层基函数中心、方差,以及输出单元的权值,在典型的,RBF网络中有3组可调参数:,隐层基函数中心、方差,以及输出单元的权值,。这些参数的选择有,3种常见的方法:,(1),根据经验,选择函数中心。比如只要训练样本的分布能代表所给问题,可根据经验选定均匀分布的,M个中心,其间距为d,可选高斯核函数的方差为,2024/9/22,32,(2)用,聚类方法,选择基函数。可以各聚类中心作为核函数中心,而以各类样本的方差的某一函数作为各个基函数的宽度参数。,用(1)或(2)的方法选定了隐层基函数的参数后,因输出单元是线性单元,它的权值可以简单地用最小二乘法直接计算出来。,(3)将三组可调参数都通过训练样本用误差纠正算法求得。做法与BP方法类似,分别计算误差 对各组参数的偏导数(梯度),然后用,迭代求取参数,。,2024/9/22,33,竞争学习和侧抑制,前述前馈网络属于监督学习,需要同时提供输入样本和相应的理想输出。,引进竞争机制的前馈网络可以实现无监督学习,完成聚类的任务竞争学习网络的结构与二层前馈网络类似,只是在输出层加上了侧抑制,如图所示,。,竞争学习网络结构示意图,2024/9/22,34,侧抑制,侧抑制是,在输出层各单元之间相互用较大的负权值输入对方的输出,,这种互连构成正反馈,类似于双稳态或多稳态触发器。,竞争的结果是,具有较大输入的单元输出为,1,而其他单元的输出都为0。网络动作机制为:,2024/9/22,35,初始值及权向量的处理,学习时先用随机数作为权值初始值,为了防止某个输出单元的权值过大造成不应有的侧重,在初始值和整个学习过程中随时将权向量进行归一化处理,即,使得,2024/9/22,36,学习算法,当样本为归一化样本( )时,学习可按如下算法进行:,2024/9/22,37,注意的问题,首先是网络不可能收敛到修正量趋向于零的状态,因此可以采取强制收敛的方法,在学习过程中将步长参数缓慢减少至零。,其次是学习结果受初始值和学习样本顺序影响很大,聚类的结果未必是我们想要的结果,因此在实际应用时需要加入适当的,人工干预。例如先选择少量典型性好的样本作为权向量初始。,2024/9/22,38,3.5 自组织特征映射,入脑是由大量的神经元组成的,它们并非都起着同样的作用,处于空间不同部位的区域分工不同,各自对输入模式的不同特征敏感。,大脑中分布着大量的协同作用的神经元群体,同时大脑网络又是一个复杂的反馈系统,既包括局部反馈,也包括整体反馈及化学交互作用,聚类现象对于大脑的信息处理起着重要作用在大脑皮层中。,2024/9/22,39,神经元呈二维空间排列,其输入信号主要有两部分:一是来自感觉组织或其他区域的外部输,入信号;二是同一区域的反馈信号(如图示,),形成信息交互。,带有反馈的神经网络,2024/9/22,40,侧向交互,神经元之间的信息交互方式有很多种,然而邻近神经元之间的局部交互有一个共同的方式,就是侧向交互:最相近的“邻元”(约小于,)互相兴奋,较远的邻元(lmm2mm)互相抑制,更远的又是弱兴奋,这种局部交互形式可以形象地比喻为“墨西哥草帽”(如下图)。,邻近神经元之间的局部交互作用,2024/9/22,41,SOM网络,认为:神经网络中邻近的各个神经元通过侧向交互作用彼此相互竞争,自适应地发展成检测不同信号的特殊检测器,这就是自组织特征映射的含义,人工自组织映射与大脑映射有许多共同特险,通常又称作自组织映射神经网络或简称作,SOM网络。,2024/9/22,42,人工二维自组织映射网络结构,如图所示。总体连接与二层前馈网络相似,输入层的每一个单元 与输出层的每个相联。,自组织映射神经网络结构示意图,2024/9/22,43,式中,是输出单元,c与j之间在神经元平面上的距离,R是交互作用半径。,输出单元呈二维平面分布,单元之间的典型交互作用函数为简化“巴拿马草帽”(图,(a),。或者为更简单的矩形窗(图,(b),2024/9/22,44,自组织映射网络的学习算法,也是一种竞争学习算法,区别只是输出层具有几何分布,由交互作用函数取代了简单的侧抑制,因此其学习算法也是类似的当输,入样本均为归一化样本时,具体学习过程可以是:,(,1)用随机数设定权值初始值,并进行权向量归一化计算,在以后每次修正权向量之后也要进行归一化,使其满足,2024/9/22,45,(2)反复进行以下运算,直到达到预定学习次数或每次学习中权值改变量小于某一阈值。,输入一个样本计算各输出单元强度,找出主兴奋单元,使,确定各输出单元兴奋度,计算权值修正量 ,修正权值,进行归一化,必要时根据学习次数更新学习步长,和邻域交互作用半径R。,2024/9/22,46,学习过程可以采用从全局到局部的策略,此时在学习初期可设定较大的交互作用半径,R。例如,输出平面边长的一半,然后逐步缩小到适当的值,如,式中,L是输出平面边长,N是输,入向量维数。,学习策略,2024/9/22,47,样本向量的幅值中包含有分类信息时的学习算法,此时不能采用样本和权值归一化,可以用下面的算法进行学习:,(l)用小随机数初始化权值,(2)反复进行以下运算,直到达到预定次数或每次学习中权值改变量小于某一阈值。依次对各样本进行以下运算:,输入一个样本X,寻找最佳匹配节点C。如采用内积匹配,则C就是上面算法中的主兴奋单元;如果用距离匹配,则C为权值向量与输入样本向量距离最近的节点,即,(,为某种距离度量,),2024/9/22,48,确定邻域交互作用函数,计算各权值修正量,为X与 误差。修正各节点权值。,必要时根据学习次数更新学习步长,和邻域交互作用半径R。,2024/9/22,49,由于输出单元之间存在与几何位置有关的交互作用,学习完成之后,各输,入向量在输出平面上存在对应的兴奋点,而且兴奋点之间部分地满足一种关系,即相似的输入向量(在输入向量空间中夹角较小的)在输出平面上离得较近。此时的输出平面可以划分为若干个不同的区域,每个区域对应于一个类别,形同地图,故也称之为认知地图这种聚类的方法比简单的竞争网络更为细致,可以适应多种用途。,自适应特征映射是输入高维向量空间向二维平面的映射因此映射不是唯一的,学习结果与权值初始值和样本顺序有关。,2024/9/22,50,3.6 Hopfield网络,Hopfield网络是一种反馈网络,反馈网络的基本单元是与前馈网络类似的神经元,其特性可以是阈值函数或Sigmoid函数。,反馈网络的结构是单层的,各单元地位平等,每个神经元都可以与所有其他神经元连接。如果考虑一个二层前馈网络,其输出层与输,入层的神经元数相同,每一个输出都直接连接,反馈)到相对应的一个输,入上,该网络就等价于一个反馈网络入们通常把反馈网络看成动态系统,主要关心其随时间变化的动态过程。,2024/9/22,51,反馈网络具有一般非线性系统的许多性质,如稳定性问题、各种类型的吸引子以及混沌现象等,在某些情况下还有随机性、不可预测性因此比前馈网络的内容丰富得多我们可以从不同方面利用这些复杂的胜质以完成各种计算功能。,2024/9/22,52,Hopfield网络除了具有上述反馈网络的结构和性质之外,还满足以下条件:,(1),权值对称,,即,w,ij,=w,ji,,权矩阵为对称阵。,(2),无自反馈,,即,w,ii,=0,权矩阵W的对角线元素为0。,由于满足对称条件,Hopfield网络是稳定的,只有孤立吸引子。,2024/9/22,53,3.7 神经网络模式识别的典型做法,多层前馈网络用于模式识别,自组织网络用于模式识别,2024/9/22,54,多层前馈网络用于模式识别,在各种,人工神经网络模型中,在模式识别中应用最多的也是最成功的当数多层前馈网络,其中又以采用,BP学习算法的多层感知器(习惯上也简称为BP网络)为代表。,由于网络采用的是监督学习方式进行训练,因此只能用于监督模式识别间题一般有以下两种应用方式:,1、,多输出型,2、,单输出型,2024/9/22,55,多输出型,网络的每一个输入节点对应样本一个特征,而输出层节点数等于类别数,一个输出节点对应一个类在训练阶段,如果输入训练样本的类别标号是,i,则训练时的期望输出设为第i个节点为1,而其余输出节点均为0。,在识别阶段,当一个未知类别的样本作用到输入端时,考查各输出节点的输出,并将这个祥本的类别判定为与输出值最大的那个节点对应的类别在某些情况下,如果输出最大的节点与其他节点输出的差距较小(小于某个域值),则可以作出拒绝决策。这是用多层感知器进行模式识别的最基本方式。,实际上,多输出型神经网络还可以有很多其他的形式。更一般地,网络可以有m个输出节点,用它们的某种编码来代表C个类别。上面这种方式只是其中的一个特例,有,入把它称为“,1-0”编码模式或者“C中取1”模式。,2024/9/22,56,单输出型,很多实验表明在多输出方式中,由于网络要同时适应所有类别,势必需要更多的隐层节点而且学习过程往往收敛较慢,此时可以采用多个多输,入单输出形式的网络、让每个网络只完成识别两类分类,即判断样本是否属于某个类别这样可以克眼类别之间的期合,经常可以得到更好的结果。,2024/9/22,57,具体作法是网络的每一个输入节点对应样本一个特征而输出层节点只有一个。为每个类建立一个这样的网络(网络的隐层节点数可以不同)对每一类进行分别训练,将竭于这一类的样不的期望输出设为,1,而把属于其他类的样本的期望输出设为0,在识别阶段,将未知类别的样本输入到每一个网络,如果某个网络的输出接近1(或大于某个域值比如0.5),则判断该样本属于这一类;而如果有多个网络的输出均大于域值,则或者将类别判断为其有最大输出的那一类,或者作出拒绝;当所有网络的输出均小于域值时也可采取类似的决策方法。,2024/9/22,58,显然,在两类倩况下,我们只需要一个单输出网络即可。将一类对应于输出,1,另一类对应于输出0。识别时只要输出大干则决策为第一类,否则决策为第二类或者也可以在两类之间设定一个域值,当输出在这个域值之间时作拒绝决策。,2024/9/22,59,自组织网络用于模式识别,自组织神经网络可以较好地完成聚类的任务,其中每一个神经元节点对应一个聚类中心。,与普通聚类算法不同的是,所得的聚类之间仍保持一定的关系,就是在自组织网络节点平面上相邻或相隔较近的节点对应的类别,它们之间的相似性要比相隔较远的类别之间大。因此可以根据各个类别在节点平面上的相对位置进行类别的合并和类别之间关系的分析。,2024/9/22,60,Kohonen:芬兰语语音识别,将取自芬兰语各种基本语音的各个样本按一定顺序轮流输,入到一个自组织网络中进行学习,经过足够次数的学习后这些样本逐渐在网络节点中形成确定的映射关系,即每个样本都映射到各自固定的一个节点(在这个样本作输入时,该节点为最佳匹配节点或具有最大输出),而映射到同一节点的样本就可以看作是一个聚类。,学习完成后,发现不但同一聚类中的样本来自同一音素,而且相邻节点对应的聚类中的样本往往来自相同或相近发音的音素。,这样,把各个聚类对应的发音标到相应的节点上,就得到了如图所示的结果。,2024/9/22,61,芬兰语音素在自组织映射网络上形成的映射,2024/9/22,62,在识别时,对于新的输,入样本,将其识别为它映射到的节点所标的发音即可。,这种做法实际上是,在非监督学习的基础上进行监督模式识别,。,其最大的优点就是,最终的各个相邻聚类之间是有相似关系的,即使识别时把样本映射到了一个错误的节点,它也倾向于被识别成同一个音素或者一个发音相近的音素,这就十分接近,入的识别特性。,2024/9/22,63,前馈神经网络与统计模式识别的关系,神经网络与传统的统计模式识别在很多方面是相联系的,这种联系不但在于它们都是试图从样本数据出发完成模式识别问题,更重要的是它们在方法上具有一定的等价关系。,单层的感知器模型实际上就是一种线性分类器,多层感知器则可看作它的某种非线性推广和发展:自组织映射网络如果使其邻域交互作用设为零则等价于,C均值聚类算法。,它们之间的这些关系已经成为近年来,入们广泛研究的方向之一,其中研究最多也是最有成果的就是前馈型神经网络与统计模式识别的关系。,2024/9/22,64,隐层的特征提取作用,多层前馈神经网络能较好地完成模式识别任务的一个重要原因是,神经网络能够实现一种特殊的非线性变换,把输入空间变换到由其隐层输出所张成的空间,使在这个空间中分类间题变得比较容易。,这种变换把一种特殊的特征提取准则最大化,可以看作是,Fisher线性判别的一种非线性多维推广。,2024/9/22,65,神经网络与贝叶斯分类器,理论分析和实验结果表明,很多情况下多层感知器的输出可以看作是对贝叶斯后验概率的估计。,如果这个估计比较精确,则神经网络的输出值可以看作是概率,它们的总和将为,1。,比如可以证明,当网络输出采用“C中取1”的类别编码,并且采用最小均方误差作为训练目标时,多层感知器的输出就是对贝叶斯后验概率的估计。,估计的精度受网络的复杂程度、训练样本数、训练样本反映真实分布的程度及类别先验概率等多种因素影响。得到这些结论不但有利于我们掌握神经网络与统计模式识别的内在联系,而且将网络输出看作类别后验概率,有利于实际应用中在神经网络之后采取其它的后续决策方法。,2024/9/22,66,两类情况下的讨论,设网络有,d个输入节点,输入向量 ;,两类情况,网络可以只有一个输出节点,记其输出为f(x,w),其中w表示网络的所有权值。,输出编码为:样本如果属于w1,则期望输出d=1,如果属于w2,则期望输出d=0。,设训练样本集合为x,其中属于w1类和w2类的样本的集合分别为X1和X2,则训练的均方误差为:,2024/9/22,67,把样本,x看作是随机变量,其概率密度函数为p(x),设两类的先验概率分别为P(w1)和P(w2),p(x|wi),i=1,2是两类样本的类条件概率密度,P(wi|x)是样本x属于wi的后验概率。,设训练样本数为无穷大,且它们的分布反映真实的概率分布,由上面的均方误差函数就成为,2024/9/22,68,进一步处理后可得:,其中,由于式中的后一项与权值w无关,因此最小化式E,a,的均方误差等价于最小化式,e,2,(w)。,它是网络输出与样本后验概率之间的平方误差在所有可能样本上的数学期望。,因此我们得出结论:当训练样本无穷多时以使均方误差最小为目标训练的神经网络的输出在统计意义上是对样本后验概率的最小均方误差估计。,2024/9/22,69,但是,目前为止,对网络输出在什么条件下能够逼近后验概率,即在什么条件下,e,2,(w)趋近于0不得而知,只是在一些特殊的清况下有一些结论。,比如:对于同样的两类倩况,如果样本服从n维空间的正态分布,对一个拥有至少2n个隐层节点、隐层和输出层神经元均采用Sigmoid函数的三层神经网络,它的输,入输出关系在统计意义上是对第一类后验概率密度函数的估计;,进一步,当样本数无穷大时,若训练过程理想,即均方误差收敛到了其下确界),则网络的输入输出函数将趋近于第一类的后验概率密度。,
展开阅读全文