前向多层人工神经网络01

上传人:cel****460 文档编号:243349738 上传时间:2024-09-21 格式:PPT 页数:30 大小:959.50KB
返回 下载 相关 举报
前向多层人工神经网络01_第1页
第1页 / 共30页
前向多层人工神经网络01_第2页
第2页 / 共30页
前向多层人工神经网络01_第3页
第3页 / 共30页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第,*,页,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,前向多层人工神经网络01,2024/9/21,第,2,页,模式识别,举例:水果分级系统。,水果品质参数:重量、大小、比重、果形、颜色等,特征矢量,:,X,= ,x,1,x,2,x,3,x,4,x,5,T,特征空间,:,用参数张成。,模式,:,每个苹果为一个模式,其特征矢量,为特征空间中的一个点;,模式类,:,一个级别为一个类,一类模式分,布在特征空间的某个特定区域;,模式识别,:,找出各类之间的分界面。,2024/9/21,第,3,页,ANN,的主要功能之二,联想,( Associative Memory ),联想的心理学定义:,当一个事物的表象被激活时,也就是说该表象所包含的若干属性单元同时有效时,我们的注意力焦点就集中在这个表象上,如果对该表象的处理使的表象被否决时,也就是说由于一些属性单元的失效(或被抑制,或处于高阻),导致该表象无法成立的时候,剩余的属性单元或许可以构成另一种事物的表象,或许还需要结合那些被激活了的新的属性(或是由外界事物具有的新的属性所激活,或是因降低了对一些属性的抑制所导致的激活)。,例如:看到柠檬,感觉到嘴里口水增多。因为,由柠檬联想到了酸味。,字符识别:,2024/9/21,第,4,页,再论模式识别:,对表征事物或现象的各种形式的(数值的、文字的或逻辑的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程称为,“,模式识别,”,,是信息科学和人工智能的重要组成部分。,人在分辨不同类别的事物时,抽取了,同类事物之间的相同点,以及,不同类事物之间的不同点,;,字符识别,:,例如汉字,“,中,”,可以有各种写法,但都属于同一类别。更为重要的是,即使对于某个,“,中,”,的具体写法从未见过,也能把它分到,“,中,”,这一类别。,识别目标,:,人们走向一个目的地的时候,总是在不断的观察周围的景物,判断所选择的路线是否正确。实际上,是对眼睛看到的图象做,“,正确,”,和,“,不正确,”,的分类判断。,人脑的这种思维能力就构成了,“,模式,”,的概念和,“,模式识别,”,的过程。,模式是和类别(集合)的概念分不开的,只要认识这个集合的有限数量的事物或现象,就可以识别这个集合中的任意多的事物或现象。为了强调能从具体的事物或现象中推断出总体,我们就把个别的事物或现象称作,“,模式,”,,而把总体称作类别或范畴。,特征矢量,:,最简单的情况是用一组称为“,特征参数,”的数值信息表示一个客观对象。例如,水果品质分类中用到的大小、重量、比重、果型、颜色,其取值均为数值。表示成,特征矢量,形式:,X,i,=,x,i,1,x,i,2,x,i,3,x,i,4,x,i,5,;,样本,:,对一个具体对象进行观测得到的一个,特征矢量,称为一个“,样本,”,,,X,i,称为第,i,个样本,或者第,i,个样本的特征矢量。,特征空间,:,即特征矢量张成的空间,每个样本对应于特征空间上的一点。,针对一个具体的模式识别问题,选定特征参数非常重要,关乎模式识别的成败。著名国际大师,傅京孙,教授曾说过模式识别问题的关键是特征提取。特征参数应能区分所定义的模式,同时有没有过多的重复,即:完备而不冗余。选定特征参数的过程称“为特征提取”。特征提取没有统一的方法,事实上,特征提取是一个不同专业领域范畴内的问题。正因为如此,模式识别应用问题往往是跨专业领域的工程。,傅京孙,(19301985),丽水县城人。,1954,年毕业于台湾大学,电机系,获学士学位,后留学加拿大多伦多大学获,应用科学,硕士学位,,1956,年转入美国伊利诺斯大学,获博士学位。,1961,年起任美国普渡大学,电机工程,系助教、副教授、教授,加州大学柏克莱分校及斯坦福大学访问教授。,1971,年起当选为美国,电机工程学会,荣誉会员。同年得顾根汉基金研究奖助金。,1975,年起任普渡大学高斯工程讲座教授。以后开设,概率论,,创立,图形识别科学,,,影像处理,及其在,遥测、医学方面的应用,,曾任第一届国际,图形识别会议主席,。,1976,年当选为美国国家工程学院院士,获得麦考艾科学贡献奖。,1977,年获得美国,计算机学会,杰出论文奖。,1978,年任台湾“中央研究院”院士。,2024/9/21,第,5,页,模式类:,特征参数选择合理时,不同类的模式,在特征空间中占据不同的分布区域;,模式识别所要做的事情,包含两个方面:,在不同类别样本点集之间,寻找合理的分界面,或称作“判别函数(,Decision Function,)”,因为判别函数来自于实际观测数据,因此称此阶段为 “学习” 或 “训练” ;,给定未知模式,判断该样本所属类别,称为“工作”或“应用”。,特征选择的好坏是模式识别成败的关键,但如何选择“特征”,即,选择什么物理量作为特征,是具体专业“领域”的问题,需要运用“领域”的专业知识来解决。,例如,语音识别,如何从自然语音中提取“特征”,是语音识别的专业问题;图象识别,如何从,CCD,图象获取适当的特征,是图象处理领域的问题,即使在图象处理领域,不同应用目的所取的特征也不同。,模式识别的全过程,应该包括特征提取阶段。但是,我们这里将要讲到的有关智能方法,都只涉及到特征提取之后的工作。,以上所说的,“,学习,”,或,“,训练,”,,是根据若干已知样本在空间找到合适的分类面。对于一个样本,X,i,,,用,y,i,表示它所属的类别,例如,它属于第,k,类,。样本,已知,,意思是,X,i,,,y,i,已知。这种,“,学习,”,又称为,“,有监督,”,学习,即,,通过对已知样本,X,i,,,y,i,的学习找到合理的判别函数。,所谓,“,工作,”,,指的是给定类别未知的,样本,X,i,,求,y,i,的值。,X,i,是对某个客观对象观测的结果,,其取值无法事先限定。,但类别,y,i,的取值,是离散的、有限的,,是事先,主观规定的。,2024/9/21,第,6,页,神经元模型,神经元的输入:,所完成的运算为:,式中:,称为神经元的“,权值矢量,”;,称为神经元的“,功能函数,”;,称为神经元的“,净输入,”;,称为神经元的“,输出,”;,称为神经元的“,阈值,”;,2024/9/21,第,7,页,常用的神经元功能函数类型,线性函数,又称为“恒同函数”,硬限幅函数,S,函数,(Sigmoid),f,s,取值于,0,1,之间。,2024/9/21,第,8,页,前项人工神经网络的拓扑结构,前层的输出作为后层的输入;,各层的神经元个数可以不同;,层数两层以上,目前大多为,3,层;,输入矢量,X,代表从客观对象观测得到的特征;输出层包含一个或多个神经元,用于表达更为复杂的运算结果;,同层神经元不能连接,后层不能向前层反向连接;,连接强度(即,权值大小)可以为,0,,强度为,0,实际上就是没有连接;,2024/9/21,第,9,页,2.2,采用硬限幅函数时单个神经元的分类功能,线性可分性,( Linear Separable,),设有,C,0,和,C,1,两类模式,R,0,:,C,0,类模式的样本集;,R,1,:,C,1,类模式的样本集;,分类的第一步,:,在两类样本分布区域之间寻找一个分类函数(分类线、面)使得两类样本各处在一边;,实现这一目标的过程,称为,“,学习,”,或,“,训练,”,,所用到的计算策略称为,“,学习算法,”,;,样本集合,R,0,和,R,1,称为,学习样本,集合。,分类的第二步,:,当获得了分类函数,l,以后,就可以进入工作阶段了。任给未知模式,X,,若它位于,R0,一侧,则判定其为,C0,类;若它位于,R1,一侧,则判定其为,C1,类;若它落在分类线,l,上,则不可识别。,给定两类,C,0,和,C,1,的学习样本集合,R,0,和,R,1,,若存在线性分类函数(直线、平面、超平面),l,,将两类学习样本无误差地分开,则称该分类问题为“,线性可分问题,”。,2024/9/21,第,10,页,假设,二维分类问题的分类函数为,l,:,任给样本,X,= ,x,1,x,2,,,l,应该满足:,令:,则模式识别,问题可以表达成:,把 看作权值, 看作阈值,用一个神经元来表示以上二维分类问题,则:,任意输入一个模式,X,,,若,X,属于,C,0,则,y,= 1,;,若,X,属于,C,1,则,y,= 0,;,其中:,X,=,x,1,x,2,是任意样本,,W,=,w,0,w,1,是权值矢量。,W,T,.,X,q,=,w,0.,x,0,+,w,1.,x,1,q,=0,是直线的矢量方程,若,W,为单位矢量,即:,w,0,2,+,w,1,2,= 1,则,q,的意义如图所示。,2024/9/21,第,11,页,学习算法,将输入矢量,X,和权矢量,W,作如下扩张:,神经元模型成为:,(2-7),学习的目的,就是要找到权矢量,W,。对于前面的例子,就是寻找能够无误差分开两类样本的直线参数,w,0,w,1,q,。,学习是针对给定的学习样本集合进行的,不同的样本集合可以得到不同的学习结果。对于两类可分问题,能够无误差地分开学习样本的结果都是正确的。,2024/9/21,第,12,页,设二维分类问题,有学习样本:,其中,训练样本,k,;,训练样本的值;,起初,我们随意指定一个权矢量:,这相当于在特征空间上随意画了一条线。向神经元输入一个样本,X(,k,),,用,y,(,k,),表示得到的输出,显然,y,(,k,),不一定等于,X(,k,),的实际类别值,d,(,k,),,令:,若,f,h,为硬限幅函数,,则必有:,(2-29),2024/9/21,第,13,页,学习算法,:,为了找到正确的,W,,依次向神经元输入学习样本,X(,k,),,,k,= 0, 1, 2, ,,并且依照误差,e,(,k,),的正负来修正,W,:,式中,a,称为“,步幅,”,用来控制每次调整的步长。如此不断重复,,W,(,k,),随着迭代次数,k,的增加,逐渐趋于正确答案。,( 2-7 ),若输出,y,(,k,),与样本类别值,d,(,k,),相同,即, 则,:,W,(,k,+1)=,W,(,k,),,,不调整,W,。,若输出,y,(,k,),与样本类别值,d,(,k,),不同,即, 则,:,W,根据,e,(,k,),的正负被调整;,2024/9/21,第,14,页,算法的几何原理:,为直观起见,设:理想分类线过原点,即: ,阈值,q,为,0,。,训练样本:,权值矢量:,由直线方程可知,,W(,k,),是直线,l,的法线 ,即,:,若,,X,恰好位于,l,上,则:,若,,X,a,位于,l,上方,则:,若,,X,b,位于,l,下方,则:,2024/9/21,第,15,页,假设已经输入了,k,个样本,运行到了第,k,步,当前的权值,W(,k,),。假设,输入,X(,k,),得到,y,(,k,)=1,,但给定的,X(,k,),属于,C,1,类,即,,d,(,k,) = 0,,,则:,于是,有:,可见,分类线,l,得到了合理的调整。,再假设,接下来输入的,X(,k,+1),属于,C,0,类,即,d,(,k,) = 1,,被错分为,C1,类,即, 由,X(,k,+1),和,W(,k,+1),计算得到,y,(,k,+1)=0,:,于是,有:,错把,C1,当,C0,;,2024/9/21,第,16,页,2.3,线性函数神经元的最小二乘分类算法,线性不可分,在误差最小的前提下,寻找分类函数,给定样本集:,其中,2024/9/21,第,17,页,采用线性函数的神经元,即:,输入样本矢量:,权值矢量:,神经元完成的运算为:,判别规则:,注意到,理想值为:,对于权矢量,W,的某个具体取值,其误差定义为:,学习的目的是,针对所有学习样本,寻找,x,最小的,W,取值,它即为误差最小的分类函数。,(2-10),2024/9/21,第,18,页,设学习样本集,(,X,0,d,0,),,,(X,1,d,1,),,,,,(X,K,-1,d,K,-1,),, 则,x,的估计为:,以,x,最小为目标的优化过程,统称为“最小二乘法,( Least Mean Square )”,。 显然,样本的分布给定后,x,是权矢量,W,的函数,即:,x,=,x,(W),;,首先需要证明,存在,W*,使得,x,min,=,x,(W*),成立。由于是线性函数,所以,神经元的输出可以写成:,(2-11),代入,(2-10),得到:,(2-12),2024/9/21,第,19,页,用下列符号代表式中一些参量:,为了简化,我们考虑二维并且阈值,q,= 0,的情况,有:,(2-13),(2-14),显然,,R,是随机矢量,X,的相关矩阵,它是一个,对称矩阵,,且,正定,。,将以上符号代入,(2-12),,得到:,(2-15),2024/9/21,第,20,页,显然,,若存,W*,在,使得,x,min,=,x,(W*),成立。并且,在,W*,点上,x,关于,W,的所有元素,w,0,w,1, ,(,二维情况下只有,w,0,和,w,1,),的偏导数都为,0,,,或者,说,x,关于矢量,W,的梯度在,W*,点为零矢量。即,对,(2-15),求梯度得到:,(2-16),或用多元函数微分求梯度,重写误差公式:,2024/9/21,第,21,页,令:,注意到,,R,是正定的,它的逆存在,于是,得到:,(2-17),代回,(2.15),式可以得到最小误差平方和:,(2-18),命题得证,并且找到了最佳的,W,:,解,(2-17),式即可得到,W*,。但,这还不是,我们想要的学习,算法,为了,实现自适应学习,必须找到求解,W*,的迭代算法。,2024/9/21,第,22,页,LMS,学习问题的最陡梯度算法,k,表示迭代学习过程的序号;,p,= 0, 1, 2, ,表示样本序号,,X,p,(,k,),表示当前一轮迭代时的第,p,个输入的学习样本,即,第,k,步的第,p,个样本。,定义误差平方和为:,(2-38),当两类样本的分布不变时(统计意义上),,J(,k,),是,W,的函数。,LMS,学习的最陡梯度法就是以,J(,k,),为目标函数,寻找使得,J(,k,),最小的权值矢量,W,。,W(k),表示迭代学习第,k,步时的权值矢量,,d,p,(,k,),和,y,p,(,k,),分别为输入学习样本,X,p,(,k,),的实际类别值,(,d,p,取,+1,或,1,),和当前神经元的,输出,(,-,1,y,p, 0,,将此结果代入到,(2-40),,得到:,此结果说明,按照学习算法: 迭代求最佳的,W,,每一步都在向着,J(k),减小的方向前行,而,J(k),是有界的,因此,必然可以达到最小点。这说明了算法的正确性。,2024/9/21,第,26,页,实用的梯度算法,这里所采用的线性函数神经元的输出为:,所以误差公式可以写成:,于是:,对误差平方和取,w,0,和,w,1,的偏导数:,(2-43),代入,(2-43),式得到:,2024/9/21,第,27,页,二维情况下,W,的增量,(2-41),式重写如下:,已经得到的结果代入,得到:,(2-44),迭代算法中权值的修改公式为:,(2-45),2024/9/21,第,28,页,最陡梯度法的算法流程:,2024/9/21,第,29,页,实验:线性神经元两类分类,CH2e1hard,:两类可分、硬限幅函数;,CH2e2LMS2dim3s,:分类线过原点的,2,维两类可分样本的分类;,CH2e3LMS2dim2u:,分类线过原点的,2,维两类不可分样本的分类;,CH2e4LMS2dim3u:,分类线不过原点的,2,维两类不可分样本的分类;,误差只有最小,没有,0,。即使完全分正确了,误差也不会为,0,。,原因是,理想分类函数值为,1,或,-1,,而实际计算的误差是样本,X,和,W,的内积,不同的,X,不可能得到同样内积。因此,误差始终存在。,误差最小时,对应于分类线处于样本中心连线的平分线上,此时,每个样本的“矩”之和最小,必然也是误差最小点。从这个意义上讲,这种算法得到的分类函数,是“最优”的。,谢谢!,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 压缩资料 > 基础医学


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!