人工神经网络SVM深度学习简介课件

上传人:2127513****773577... 文档编号:246748840 上传时间:2024-10-15 格式:PPT 页数:59 大小:4.95MB
返回 下载 相关 举报
人工神经网络SVM深度学习简介课件_第1页
第1页 / 共59页
人工神经网络SVM深度学习简介课件_第2页
第2页 / 共59页
人工神经网络SVM深度学习简介课件_第3页
第3页 / 共59页
点击查看更多>>
资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,神经网络及,SVM,简介,以冯,诺依曼型计算机为中心的信息处理技术的高速发展,使得计算机在当今的信息化社会中起着十分重要的作用。但是,当用它来解决某些人工智能问题时却遇到了很大的困难。,例如,一个人可以很容易地识别他人的脸孔,但计算机则很难做到这一点。,大脑是由生物神经元构成的巨型网络,它在本质上不同于计算机,是一种大规模的并行处理系统,它具有学习、联想记忆、综合等能力,并有巧妙的信息处理方法。,人工神经网络来源于对人脑实际神经网络的模拟,一、 神经网络发展历史,背景知识,人脑和,CPU,神经细胞利用电,-,化学过程交换信号。输入信号来自另一些神经细胞。这些神经细胞的轴突末梢(也就是终端)和本神经细胞的树突相遇形成突触(,synapse,),信号就从树突上的突触进入本细胞。信号在大脑中实际怎样传输是一个相当复杂的过程,但就我们而言,重要的是把它看成和现代的计算机一样,利用一系列的,0,和,1,来进行操作。就是说,大脑的神经细胞也只有两种状态:兴奋(,fire,)和不兴奋(即抑制)。发射信号的强度不变,变化的仅仅是频率。神经细胞利用一种我们还不知道的方法,把所有从树突上突触进来的信号进行相加,如果全部信号的总和超过某个阀值,就会激发神经细胞进入兴奋(,fire,)状态,这时就会有一个电信号通过轴突发送出去给其他神经细胞。如果信号总和没有达到阀值,神经细胞就不会兴奋起来。,人脑和,CPU,动 物,神经细胞的数目(数量级),蜗 牛,10,000,(,=104,),蜜 蜂,100,000,(,=105,),蜂 雀,10,000,000,(,=107,),老 鼠,100,000,000,(,=108,),人 类,10,000,000,000,(,=1010,),大 象,100,000,000,000,(,=1011,),人脑和,CPU,CPU,只具备一个功能 就是二进制加法运算,人脑的特点,对损伤有冗余性,(tolerance,),能实现无监督的学习,处理信息的效率极高,善于归纳,推广,CPU i7 3.0,Ghz,,,4,个核,人脑,100hz,,,10G,个核,人工神经网络,一个人工神经网络(Artificial neural network,简称ANN)就是要在当代数字计算机现有规模的约束下,来模拟这种大量的并行性,并在实现这一工作时,使它能显示许多和生物学大脑相类似的特性。,人工神经网络(,Artificial Neural Netwroks,,简称,ANN,)是对人类大脑系统的一种仿真,简单地讲,它是一个数学模型,可以用电子线路来实现,也可以用计算机程序来模拟,是人工智能研究的一种方法。,实际上它是由大量的、功能比较简单的形式神经元互相连接而构成的复杂网络系统,用它可以模拟大脑的许多基本功能和简单的思维方式。尽管它还不是大脑的完美元缺的模型,但它可以通过学习来获取外部的知识并存贮在网络内,可以解决计算机不易处理的难题,特别是,语音和图像的识别、理解、知识的处理、组合优化计算和智能控制等,一系列本质上是非计算的问题。,2,什么是人工神经网络,1943,年,美国心理学家,W.McCulloch,和数学家,W.Pitts,在提出了一个简单的神经元模型,即,MP,模型。,1958,年,,F.Rosenblatt,等研制出了,感知机,(Perceptron,),。,3,几个发展阶段,第一次热潮,(40-60,年代未,),1982,年,美国物理学家,J.J.Hopfield,提出,Hopfield,模型,,它是一个互联的非线性动力学网络他解决问题的方法是一种反复运算的动态过程,这是符号逻辑处理方法所不具备的性质,. 1987,年首届国际,ANN,大会在圣地亚哥召开,国际,ANN,联合会成立,创办了多种,ANN,国际刊物。,1990,年,12,月,北京召开首届学术会议。,低潮,(70-80,年代初,),第二次热潮,第三次热潮,GPU,大数据 新方法 深度学习理论,学习的类型,人工神经网络,人工神经元模型,x,1,x,n,表示与该神经元相连接的所有神经元的输入(出),w,1,w,n,表示与相连接神经元的突触强度(连接权),表示神经元的(电压)阈值。,f ( ),表示,激励函数,单调上升函数,且取有限值,神经元电位值:,神经元的输出值:,y,=,f,(,s,),f ( ),.,.,.,y,s,人工神经网络,激励函数的基本作用,控制输入对输出的激活;,对输入、输出进行函数转换;,将可能无限域的输入变换成指定的有限范围内的输出。,激励函数类型,阈值函数,线性函数,非线性函数,Sigmoid函数,人工神经网络,Sigmoid,函数,就是,把神经细胞原有的阶跃式输出曲线钝化为一光滑曲线,S,型函数具有非线性放大系数功能,可以把输入从负无穷大到正无穷大的信号,变换成,-1,到,l,之间输出,对较大的输入信号,放大系数较小;而对较小的输入信号,放大系数则较大,采用,S,型激活函数可以处理和逼近非线性输入,/,输出关系,BP,神经网络,BP,神经网络,计算,BP,神经网络,Rumelhart,,,McClelland,于,1985,年提出了,BP,网络的误差反向后传,BP(Back Propagation),学习算法,BP,神经网络是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。它的学习规则是使用最速下降法,通过反向传播来不断调整网络的权值和阈值,使网络的误差平方和最小。,J. McClelland,David,Rumelhart,学习规则,BP,算法属于,算法,是一种监督式的学习算法,主要思想,对于,q,个输入学习样本:,P,1,P,2,P,q,,已知与其对应的输出样本为:,T,1,T,2,T,q,使网络输出层的误差平方和达到最小,用网络的实际输出,A,1,A,2,A,q,与目标矢量,T,1,T,2,T,q,之间的误差修改其权值,使,A,m,与期望的,T,m,(,m,l,q,),尽可能接近,2024/10/15,18,学习规则,BP,算法是由两部分组成,信息的正向传递与误差的反向传播,正向传播过程中,输入信息从输入层经隐含层逐层计算传向输出层,每一层神经元的状态只影响下一层神经元的状态,如果在输出层未得到期望的输出,则计算输出层的误差变化值,然后转向反向传播,通过网络将误差信号沿原来的连接通路反传回来修改各层神经元的权值直至达到期望目标,2024/10/15,19,一般认为,增加隐层数可以降低网络误差(也有文献认为不一定能有效降低),提高精度,但也使网络复杂化,从而增加了网络的训练时间和出现“过拟合”现象。,Hornik,等早已证明:若输入层和输出层采用线性转换函数,隐层采用,Sigmoid,转换函数,则含一个隐层的,MLP,网络能够以任意精度逼近任何有理函数。显然,这是一个存在性结论。在设计,BP,网络时可参考这一点,,应优先考虑,3,层,BP,网络(即有,1,个隐层)。,一般地,靠增加隐层节点数来获得较低的误差,其训练效果要比增加隐层数更容易实现。,隐,层数,多少隐层数才合适?,隐层节点数,在,BP,网络中,隐层节点数的选择非常重要,它不仅对建立的神经网络模型的性能影响很大,而且是训练时出现“过拟合”的直接原因,,但是目前理论上还没有一种科学的和普遍的确定方法。,目前多数文献中提出的确定隐层节点数的计算公式都是针对训练样本任意多的情况。,事实上,各种计算公式得到的隐层节点数有时相差几倍甚至上百倍。确定隐层节点数的最基本原则是:在满足精度要求的前提下取尽可能紧凑的结构,即取尽可能少的隐层节点数。,研究表明,隐层节点数不仅与输入,/,输出层的节点数有关,更与需解决的问题的复杂程度和转换函数的型式以及样本数据的特性等因素有关。,应用,实例,net = newff ( A, B, C, trainfun ),Matlab,命令,A,是一个,n, 2,的矩阵,第,i,行元素为输入信号,x,i,的,最,小值和最大值,;,参数说明,B,为一,k,维行向量,其元素为各,隐层节点数,;,trainfun,为学习规则采用的,训练函数,(常见训练函数如下,表)。,C,为一,k,维字符串行向量,每一分量为对应层神经元的,激,励函数,;,函数名,功能,函数名,traingd,梯度下降法,traincgf,traingdm,势能修正法,traincgp,traingdx,自调整学习效率法,traincgb,trainrp,恢复,BP,法,trainscg,FR,共轭梯度法,trainbfg,BFGS,拟牛顿法,PR,共轭梯度法,trainoss,一步共轭,+,拟牛顿,PB,共轭梯度法,trainlm,LM,法,标量共轭梯度法,trainbr,Bayesian,规范法,2.,常见训练函数,MATLAB,中激励函数为,其字符串分别为:,logsig,,,tansig,,,purelin,3.,激励函数,除了需要输入,A,B,C,trainfun,外,还有些默认的参数可,修改,,如下表,4.,可修改参数,参数名,功能,缺省值,net.trainParam.goal,目标函数设定值,0,net.trainParam.epochs,最大迭代次数,100,net.trainParam.show,显示中间结果的周期,25,net.trainParam.lr,整批学习的学习效率,0.01,net.trainParam.mc,势能学习规则,traingdm,的势能率,0.9,注:不同版本,Matlab,的可修改参数列表可能不同。, net, tr, Y,1, E = train ( net, X, Y ),5.,BP,网络的训练与泛化,网络训练,训练跟踪信息,训练后网络,网络实际输出,误差矩阵,网络训练函数,未经训练网络,网络实际输入,网络应有输出,X,为,nM,矩阵,为输入数据矩阵,,M,为样本的组数。,Y,为,mM,矩阵,为输出数据矩阵。,训练结束后,对新的输入点数据,X,2,,调用,sim,函数进行泛,化,得出这些输入点处的输出矩阵,Y,2,.,数据泛化,Y,2,=sim(net,X,2,),用经过训练的网络对于不是样本集的输入,计算出相应,的输出。,什么是数据泛化?,例,1,由下面的语句生成一组数据,x,和,y,,用神经网络进,行数据拟合,x=0:.1:10;,y=0.12*,exp,(-0.213*x)+0.54*,exp,(-0.17*x).*sin(1.23*x);,可知,(,x,y,),是曲线 上的点。,x=0:.1:10;,y=0.12*,exp,(-0.213*x)+0.54*,exp,(-0.17*x).*sin(1.23*x);,net=newff(0,10,5,1,tansig,tansig);,net.trainParam.epochs=1000;,net=train(net,x,y);,x0=0.05:.,1:10;,figure(1),y1=sim(net,x0);,plot(x,y,o, x0,y1,r),实例,.,蠓虫分类问题的神经网络方法,(,1989,年,MCM,竞赛题目,),生物学家试图对两种蠓虫(,Af,与,Apf,)进行,鉴别,依据的资料,是触角和翅膀的长度,已经测得,9,只,Af,和,6,只,Apf,的数据如下:,9,只,Af,触角长:,1.24 1.36 1.38 1.38 1.38 1.40 1.48 1.54 1.56,翅膀长:,1.72 1.74 1.64 1.82 1.90 1.70 1.82 1.82 2.08,6,只,Apf,触角长:,1.14 1.18 1.20 1.26 1.28 1.30,翅膀长:,1.78 1.96 1.86 2.00 2.00 1.96,问题:,(,1,)如何凭借原始资料,(15,对数据,被称之为学习样本,),制,定一种方法,正确区分两类蠓虫,;,(,2,)依据确立的方法,对以下三个样本:,(1.24,1.80),,,(1.28,1.84),,,(1.40,2.04),加以识别,解法一:,建立,两层前向神经网络,如,下:,隐层节点可适量选取(没有具体标准)。,X,=,为输入矩阵,,x,1,对应于触角长,,x,2,对应于翅膀长。,Y,=,为输出矩阵,规定,Af,对应的应有输出为 ,,Apf,对应的应有输出为,输,入,层,隐,层,输,出,层,以上神经网络模型的,MATLAB,程序如,下:,x=1.24 1.36 1.38 1.38 1.38 1.40 1.48 1.54 1.56 1.14 1.18 1.20 1.26 1.28 1.30,1.72 1.74 1.64 1.82 1.90 1.70 1.82 1.82 2.08 1.78 1.96 1.86 2.00 2.00 1.96;,%,原始数据,x=x-1.1;,%,数据标准化,y=0 0 0 0 0 0 0 0 0 1 1 1 1 1 1,;,1,1 1 1 1 1 1 1 1 0 0 0 0 0 0;,%,应有的输出,net=,newff,(0,1;0 1,5,2,tansig,tansig,);,%,建立两层前向神经网络,%,net.trainParam.goal,=0.0000001;,%,设定训练误差,net.trainParam.epochs,=2000;,%,设定最大训练步数,net=train(,net,x,y,);,%,训练网络,y1=sim(,net,x,),%,输出数据,yy,=sim(net,1.24 1.28 1.40;1.80 1.84 2.04),%,数据泛化,underfitting,overfitting,good fit,神经网络的问题,1,需要大样本,2,隐层的个数无公式,3,整个计算过程过于模糊,很容易陷入局部最优导致欠拟合或者过拟合,SVM,的理论基础,传统的统计模式识别方法只有在样本趋向无穷大时,其性能才有理论的保证。统计学习理论(,STL,)研究有限样本情况下的机器学习问题。,SVM,的理论基础就是统计学习理论。,传统的统计模式识别方法在进行机器学习时,强调,经验风险最小化。,而,单纯的经验风险最小化会产生,“,过学习问题,”,,其推广能力较差。,推广能力,是指,:,将学习机器,(,即预测函数,或称学习函数、学习模型,),对未来输出进行正确预测的能力。,SVM,根据统计学习理论,学习机器的实际风险由经验风险值和置信范围值两部分组成。而基于经验风险最小化准则的学习方法只强调了训练样本的经验风险最小误差,没有最小化置信范围值,因此其推广能力较差。,Vapnik,提出的支持向量机(,Support Vector Machine, SVM,)以训练误差作为优化问题的约束条件,以置信范围值最小化作为优化目标,即,SVM,是一种基于结构风险最小化准则的学习方法,其推广能力明显优于一些传统的学习方法。,形成时期在,1992,1995,年。,线性判别函数和判别面,一个线性判别函数,(discriminant function),是指由,x,的各个分量的线性组合而成的函数,两类情况,:,对于两类问题的决策规则为,如果,g(x)0,,则判定,x,属于,C,1,,,如果,g(x)0,,则判定,x,属于,C,2,,,如果,g(x)=0,,则可以将,x,任意,分到某一类或者拒绝判定。,最优分类面,SVM,是从线性可分情况下的最优分类面发展而来的,基本思想可用图,2,的两维情况说明,.,图中,方形点和圆形点代表两类样本, H,为分类线,H1, H2,分别为过各类中离分类线最近的样本且平行于分类线的直线,它们之间的距离叫做,分类间隔,(margin),。,所谓最优分类线就是要求分类线不但能将两类正确分开,(,训练错误率为,0),而且使分类间隔最大,.,推广到高维空间,最优分类线就变为,最优分类面,。,分类,超平面示意图,最,优分类超平面图,两,类样本中离分类面最近的点且平行于最优分类超平面的,样本点,叫做支持向量,。,非线性变换,基本思想:,选择非线性映射,(,X,),将,x,映射到高维特征空间,Z,,在,Z,中构造最优超平面,SVM,方法的特点,非线性映射是,SVM,方法的理论基础,SVM,利用内积核函数代替向高维空间的非线性映射,;,对特征空间划分的最优超平面是,SVM,的目标,最大化分类边际的思想是,SVM,方法的核心,;,支持向量是,SVM,的训练结果,在,SVM,分类决策中起决定作用的是支持向量。,SVM,是一种有坚实理论基础的新颖的小样本学习方法。它基本上不涉及概率测度及大数定律等,因此不同于现有的统计方法。从本质上看,它避开了从归纳到演绎的传统过程,实现了高效的从训练样本到预报样本的,“,转导推理,”,(transductive inference) ,大大简化了通常的分类和回归等问题。,SVM,方法的特点,SVM,的最终决策函数只由少数的支持向量所确定,计算的复杂性取决于支持向量的数目,而不是样本空间的维数,这在某种意义上避免了,“,维数灾难,”,。,少数支持向量决定了最终结果,这不但可以帮助我们抓住关键样本、,“,剔除,”,大量冗余样本,而且注定了该方法不但算法简单,而且具有较好的,“,鲁棒,”,性。这种,“,鲁棒,”,性主要体现在,:,增、删非支持向量样本对模型没有影响,;,支持向量样本集具有一定的鲁棒性,;,有些成功的应用中,SVM,方法对核的选取不敏感。,深度学习,浅层学习是机器学习的第一次浪潮,人工神经网络(,BP,算法),虽被称作多层感知机,但实际是种只含有一层隐层节点的浅层模型,SVM,、,Boosting,、最大熵方法(如,LR,,,Logistic Regression,),带有一层隐层节点(如,SVM,、,Boosting,),或没有隐层节点(如,LR,)的浅层模型,局限性:,有限样本和计算单元情况下对复杂函数的表示能力有限,针对复杂分类问题其泛化能力受限。,基本概念,浅层学习与深度学习,2006,年,加拿大多伦多大学教授、机器学习领域的泰斗,Geoffrey Hinton,在,科学,上发表论文提出深度学习主要观点:,1,)多隐层的人工神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类;,2,)深度神经网络在训练上的难度,可以通过“逐层初始化”(,layer-wise pre-training,)来有效克服,逐层初始化可通过无监督学习实现的,。,基本概念,深度学习:深度,学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征,表示,深度神经网络:含有多个隐层的神经网络,基本概念,1981,年的诺贝尔医学奖获得者,David Hubel,和,Torsten,Wiesel,发现,了一,种被称为,“,方向选择性细胞的神经元细胞,当瞳孔发现了眼前的物体的边缘,而且这个边缘指向某个方向时,这种神经元细胞就会活跃,基本概念,为什么采用层次网络,人脑视觉机理,人,的视觉系统的信息处理是分级的,高层,的特征是低层特征的组合,从低层到高层的特征表示越来越抽象,越来越能表现语义或者意图,抽象,层面越高,存在的可能猜测就越少,就越利于分类,基本概念,基本概念,为什么采用层次网络,深度学习的优势:,能以更加紧凑简洁的方式来表达比浅层网络大得多的函数集合,训练深度学习的困难:,(,1,)数据获取问题,考虑到深度网络具有强大的表达能力,在不充足的数据上进行训练将会导致过拟合,(,2,)局部极值问题,与梯度下降法有关,基本概念,点击添加文本,点击添加文本,点击添加文本,点击添加文本,深度神经网络的演化,神经网络,深度神经网络,多,层感知器,深度神经网络,在有了多层感知器之后为什么还需要提出深度学习?,1,)强调了模型结构的深度,通常有,5-10,多层的隐层节点;,2,)明确突出了特征学习的重要性,通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,从而使分类或预测更加容易。与人工规则构造特征的方法相比,利用大数据来学习特征,更能够刻画数据的丰富内在信息。,深度神经网络,好处:可通过学习一种深层非线性网络结构,实现复杂函数逼近,表征输入数据分布式表示。,深度神经网络,GPU,高性能计算,GPU,VS,CPU:,硬件体系,目标,:,最小的指令延迟,巨大的缓存,复杂的控制逻辑,目标,:,最大吞吐量,更多寄存器、高带宽,通过线程轮换隐藏延迟,多个线程共享控制逻辑,GPU,高性能计算,GPU,应用领域,用同一计算方法对很大量的数据进行并行计算,数据相关度低,计算密度大,计算所花的时间比数据存储的时间大得,多,Thank you,谢谢大家,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!