深度学习的相关算法研究.ppt

资源描述

深度学习方法的一些研究,西安交通大学数学与统计学院,张讲社西安交通大学统计系,主要内容,研究背景与意义,2,利用稀疏响应增强反向传播算法的性能,1,1.1深度学习的背景及意义,最多含单个将原始信号转换到特定问题空间特征的简单结构，只学习数据的单层表示。,机器学习是使计算机具有人工智能的根本途径,人类的认知过程是以深度的方式呈现的，层次化地组织思想和概念：首先学习简单的概念，然后使用学习到的简单概念表示抽象层面更高的概念。,面对复杂的感知数据，人类总能做出合理的判断,人类大脑的结构和信息处理机制,人类的认知过程,1.1深度学习的背景及意义,1.1深度学习的背景及意义,深度学习的概念起源于人工神经网络的研究,1965年,多层前向网,最早的类多层感知器深度学习系统,深度信念网,2006年,突破性的进展,1.2深度学习的发展,复兴,深度学习成熟条件1数据集的增大,图6数据集与年份,深度学习成熟条件2神经元之间的连接数增大（本质原因是计算机硬件技术的飞速发展）,图7神经元连接与年份,10,深度学习成熟条件3神经元个数的增加（本质原因是计算机硬件技术的飞速发展）,图8神经元个数与年份,11,好算法的出现：2006年，GeoffreyHinton在Science上发表了一篇名为ReducingwithDimensionalityofDatawithNeuralNetworks的文章，从此，神经网络（主要是深度学习）便有焕发了新的青春。,图9GeoffreyHinton与他的学生在Science上发表文章,1.2深度学习的发展,在学术界的研究现状及应用,2010年，美国国防部DARPA计划首次资助斯坦福大学、纽约大学和NEC美国研究院开展深度学习研究2012年6月，GoogleBrain项目用16000个CPU搭建深度学习平台，在语音、图像识别领域获得重要进展2012年12月，微软亚洲研究院在天津的一次活动中利用深度学习技术进行全自动同声传译，效果良好2013年1月，李彦宏宣布成立百度的第一个研究院InstituteofDeepLearning2013年4月，麻省理工学院技术评论将深度学习列为2013年十大突破性技术之首2013年6月微软对WindowsPhone平台的必应语音搜索进行了更新。语音识别和反馈的速度提高一倍，精确度提升15%2014年3月Facebook的Deepface项目使得人脸识别技术的识别率达到97.25%，准确率几乎可媲美人类,1.2深度学习的发展,在工业界的发展,互联网界巨头进入深度学习领域,图15机器学习界的执牛耳者与互联网的大鳄的联姻,18,贪婪算法,DBN,预训练,(Hintonetal.2006,Bengioetal.2007),1.3深度信念网,贪婪算法Step1.用训练样本和一个隐层创建一个限制玻尔兹曼机(RBM)。训练此RBM得到参数;,DBN,预训练,RBM,(Hintonetal.2006,Bengioetal.2007),1.4深度信念网,贪婪算法Step2.再堆积一个隐层，用先前RBM的隐层和此隐层构建一个新的RBM。固定，用(|)从先前的RBM中抽取样本,并作为新RBM的样本。训练新RBM得到参数;,DBN,预训练,RBM,(Hintonetal.2006,Bengioetal.2007),1.4深度信念网,贪婪算法Step3.继续堆积隐层，并用类似的方法训练第三个RBM得到参数。,DBN,预训练,RBM,(Hintonetal.2006,Bengioetal.2007),1.4深度信念网,根据具体任务进行相应的微调判别微调用后向传播方法极大化log(|)生成微调用至顶向下的算法极大化log(),1.4深度信念网,提出了一种用于训练多层前向网的新算法,建立了基于率失真理论的深度学习模型,提出了对图像变换稳定的分类RBM模型,提出了用于训练RBM的等能量并行回火算法,研究成果,主要工作,2,利用稀疏响应增强反向传播算法的性能,稀疏连接,稀疏响应,神经元群,刺激,(Morrisetal.2003Barlow,1972Olshausenetal.2004),稀疏连接：大脑皮层中单个神经元只与其余神经元中的大约极少数相连,稀疏响应：对于给定的某个刺激，神经系统中仅有少量的神经元响应,2.1稀疏响应,2.2基于稀疏响应的多层前向网,输入层,隐层,网络结构,两类数据（红色，蓝色）样本数：384,双螺旋数据,2.3实验,2.3实验,训练误差线,BP(Hintonetal.1986),RoBP(Hirasawa2009),GaBP(Girosietal.1995),LaBP(Williams1995),EnBP2(Chauvin1995),EnBP3(Chauvin1995),EnBP1(Chauvin1995),SaBP,非线性稀疏表示,第二个隐层在整个数据区域上的响应情况,SRBP,BP,感受野的局部化,2.3实验,泛化能力(10,000个测试样本),2.3实验,UCI数据集,2.3实验,2.3实验,隐层神经元在四个训练样本上的响应柱状图,非线性稀疏表示,隐层神经元在所有训练样本上的响应直方图,非线性稀疏表示,2.3实验,测试集分类精度，50次实验的平均结果,泛化能力,2.3实验,泛化能力,2.3实验,泛化能力,2.3实验,网络所消耗的能量,2.3实验,2.4本章小结,基于人类神经系统中对于某一个刺激只有少量神经元同时响应的机制，提出用于训练多层前向网的新算法,实验结果表明,提高了网络的泛化能力大幅度降低了网络的能耗训练过程更稳定、收敛速度更快可在一定程度上简化网络的结构,基于率失真理论的深度信念网,3,主要研究在限定失真条件下能够恢复信源符号所需的最小信息率，它给出了在一定失真度情况下信源编码能达到的极限码率，对编码的长度进行了约束。,率失真理论,3.1率失真理论,等价问题,编码率,编码机制为确定型时,在RBM中，隐层神经元的响应概率(数据的表示)是确定的,通过稀疏响应控制的不确定性程度，从而控制编码率,新模型的思想,失真水平,RBM是概率模型，因此使用输入数据分布与模型分布之间的Kullback-Leibler散度作为失真函数,(;)是随机变量和的互信息，表示编码的压缩率,(;)是失真函数(;)关于分布的期望，表示编码解码的失真水平,用隐层神经元响应的范数来实现神经元的稀疏响应，得到基于率失真理论的RBM（简记为RD-RBM）,3.2基于率失真理论的深度信念网,10000张图，每张像素为12X12网络共有两个隐层，第一个隐层有144个神经元，第二个隐层有50个神经元,自然图像,3.3实验,非线性稀疏表示,10000张图，每张像素为12X12网络共有两个隐层，第一个隐层有144个神经元，第二个隐层有50个神经元,DBN学到的W1,RD-DBN学到的W1,自然图像,3.3实验,特征,10000张图，每张像素为12X12网络共有两个隐层，第一个隐层有144个神经元，第二个隐层有50个神经元,自然图像,特征,RD-DBN学到的W2,3.3实验,手写体数据，10类，每类取2000个数据作为实验数据,网络共有两个隐层，第一个隐层有196个神经元，第二个隐层有50个神经元,手写体数据,3.3实验,RD-DBN学习到的,特征,3.3实验,RD-DBN学习到的,特征,3.3实验,分类误判率(从每类数据中随机抽取100，500，1000个样本作为训练数据，50次实验平均结果),泛化能力,3.3实验,部分响应次数较多的隐层神经元的判别能力,MNIST数据集：水平轴为所选取的神经元个数（在训练数据上响应次数较多），垂直轴为具有部分隐层神经元的网络在训练集（每类分别取100，500和1000个样本作为训练集）和测试集上的分类误差率（%）。,3.3实验,5类，每类取2000个数据作为训练数据,10类，每类取2000个数据作为训练数据,CIFAR数据,NORB数据,3.3实验,RD-DBN学习到的,特征,3.3实验,特征,3.3实验,泛化能力,3.3实验,基于率失真理论的思想提出了新的深度信念网模型,实验结果表明,学习到的数据表示更加稀疏能够提取不同抽象水平的特征学习到的数据表示更具判别能力,3.4本章小结,用等能量跳转的并行回火算法训练RBM,5,log=,极大似然的困境基于模型的期望难以计算！无数次交替Gibbs采样的时间开销大！,=(,),4.1RBM训练的困境,采用单个马尔科夫链近似模型分布,经典的马尔科夫链蒙特卡洛(MCMC)方法,4.2几种经典的训练方法,从理论上讲，人们总能通过MCMC采集到符合目标分布的样本实际应用中，人们通常不了解多少次转移是足够的。这个问题很大程度上受到目标分布陡峭程度的影响。,低概率区域,状态转移概率:=,采用单个马尔科夫链抽样的局限性,典型的双峰分布以及MCMC可能面临的问题,4.2几种经典的训练方法,借助多个辅助的Gibbs链，将低温分布下的状态转移到高温分布中，实现目标分布中不同峰值状态的转移，达到对整个分布采样的目的。,并行回火(ParallelTempering,PT),4.2几种经典的训练方法,相邻Gibbs链间的状态交换概率依赖于Gibbs链的温度和状态的能量,(+(,+,+),并行回火算法训练RBM的局限性,4.2几种经典的训练方法,在PT中，使用过少的辅助分布或者使用不合适的辅助分布都会导致相邻Gibbs链的状态拥有较大差异的能量，从而产生极低的交换概率，不利于RBM的训练,0,容易,困难,4.3等能量抽样,Kou于2006年提出等能量抽样,为了得到较高的状态交换概率，我们采用等能量跳转,直接在具有相似能量的状态间进行跳转，跳过低概率区域,5.4用等能量跳转的并行回火算法训练RBM,基于等能量跳转的并行回火算法(PTwithequi-energymoves,PTEE),每个链的状态转移过程不受其它链的影响,状态被划分到多个能量集中，并在能量集内部进行状态交换,基于等能量跳转的并行回火算法(PTwithequi-energymoves,PTEE),4.4用等能量跳转的并行回火算法训练RBM,小数据集,基于四个基本模型(模型之间的差异性比较大)而产生的数据集。对于每一个基本模型，以0.001的概率转换模型中的像素(0变成1，1变成0)，从而生成2500张与该基本模型相似的图片。,MNIST手写体数据集,数据,4.5实验,在PT算法中，相邻马尔科夫链的状态拥有差异较大的能量，这会引起低的状态交换概率，不利于RBM的训练；而在PTEE算法中，同一个能量集内的状态拥有近似的能量，保证了较高的状态交换概率。,某步参数更新时，有可能进行全局跳转的马尔科夫链状态的能量：(左)PT；(右)PTEE,PT和PTEE中全局跳转的比较,4.5实验,PT和PTEE中全局跳转的比较,整个训练过程中，每个马尔科夫链与其它链交换状态的平均交换概率。,对于PTEE算法，几乎所有的马尔科夫链的平均交换概率都比PT算法的高,4.5实验,PT和PTEE中全局跳转的比较,在PT中，相邻的马尔科夫链才交换状态；在PTEE中，任意两个马尔科夫链都有可能交换状态,4.5实验,5次实验的平均结果，小数据集,似然得分,PTEE算法比PT算法能够更快地得到较好的结果，且最终结果也比PT算法好。随着迭代步骤的增加，使用单个马尔科夫链的CD算法和PCD算法的学习效果突然变差并且持续恶化，最终得到很低的似然值。,4.5实验,5次实验的平均结果，MNIST数据集,似然得分,5次实验的平均结果，小数据集,4.5实验,结合等能量抽样和并行回火抽样方法提出了用于训练RBM的新算法,实验结果表明,新算法能够提高抽样过程中的混合率以更快的速度获得更高的似然值算法受马尔科夫链个数的影响较小,4.6本章小结,结果与问题,5,5.1结果,基于人类神经系统中对于某个刺激仅有少量神经元同时响应的机制，提出了用于训练多层前向网的新算法；,隐层神经元个数的确定；,5.2进一步的研究问题,NannanJi,JiangsheZhang,ChunxiaZhang.Asparse-responsedeepbeliefnetworkbasedonratedistortiontheory,PatternRecognition,2014,47(9):3179-3191.NannanJi,JiangsheZhang,ChunxiaZhang,etal.EnhancingperformanceofrestrictedBoltzmannmachinevialog-sumregularization,Knowledge-BasedSystems,2014,63:82-96.NannanJi,JiangsheZhang,ChunxiaZhang,etal.DiscriminativerestrictedBoltzmannmachineforinvariantpatternrecognitionwithlineartransformations,PatternRecognitionLetters,2014,45:172-180.JiangsheZhang,NannanJi,JunminLiu,etal.Enhancingperformanceofthebackpropagationalgorithmviasparseresponseregularization,Neurocomputing,2014,AcceptwithMinorRevision.NannanJi,JiangsheZhang.Paralleltemperingwithequi-energymovesfortrainingofrestrictedBoltzmannmachines,InProceedingsofIEEEInternationalJointConferenceonNeuralNetworks,2014:120-127.,主要研究成果,致谢：研究受科技部973项目国家自然科学基金委面上项目重大研究计划资助研究工作主要参加者：姬楠楠、张春霞、刘军民协助PPT制作：姬楠楠,谢谢！,敬请批评指正！,

展开阅读全文