资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,B,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,B,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,B,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,B,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,B,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,B,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,B,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,B,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,B,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,B,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,B,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,B,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,B,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,B,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,B,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,B,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,B,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,B,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,B,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,B,*,Peking University,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,B,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,Peking University,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,Peking University,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,B,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,Peking University,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,B,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,B,*,Peking University,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,B,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,Peking University,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,B,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,B,*,Peking University,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,B,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,Peking University,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,B,*,第十四章:深度学习,2015.9,于深圳,视频监控与视频分析,1,B,第十四章:深度学习 2015.9于深圳视频监控与视,目 录,概述,动机,深度学习简介,深度学习的训练过程,深度学习的具体模型及方法,深度学习的性能比较,深度学习的应用,展望,参考文献,相关程序软件及链接,B,目 录概述B,概 述,深度学习:一种基于无监督特征学习和特征层次结构的学习方法,可能的的名称:,深度学习,特征学习,无监督特征学习,B,概 述深度学习:一种基于无监督特征学习和特征层次结构的学习方,动 机,良好的特征表达,对最终算法的准确性起了非常关键的作用;,识别系统主要的计算和测试工作耗时主要集中在特征提取部分;,特征的样式目前一般都是人工设计的,靠人工提取特征。,Low-level sensing,Pre-processing,Feature extract.,Feature selection,Inference: prediction, recognition,传统的模式识别方法:,B,动 机良好的特征表达,对最终算法的准确性起了非常关键的作用;,动 机,为什么要自动学习特征,实验:,LP- Multiple Kernel Learning,Gehler and Nowozin, On Feature Combination for Multiclass Object Classification, ICCV09,采用,39,个不同的特征,PHOG, SIFT, V1S+,Region Cov. Etc.,在普通特征上,MKL,表现,有限,结论:特征更重要,B,动 机为什么要自动学习特征实验:LP- Multip,动 机,为什么要自动学习特征,机器学习中,获得好的特征是识别成功的关键,目前存在大量人工设计的特征,不同研究对象特征不同,特征具有多样性,如:,SIFT, HOG, LBP,等,手工选取特征费时费力,需要启发式专业知识,很大程度上靠经验和运气,是否能自动地学习特征?,B,动 机为什么要自动学习特征机器学习中,获得好的特征是识别,中层特征,中层信号:,动 机,为什么要自动学习特征,“,Tokens,”,from Vision by D.Marr:,连续,平行,连接,拐角,物体部件,:,他们对于人工而言是十分困难的,那么如何学习呢?,B,中层特征动 机为什么要自动学习特征“Tokens” f,动 机,为什么要自动学习特征,一般而言,特征越多,给出信息就越多,识别准确性会得到提升;,但特征多,计算复杂度增加,探索的空间大,可以用来训练的数据在每个特征上就会稀疏。,结论:不一定特征越多越好!需要有多少个特征,需要学习确定。,B,动 机为什么要自动学习特征B,动 机,为什么采用层次网络结构,人脑视觉机理,1981,年的诺贝尔医学奖获得者,David Hubel,和,TorstenWiesel,发现了视觉系统的信息处理机制,发现了一种被称为“方向选择性细胞的神经元细胞,当瞳孔发现了眼前的物体的边缘,而且这个边缘指向某个方向时,这种神经元细胞就会活跃,B,动 机为什么采用层次网络结构人脑视觉机理B,动 机,为什么采用层次网络结构,人脑视觉机理,人的视觉系统的信息处理是分级的,高层的特征是低层特征的组合,从低层到高层的特征表示越来越抽象,越来越能表现语义或者意图,抽象层面越高,存在的可能猜测就越少,就越利于分类,B,动 机为什么采用层次网络结构人脑视觉机理B,动 机,为什么采用层次网络结构,视觉的层次性,属性学习,类别作为属性的一种组合映射,Lampert et al. CVPR09,类别标签,属性,图像特征,B,动 机为什么采用层次网络结构视觉的层次性类别标签属性图像,动 机,为什么采用层次网络结构,特征表示的粒度,具有结构性(或者语义)的高层特征对于分类更有意义,B,动 机为什么采用层次网络结构特征表示的粒度B,动 机,为什么采用层次网络结构,初级(浅层)特征表示,高层特征或图像,往往是由一些基本结构(浅层特征)组成的,B,动 机为什么采用层次网络结构初级(浅层)特征表示高层特征,动 机,为什么采用层次网络结构,结构性特征表示,B,动 机为什么采用层次网络结构结构性特征表示B,动 机,为什么采用层次网络结构,浅层学习的局限,人工神经网络(,BP,算法),虽被称作多层感知机,但实际是种只含有一层隐层节点的浅层模型,SVM,、,Boosting,、最大熵方法(如,LR,,,Logistic Regression,),带有一层隐层节点(如,SVM,、,Boosting,),或没有隐层节点(如,LR,)的浅层模型,局限性:,有限样本和计算单元情况下对复杂函数的表示能力有限,针对复杂分类问题其泛化能力受限。,B,动 机为什么采用层次网络结构浅层学习的局限B,深度学习,2006,年,加拿大多伦多大学教授、机器学习领域的泰斗,Geoffrey Hinton,在,科学,上发表论文提出深度学习主要观点:,1,)多隐层的人工神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类;,2,)深度神经网络在训练上的难度,可以通过“逐层初始化”(,layer-wise pre-training,)来有效克服,逐层初始化可通过无监督学习实现的。,B,深度学习2006年,加拿大多伦多大学教授、机器学习领域的泰斗,深度学习,本质:,通过构建多隐层的模型和海量训练数据(可为无标签数据),来学习更有用的特征,从而最终提升分类或预测的准确性。 “深度模型”是手段,“特征学习”是目的。,与浅层学习区别:,1,)强调了模型结构的深度,通常有,5-10,多层的隐层节点;,2,)明确突出了特征学习的重要性,通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,从而使分类或预测更加容易。与人工规则构造特征的方法相比,利用大数据来学习特征,更能够刻画数据的丰富内在信息。,B,深度学习本质:通过构建多隐层的模型和海量训练数据(可为无标签,深度学习,好处:可通过学习一种深层非线性网络结构,实现复杂函数逼近,表征输入数据分布式表示。,B,深度学习好处:可通过学习一种深层非线性网络结构,实现复杂函数,深度学习,vs.,神经网络,神经网络,:,深度学习,:,B,深度学习 vs. 神经网络神经网络 :,深度学习,vs.,神经网络,相同点:,二者均采用分层结构,系统包括输入层、隐层(多层)、输出层组成的多层网络,只有相邻层节点之间有连接,同一层以及跨层节点之间相互无连接,每一层可以看作是一个,logistic,回归模型。,不同点:,神经网络,:采用,BP,算法调整参数,即采用迭代算法来训练整个网络。随机设定初值,计算当前网络的输出,然后根据当前输出和样本真实标签之间的差去改变前面各层的参数,直到收敛;,深度学习,:采用逐层训练机制。采用该机制的原因在于如果采用,BP,机制,对于一个,deep network,(,7,层以上),残差传播到最前面的层将变得很小,出现所谓的,gradient diffusion,(梯度扩散)。,B,深度学习 vs. 神经网络相同点:二者均采用分层结构,系统包,深度学习,vs.,神经网络,神经网络的局限性,:,1,)比较容易过拟合,参数比较难调整,而且需要不少技巧;,2,)训练速度比较慢,在层次比较少(小于等于,3,)的情况下效果并不比其它方法更优;,B,深度学习 vs. 神经网络神经网络的局限性:B,深度学习训练过程,不采用,BP,算法的原因,(,1,)反馈调整时,梯度越来越稀疏,从顶层越往下,误差校正信号越来越小;,(,2,)收敛易至局部最小,由于是采用随机值初始化,当初值是远离最优区域时易导致这一情况;,(,3,),BP,算法需要有标签数据来训练,但大部分数据是无标签的;,B,深度学习训练过程不采用BP算法的原因B,深度学习训练过程,第一步:采用自下而上的无监督学习,1,)逐层构建单层神经元。,2,)每层采用,wake-sleep,算法进行调优。每次仅调整一层,逐层调整。,这个过程可以看作是一个,feature learning,的过程,是和传统神经网络区别最大的部分。,B,深度学习训练过程第一步:采用自下而上的无监督学习B,深度学习训练过程,wake-sleep,算法,:,1,),wake,阶段:,认知过程,通过下层的输入特征(,Input,)和向上的认知(,Encoder,)权重产生每一层的抽象表示(,Code,),再通过当前的生成(,Decoder,)权重产生一个重建信息(,Reconstruction,),计算输入特征和重建信息残差,使用梯度下降修改层间的下行生成(,Decoder,)权重。也就是“如果现实跟我想象的不一样,改变我的生成权重使得我想象的东西变得与现实一样”。,2,),sleep,阶段:,生成过程,通过上层概念(,Code,)和向下的生成(,Decoder,)权重,生成下层的状态,再利用认知(,Encoder,)权重产生一个抽象景象。利用初始上层概念和新建抽象景象的残差,利用梯度下降修改层间向上的认知(,Encoder,)权重。也就是“如果梦中的景象不是我脑中的相应概念,改变我的认知权重使得这种景象在我看来就是这个概念”。,B,深度学习训练过程wake-sleep算法:B,深度学习训练过程,Encoder,Decoder,Input Image,Class label,e.g.,Features,Encoder,Decoder,Features,Encoder,Decoder,AutoEncoder:,B,深度学习训练过程EncoderDecoderInput Im,深度学习训练过程,第二步:自顶向下的监督学习,这一步是在第一步学习获得各层参数进的基础上,在最顶的编码层添加一个分类器(例如罗杰斯特回归、,SVM,等),而后通过带标签数据的监督学习,利用梯度下降法去微调整个网络参数。,深度学习的第一步实质上是一个网络参数初始化过程。区别于传统神经网络初值随机初始化,深度学习模型是通过无监督学习输入数据的结构得到的,因而这个初值更接近全局最优,从而能够取得更好的效果。,B,深度学习训练过程第二步:自顶向下的监督学习 B,深度学习的具体模型及方法,自动编码器(,AutoEncoder,),稀疏自动编码器,(Sparse AutoEncoder),降噪自动编码器,(Denoising AutoEncoders),B,深度学习的具体模型及方法自动编码器( AutoEncoder,深度学习的具体模型及方法,Encoder,Decoder,Input (Image/ Features),Output Features,e.g.,Feed-back /generative /top-down,path,Feed-forward /bottom-up path,自动编码器(,AutoEncoder,),B,深度学习的具体模型及方法EncoderDecoderInpu,深度学习的具体模型及方法,(Wx),(W,T,z),(Binary) Input,x,(Binary) Features,z,e.g.,自动编码器(,AutoEncoder,),Encoder filters W,Sigmoid function,(.),Decoder filters W,T,Sigmoid function,(.),B,深度学习的具体模型及方法(Wx)(WTz)(Binary,深度学习的具体模型及方法,稀疏自动编码器,(Sparse AutoEncoder),限制每次得到的表达,code,尽量稀疏,限制每次得到的表达,code,尽量稀疏,B,深度学习的具体模型及方法稀疏自动编码器(Sparse Aut,深度学习的具体模型及方法,稀疏自动编码器,(Sparse AutoEncoder),Filters,Features,Sparse Coding,Input Patch,B,深度学习的具体模型及方法稀疏自动编码器(Sparse Aut,深度学习的具体模型及方法,(Wx),Dz,Input Patch,x,Sparse Features,z,e.g.,Encoder filters W,Sigmoid function,(.),Decoder filters D,L,1,Sparsity,Training,稀疏自动编码器,(Sparse AutoEncoder),B,深度学习的具体模型及方法(Wx)DzInput Patch,深度学习的具体模型及方法,稀疏自动编码器,(Sparse AutoEncoder),1,),Training,阶段,:,给定一系列的样本图片,x1, x 2, ,,我们需要学习得到一组基,1, 2, ,,也就是字典。,可使用,K-SVD,方法交替迭代调整,a k,,, k,,直至收敛,从而可以获得一组可以良好表示这一系列,x,的字典。,B,深度学习的具体模型及方法稀疏自动编码器(Sparse Aut,深度学习的具体模型及方法,稀疏自动编码器,(Sparse AutoEncoder),2,),Coding,阶段,:,给定一个新的图片,x,,由上面得到的字典,利用,OMP,算法求解一个,LASSO,问题得到稀疏向量,a,。这个稀疏向量就是这个输入向量,x,的一个稀疏表达。,B,深度学习的具体模型及方法稀疏自动编码器(Sparse Aut,深度学习的具体模型及方法,稀疏自动编码器,(Sparse AutoEncoder),B,深度学习的具体模型及方法稀疏自动编码器(Sparse Aut,深度学习的具体模型及方法,降噪自动编码器,(Denoising AutoEncoders),在自动编码器的基础上,对训练数据加入噪声,自动编码器必须学习去去除这种噪声而获得真正的没有被噪声污染过的输入。因此,这就迫使编码器去学习输入信号的更加鲁棒的表达,这也是它的泛化能力比一般编码器强的原因。,B,深度学习的具体模型及方法降噪自动编码器(Denoising,深度学习的具体模型及方法,Autoencoder (most Deep Learning methods),RBMs / DBMs,Lee / Salakhutdinov,Denoising autoencoders,Ranzato,Predictive sparse decomposition,Ranzato,Decoder-only,Sparse coding,Yu,Deconvolutional Nets,Yu,Encoder-only,Neural nets (supervised),Ranzato,B,深度学习的具体模型及方法Autoencoder (most,深度学习的具体模型及方法,限制波尔兹曼机(,Restricted Boltzmann Machine,),定义:,假设有一个二部图,同层节点之间没有链接,一层是可视层,即输入数据层(,v),,一层是隐藏层,(h),,如果假设所有的节点都是随机二值(,0,,,1,值)变量节点,同时假设全概率分布,p(v,h),满足,Boltzmann,分布,我们称这个模型是,Restricted BoltzmannMachine (RBM),。,B,深度学习的具体模型及方法限制波尔兹曼机(Restricted,深度学习的具体模型及方法,限制波尔兹曼机(,Restricted Boltzmann Machine,),限制波尔兹曼机(,RBM,)是一种深度学习模型。,B,深度学习的具体模型及方法限制波尔兹曼机(Restricted,深度学习的具体模型及方法,限制波尔兹曼机(,Restricted Boltzmann Machine,),定义联合组态(,jointconfiguration,)能量:,这样某个组态的联合概率分布可以通过,Boltzmann,分布和这个组态的能量来确定:,B,深度学习的具体模型及方法限制波尔兹曼机(Restricted,深度学习的具体模型及方法,限制波尔兹曼机(,Restricted Boltzmann Machine,),给定隐层,h,的基础上,可视层的概率确定:,(可视层节点之间是条件独立的),给定可视层,v,的基础上,隐层的概率确定:,B,深度学习的具体模型及方法限制波尔兹曼机(Restricted,深度学习的具体模型及方法,限制波尔兹曼机(,Restricted Boltzmann Machine,),待求问题,:给定一个满足独立同分布的样本集:,D=,v,(1),v,(2),v,(N),,需要学习模型参数,=W,a,b,。,求解,:,最大似然估计:,我们需要选择一个参数,让我们当前的观测样本的概率最大,对最大对数似然函数求导,即可得到,L,最大时对应的参数,W,:,若隐藏层层数增加,可得到,Deep Boltzmann Machine(DBM),B,深度学习的具体模型及方法限制波尔兹曼机(Restricted,深度学习的具体模型及方法,Deep Boltzmann Machine(DBM),B,深度学习的具体模型及方法Deep Boltzmann Mac,深度学习的具体模型及方法,深信度网络(,Deep Belief Networks,),Deep Belief Networks,是在靠近可视层的部分使用贝叶斯信念网络(即有向图模型),而在最远离可视层的部分使用,Restricted Boltzmann Machine,的模型。,B,深度学习的具体模型及方法深信度网络(Deep Belief,深度学习的具体模型及方法,深信度网络(,Deep Belief Networks,),B,深度学习的具体模型及方法深信度网络(Deep Belief,深度学习的具体模型及方法,卷积波尔兹曼机(,Convolutional RBM,),CRBM,是为识别二维图像信息而特殊设计的一个多层感知器。,概念示范:,输入图像通过与,m,个可训练的滤波器和可加偏置进行卷积,在,C1,层产生,m,个特征映射图,然后特征映射图中每组的,n,个像素再进行求和,加权值,加偏置,通过一个,Sigmoid,函数得到,m,个,S2,层的特征映射图。这些映射图再进过滤波得到,C3,层。这个层级结构再和,S2,一样产生,S4,。最终,这些像素值被光栅化,并连接成一个向量输入到传统的神经网络,得到输出。,B,深度学习的具体模型及方法卷积波尔兹曼机(Convolutio,深度学习的具体模型及方法,卷积波尔兹曼机(,Convolutional RBM,),权值共享,减少参数的方法:,每个神经元无需对全局图像做感受,只需感受局部区域(,Feature Map,),在高层会将这些感受不同局部的神经元综合起来获得全局信息。,每个神经元参数设为相同,即权值共享,也即每个神经元用同一个卷积核去卷积图像。,B,深度学习的具体模型及方法卷积波尔兹曼机(Convolutio,深度学习的具体模型及方法,卷积波尔兹曼机(,Convolutional RBM,),隐层神经元数量的确定,神经元数量与输入图像大小、滤波器大小和滤波器的滑动步长有关。,例如,输入图像是,1000x1000,像素,滤波器大小是,10x10,,假设滤波器间没有重叠,即步长为,10,,这样隐层的神经元个数就是,(1000x1000 )/ (10x10)=10000,个,B,深度学习的具体模型及方法卷积波尔兹曼机(Convolutio,深度学习的具体模型及方法,卷积波尔兹曼机(,Convolutional RBM,),多滤波器情形,不同的颜色表示不同种类的滤波器,每层隐层神经元的个数按滤波器种类的数量翻倍,每层隐层参数个数仅与滤波器大小、滤波器种类的多少有关,例如:隐含层的每个神经元都连接,10x10,像素图像区域,同时有,100,种卷积核(滤波器)。则参数总个数为:(,10x10+1,),x100=10100,个,B,深度学习的具体模型及方法卷积波尔兹曼机(Convolutio,深度学习的具体模型及方法,卷积波尔兹曼机(,Convolutional RBM,),卷积过程,:用一个可训练的滤波器,fx,去卷积一个输入的图像(第一阶段是输入的图像,后面的阶段就是,Feature Map,了),然后加一个偏置,bx,,得到卷积层,Cx,。,子采样过程,:每邻域,n,个像素通过池化(,pooling,)步骤变为一个像素,然后通过标量,W,x+1,加权,再增加偏置,b,x+1,,然后通过一个,sigmoid,激活函数,产生一个大概缩小,n,倍的特征映射图,S,x+1,。,B,深度学习的具体模型及方法卷积波尔兹曼机(Convolutio,深度学习的具体模型及方法,卷积波尔兹曼机(,Convolutional RBM,),CNN,的关键技术,:局部感受野、权值共享、时间或空间子采样,CNN,的优点:,1,、,避免了显式的特征抽取,而隐式地从训练数据中进行学习;,2,、同一特征映射面上的神经元权值相同,从而网络可以并行学习,降低了网络的复杂性;,3,、采用时间或者空间的子采样结构,可以获得某种程度的位移、尺度、形变鲁棒性;,3,、输入信息和网络拓扑结构能很好的吻合,在语音识别和图像处理方面有着独特优势。,B,深度学习的具体模型及方法卷积波尔兹曼机(Convolutio,深度学习的具体模型及方法,基于,CRBM,的深度学习框架,B,深度学习的具体模型及方法基于CRBM的深度学习框架B,深度学习性能比较,Deep nets VS. Boosting,B,深度学习性能比较Deep nets VS. Boosting,深度学习性能比较,Deep nets VS. Probabilistic Models,B,深度学习性能比较Deep nets VS. Probabil,深度学习性能比较,随机文法模型,Set of production rules for objects,Zhu & Mumford, Stochastic Grammar of Images, F&T 2006,自动学习,人工指定,S.C. Zhu et al.,B,深度学习性能比较随机文法模型自动学习人工指定S.C. Zh,深度学习性能比较,基于文法模型的物体检测,-R. Girshick, P. Felzenszwalb, D. McAllester, NIPS 2011,-Learn local appearance& shape,人工指定,自动学习,B,深度学习性能比较基于文法模型的物体检测人工指定自动学习B,深度学习性能比较,部件和结构模型,Defined connectivity graph,Learn appearance / relative position,Felzenszwalb & Huttenlocher CVPR00 ,Fischler and R. Elschlager 1973 ,人工指定,自动学习,B,深度学习性能比较部件和结构模型Felzenszwalb &,深度学习性能比较,基于部件与结构的分层模型,-Fidler et al. ECCV10,-Fidler & Leonardis CVPR07,人工指定,自动学习,B,深度学习性能比较基于部件与结构的分层模型人工指定自动学习B,深度学习性能比较,递归和与图模型,-Leo Zhu, Yuanhao Chen, Alan Yuille & collaborators,Recursive composition, AND/OR graph,Learn # units at layer,人工指定,自动学习,B,深度学习性能比较递归和与图模型人工指定自动学习B,深度学习性能比较,自动编码模型,Hinton et al. ICANN11,反卷积网络模型,Zeiler et al. ICCV11,-Explicit representation of what/where,人工指定,自动学习,B,深度学习性能比较自动编码模型人工指定自动学习B,深度学习性能比较,神经网络,Dedicated pooling / LCNlayers,No separation of what/where,Modality independent (e.g. speech, images),Le et al., ICML12,人工指定,自动学习,B,深度学习性能比较神经网络Le et al., ICML1,深度学习性能比较,波尔兹曼机,Homogenous architecture,No separation of what/where,Modality independent (e.g. speech, images),Salakhutdinov & Hinton AISTATS09,人工指定,自动学习,B,深度学习性能比较波尔兹曼机Salakhutdinov &,深度学习的应用,深度学习在图像识别上的应用,空间金字塔(,Spatial Pyramids,),B,深度学习的应用深度学习在图像识别上的应用空间金字塔(Spat,深度学习的应用,深度学习在图像识别上的应用,B,深度学习的应用深度学习在图像识别上的应用B,深度学习的应用,深度学习在图像识别上的应用,B,深度学习的应用深度学习在图像识别上的应用B,深度学习的应用,深度学习在图像识别上的应用,B,深度学习的应用深度学习在图像识别上的应用B,深度学习的应用,深度学习在图像识别上的应用,实验在,Caltech 256,数据集上,利用单特征识别,,Sparse CRBM,性能最优,B,深度学习的应用深度学习在图像识别上的应用实验在Caltech,深度学习的应用,深度学习在音频识别上的应用,Convolutional DBN for audio,Max pooling,node,Detection,nodes,Max pooling,node,Detection,nodes,B,深度学习的应用深度学习在音频识别上的应用Convolutio,深度学习的应用,深度学习在音频识别上的应用,Convolutional DBN for audio,B,深度学习的应用深度学习在音频识别上的应用Convolutio,深度学习的应用,深度学习在音频识别上的应用,B,深度学习的应用深度学习在音频识别上的应用B,深度学习的应用,深度学习在音频识别上的应用,B,深度学习的应用深度学习在音频识别上的应用B,深度学习的应用,深度学习在视频识别上的应用,SPACE-TIME DEEP BELIEF NETWORKS,B,深度学习的应用深度学习在视频识别上的应用SPACE-TIME,深度学习的应用,深度学习在视频识别上的应用,B,深度学习的应用深度学习在视频识别上的应用B,深度学习的应用,深度学习在多模态学习中的应用,B,深度学习的应用深度学习在多模态学习中的应用B,深度学习的应用,深度学习在多模态学习中的应用,B,深度学习的应用深度学习在多模态学习中的应用B,深度学习的应用,深度学习在多模态学习中的应用,B,深度学习的应用深度学习在多模态学习中的应用B,深度学习的应用,深度学习在多模态学习中的应用,B,深度学习的应用深度学习在多模态学习中的应用B,深度学习的应用,深度学习在多模态学习中的应用,B,深度学习的应用深度学习在多模态学习中的应用B,深度学习的应用,深度学习在多模态学习中的应用,如果模态间存在着内在的联系,即存在,shared Representation,,那么理论上模型应支持训练一个模态,而测试另一个模态时,仍能获得好的分类性能。,B,深度学习的应用深度学习在多模态学习中的应用如果模态间存在着内,深度学习的应用,深度学习在多任务学习中的应用,B,深度学习的应用深度学习在多任务学习中的应用B,深度学习的应用,深度学习在多任务学习中的应用,在深度学习模型中,对于相关任务的联合学习,往往会取得较好的特征表达;,多任务联合学习,能够增强损失函数的作用效能;,比如:单独进行人脸检测会比较难(光照、遮挡等因素),但是当人脸检测与人脸识别这两个相关的任务联合学习时,人脸检测的难度反而降低了。,B,深度学习的应用深度学习在多任务学习中的应用B,深度学习的应用,基于深度学习的迁移学习应用,B,深度学习的应用基于深度学习的迁移学习应用B,深度学习的应用,基于深度学习的迁移学习应用,特征共享,B,深度学习的应用基于深度学习的迁移学习应用特征共享B,深度学习的应用,基于深度学习的迁移学习应用,B,深度学习的应用基于深度学习的迁移学习应用B,深度学习的应用,深度学习在大尺度数据集上的应用,大尺度数据集:,样本总数,100M,类别总数,10K,特征维度,10K,B,深度学习的应用深度学习在大尺度数据集上的应用B,深度学习的应用,深度学习在大尺度数据集上的应用,模型的并行运算化,B,深度学习的应用深度学习在大尺度数据集上的应用模型的并行运算化,深度学习的应用,深度学习在大尺度数据集上的应用,分布式深度学习模型,B,深度学习的应用深度学习在大尺度数据集上的应用分布式深度学习模,深度学习的应用,深度学习在大尺度数据集上的应用,分布式深度学习模型,B,深度学习的应用深度学习在大尺度数据集上的应用分布式深度学习模,深度学习的应用,深度学习在大尺度数据集上的应用,参数个数达到,1.15 billion,,若不能并行优化参数,任务无法完成!,B,深度学习的应用深度学习在大尺度数据集上的应用参数个数达到1.,深度学习的应用,深度学习的,State-of-the-art,B,深度学习的应用深度学习的State-of-the-artB,展 望,未来需解决的问题:,对于一个特定的框架,多少维的输入它可以表现得较优?,对捕捉短时或者长时间的时间依赖,哪种架构才是有效的?,如何对于一个给定的深度学习架构,融合多种感知的信息?,如何分辨和利用学习获得的中、高层特征语义知识?,有什么正确的机理可以去增强一个给定的深度学习架构,以改进其鲁棒性和对变形及数据丢失的不变性?,模型方面是否有其他更为有效且有理论依据的深度模型学习算法?,是否存在更有效的可并行训练算法?,B,展 望未来需解决的问题:B,参考文献,Tutorials & Background Material, Yoshua Bengio, Learning Deep Architectures for AI, Foundations and,Trends in Machine Learning, 2(1), pp.1-127, 2009.,LeCun, Chopra, Hadsell, Ranzato, Huang: A Tutorial on Energy-Based,Learning, in Bakir, G. and Hofman, T. and Scholkopf, B. and Smola, A.,and Taskar, B. (Eds), Predicting Structured Data, MIT Press, 2006,Convolutional Nets, LeCun, Bottou, Bengio and Haffner: Gradient-Based Learning Applied to,Document Recognition, Proceedings of the IEEE, 86(11):2278-2324,November 1998,Jarrett, Kavukcuoglu, Ranzato, LeCun: What is the Best Multi-Stage,Architecture for Object Recognition?, Proc. International Conference on,Computer Vision (ICCV09), IEEE, 2009,Kavukcuoglu, Sermanet, Boureau, Gregor, Mathieu, LeCun: Learning,Convolutional Feature Hierachies for Visual Recognition, Advances in,Neural Information Processing Systems (NIPS 2010), 23, 2010,B,参考文献Tutorials & Background Mat,参考文献,Unsupervised Learning, ICA with Reconstruction Cost for Efficient Overcomplete Feature Learning. Le,Karpenko, Ngiam, Ng. In NIPS 2011, Rifai, Vincent, Muller, Glorot, Bengio, Contracting Auto-Encoders: Explicit invariance during feature extraction, in: Proceedings of the Twenty-eight International Conference on Machine Learning (ICML11), 2011,- Vincent, Larochelle, Lajoie, Bengio, Manzagol, Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion, Journal of Machine Learning Research, 11:3371-3408, 2010.,- Gregor, Szlam, LeCun: Structured Sparse Coding via Lateral Inhibition,Advances in Neural Information Processing Systems (NIPS 2011), 24, 2011,- Kavukcuoglu, Ranzato, LeCun. Fast Inference in Sparse Coding Algorithms with Applications to Object Recognition. ArXiv 1010.3467 2008,- Hinton, Krizhevsky, Wang, Transforming Auto-encoders, ICANN, 2011,Multi-modal Learning, Multimodal deep learning, Ngiam, Khosla, Kim, Nam, Lee, Ng. In Proceedings of the Twenty-Eighth International Conference on Machine Learning, 2011.,B,参考文献Unsupervised LearningB,参考文献,Locally Connected Nets, Gregor, LeCun “Emergence of complex-like cells in a temporal product network with local receptive fields” Arxiv. 2009, Ranzato, Mnih, Hinton “Generating more realistic images using gated MRFs”NIPS 2010, Le, Ngiam, Chen, Chia, Koh, Ng “Tiled convolutional neural networks” NIPS 2010,Distributed Learning, Le, Ranzato, Monga, Devin, Corrado, Chen, Dean, Ng. Building High-Level Features Using Large Scale Unsupervised Learning. International Conference of Machine Learning (ICML 2012), Edinburgh, 2012.,Papers on Scene Parsing, Farabet, Couprie, Najman, LeCun, “Scene Parsing with Multiscale Feature,Learning, Purity Trees, and Optimal Covers”, in Proc. of the International,Conference on Machine Learning (ICML12), Edinburgh, Scotland, 2012.,- Socher, Lin, Ng, Manning, “Parsing Natural Scenes and Natural Language with Recursive Neural Networks”. International Conference of Machine Learning (ICML 2011) 2011.,B,参考文献Locally Connected NetsB,参考文献,Papers on Object Recognition,- Boureau, Le Roux, Bach, Ponce, LeCun: Ask the locals: multi-way local pooling for image recognition, Proc. ICCV 2011,- Sermanet, LeCun: Traffic Sign Recognition with Multi-Scale Convolutional,Networks, Proceedings of International Joint Conference on Neural Networks (IJCNN11),- Ciresan, Meier, Gambardella, Schmidhuber. Convolutional Neural Network,Committees For Handwritten Character Classification. 11th International,Conference on Document Analysis and Recognition (ICDAR 2011), Beijing, China.,- Ciresan, Meier, Masci, Gambardella, Schmidhuber. Flexible, High Performance Convolutional Neural Networks for Image Classification. International Joint Conference on Artificial Intelligence IJCAI-2011.,Papers on Action Recognition, Learning hierarchical spatio-temporal features for action recognition with,independent subspace analysis, Le, Zou, Yeung, Ng. CVPR 2011,Papers on Segmentation, Turaga, Briggman, Helmstaedter, Denk, Seung Maximin learning of image,segmentation. NIPS, 2009.,B,参考文献Papers on Object Recogniti,参考文献,Papers on Vision for Robotics, Hadsell, Sermanet, Scoffier, Erkan, Kavackuoglu, Muller, LeCun: Learning Long-Range Vision for Autonomous Off-Road Driving, Journal of Field Robotics,26(2):120-144, February 2009,Deep Convex Nets & Deconv-Nets, Deng, Yu. “Deep Convex Network: A Scalable Architecture for Speech Pattern Classification.” Interspeech, 2011.,- Zeiler, Taylor, Fergus Adaptive Deconvolutional Networks for Mid and High Level Feature Learning. ICCV. 2011,Papers on Biological Inspired Vision, Serre, Wolf, Bileschi, Riesenhuber, Poggio. Robust Object Recognition with Cortex-like Mechanisms, IEEE Transactions on Pattern Analysis and Machine Intelligence, 29, 3, 411-426, 2007.,- Pinto, Doukhan, DiCarlo, Cox A high-throughput screening approach to,discovering good forms of biologically inspired visual representation. PLoS,Computational Biology. 2009,B,参考文献Papers on Vision for Robot,参考文献,Papers on Embedded ConvNets for Real-Time Vision Applications,Farabet, Martini, Corda, Akselrod, Culu
展开阅读全文