详解卷积神经网络

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,Convolutional Neural Networks,卷积神经网络,杨皓轩,主要内容,卷积神经网络,诞生背景与历程,卷积神经网络应用,LeNet-5,手写数字识别,深度学习,Hinton,做了些什么,深度学习在数字图像识别上的运用,Hinton,如何在,2012,年,ImageNet,引起轰动,卷积神经网络提出的背景,浅层神经网络,大约二三十年前，神经网络曾经是机器学习领域特别热门的一个方向，这种基于统计的机器学习方法比起过去基于人工规则的专家系统，在很多方面显示出优越性。,卷积神经网络提出的背景,但是后来，因为,理论分析的难度,，加上,训练方法需要很多经验和技巧,，以及,巨大的计算量和优化求解难度,，神经网络慢慢淡出了科研领域的主流方向。,值得指出的是，神经网络（如采用误差反向传播算法：,Back Propagation,，简称,BP,算法，通过梯度下降方法在训练过程中修正权重使得网络误差最小）在层次深的情况下性能变得很不理想（传播时容易出现所谓的梯度弥散,Gradient Diffusion,或称之为梯度消失，根源在于非凸目标代价函数导致求解陷入局部最优，且这种情况随着网络层数的增加而更加严重，即随着梯度的逐层不断消散导致其对网络权重调整的作用越来越小），所以只能转而处理浅层结构（小于等于,3,），从而限制了性能。,浅层神经网络的缺陷,于是，,20,世纪,90,年代，有更多各式各样的,浅层模型,相继被提出，比如只有一层隐层节点的支撑向量机（,SVM,，,Support Vector Machine,）和,Boosting,，以及没有隐层节点的最大熵方法（例如,LR,，,Logistic Regression,）等，在很多应用领域取代了传统的神经网络。,显然，这些浅层结构算法有很多局限性：在有限样本和计算单元情况下对复杂函数的表示能力有限，针对复杂分类问题其泛化能力受到一定的制约。更重要的是，浅层模型有一个特点，就是需要依靠人工来抽取样本的特征。然而，手工地选取特征是一件非常费力的事情，能不能选取好很大程度上靠经验和运气。,能不能自动地学习一些特征呢？,深度学习的优势,深度学习通过学习一种深层非线性网络结构，只需简单的网络结构即可实现复杂函数的逼近，并展现了强大的从大量无标注样本集中学习数据集本质特征的能力。,深度学习能够获得可更好地表示数据的特征，同时由于模型的层次深（通常有,5,层、,6,层，甚至,10,多层的隐层节点，“深”的好处是可以控制隐层节点的数目为输入节点数目的多项式倍而非多达指数倍）、表达能力强，因此有能力表示大规模数据。,对于图像、语音这种特征不明显（需要手工设计且很多没有直观的物理含义）的问题，深度模型能够在大规模训练数据上取得更好的效果。,卷积神经网络,早在,1989,年，,Yann LeCun(,现纽约大学教授,),和他的同事们就发表了卷积神经网络（,Convolution Neural Networks,，简称,CNN,）的工作。,CNN,是一种带有卷积结构的深度神经网络，通常至少有两个非线性可训练的卷积层，两个非线性的固定卷积层（又叫,Pooling Laye,）和一个全连接层，一共至少,5,个隐含层。,CNN,的结构受到著名的,Hubel-Wiesel,生物视觉模型的启发，尤其是模拟视觉皮层,V1,和,V2,层中,Simple Cell,和,Complex Cell,的行为。,卷积神经网络应用,LeNet-5,手写数字识别,C1,层：,输入图片大小：,32,*,32,卷积窗大小：,5,*,5,卷积窗种类：,6,输出特征图数量：,6,输出特征图大小：,28,*,28(32-5+1),神经元数量：,4707 (28,*,28),*,6),连接数：,12304(5,*,5+1),*,6,*,(28*28),可训练参数：,156(5*5+1)*6,S2,层：,输入图片大小：,(28*28)*6,卷积窗大小：,2*2,卷积窗种类：,6,输出下采样图数量：,6,输出下采样图大小：,(14*14)*6,神经元数量：,1176(14*14)*6,连接数：,5880(4+1)*(14*14)*6,可训练参数：,12(6*2),卷积和子采样过程：,卷积过程包括：用一个可训练的滤波器,f,x,去卷积一个输入的图像（第一阶段是输入的图像，后面的阶段就是卷积特征,map,了），然后加一个偏置,b,x,，得到卷积层,C,x,。,子采样过程包括：每邻域四个像素求和变为一个像素，然后通过标量,W,x+1,加权，再增加偏置,b,x+1,，然后通过一个,sigmoid,激活函数，产生一个大概缩小四倍的特征映射图,S,x+1,。,C3,层：,输入图片大小：,(14*14)*6,卷积窗大小：,5*5,卷积窗种类：,15,输出特征图数量：,16,输出特征图大小：,10*10(14-5+1),神经元数量：,1600 (10,*,10),*,16),连接数：,151600,(60+16)*25,*,(10*10),（部分连接）,可训练参数：,1516(60+16)*25,连接数计算：,151600=(60+16)*25,*,(10*10),60=3,*,6+9,*,4+6,；,16,是因为每种神经元都有一个常数连接,其中打,X,了的表示两者之间有连接的。取我们学习到的网络（结构为,150-16,）中,16,个隐含节点种的一个拿来分析，比如拿,C3,中的第,3,号特征图来说，它与上层网络,S2,第,3,4,5,号特征图连接。那么该第,3,号特征图的值（假设为,H3,）是怎么得到的呢？其过程如下：,首先我们把网络,150-16,（以后这样表示，表面输入层节点为,150,，隐含层节点为,16,）中输入的,150,个节点分成,6,个部分，每个部分为连续的,25,个节点。取出倒数第,3,个部分的节点（为,25,个），且同时是与隐含层,16,个节点中的第,4,（因为对应的是,3,号，从,0,开始计数的）个相连的那,25,个值，,reshape,为,5*5,大小，用这个,5*5,大小的特征,patch,去,convolution S2,网络中的倒数第,3,个特征图，假设得到的结果特征图为,h1,。,同理，取出网络,150-16,中输入的倒数第,2,个部分的节点（为,25,个），且同时是与隐含层,16,个节点中的第,5,个相连的那,25,个值，,reshape,为,5*5,大小，用这个,5*5,大小的特征,patch,去,convolution S2,网络中的倒数第,2,个特征图，假设得到的结果特征图为,h2,。,继续，取出网络,150-16,中输入的最后,1,个部分的节点（为,25,个），且同时是与隐含层,16,个节点中的第,5,个相连的那,25,个值，,reshape,为,5*5,大小，用这个,5*5,大小的特征,patch,去,convolution S2,网络中的最后,1,个特征图，假设得到的结果特征图为,h3,。,最后将,h1,，,h2,，,h3,这,3,个矩阵相加得到新矩阵,h,，并且对,h,中每个元素加上一个偏移量,b,，且通过,sigmoid,的激发函数，即可得到我们要的特征图,H3,了。,S4,层：,输入图片大小：,(10*10)*16,卷积窗大小：,2*2,卷积窗种类：,16,输出下采样图数量：,16,输出下采样图大小：,(5*5)*16,神经元数量：,400(5*5)*16,连接数：,2000(4+1)*(5*5)*16,可训练参数：,32(16*2),C5,层：,输入图片大小：,(5*5)*16,卷积窗大小：,5*5,卷积窗种类：,120,输出特征图数量：,120,输出特征图大小：,1*1(5-5+1),神经元数量：,120 (1,*,120),连接数：,48120 16*25+1,*,1*120(,全连接）,可训练参数：,48120,16*25+1,*,1*120,F6,层：,输入图片大小：,(1*1)*120,卷积窗大小：,1*1,卷积窗种类：,84,输出特征图数量：,84,输出特征图大小：,1,神经元数量：,84,连接数：,10164 120*84,（全连接）,可训练参数：,10164,120*84,OUTPUT,层：,输入图片大小：,1*84,输出特征图数量：,1,*,10,最后，输出层由,欧式径向基函数,（,Euclidean Radial Basis Function,）单元组成，每类一个单元，每个有,84,个输入,。换句话说，每个输出,RBF,单元计算输入向量和参数向量之间的欧式距离。输入离参数向量越远，,RBF,输出的越大。一个,RBF,输出可以被理解为衡量输入模式和与,RBF,相关联类的一个模型的匹配程度的惩罚项。用概率术语来说，,RBF,输出可以被理解为,F6,层配置空间的高斯分布的负,log-likelihood,。给定一个输入模式，损失函数应能使得,F6,的配置与,RBF,参数向量（即模式的期望分类）足够接近。这些单元的参数是人工选取并保持固定的（至少初始时候如此）。这些参数向量的成分被设为,-1,或,1,。虽然这些参数可以以,-1,和,1,等概率的方式任选，或者构成一个纠错码，但是被设计成一个相应字符类的,7*12,大小（即,84,）的格式化图片。这种表示对识别单独的数字不是很有用，但是对识别可打印,ASCII,集中的字符串很有用。,使用这种分布编码而非更常用的“,1 of N”,编码用于产生输出的另一个原因是，当类别比较大的时候，非分布编码的效果比较差。原因是大多数时间非分布编码的输出必须为,0,。这使得用,sigmoid,单元很难实现。另一个原因是分类器不仅用于识别字母，也用于拒绝非字母。使用分布编码的,RBF,更适合该目标。因为与,sigmoid,不同，他们在输入空间的较好限制的区域内兴奋，而非典型模式更容易落到外边。,RBF,参数向量起着,F6,层目标向量的角色。需要指出这些向量的成分是,+1,或,-1,，这正好在,F6 sigmoid,的范围内，因此可以防止,sigmoid,函数饱和。实际上，,+1,和,-1,是,sigmoid,函数的最大弯曲的点处。这使得,F6,单元运行在最大非线性范围内。必须避免,sigmoid,函数的饱和，因为这将会导致损失函数较慢的收敛和病态问题。,Matlab,代码,Output,层与,F6,层合并实现：,layer 7 out,type:F,number of feature maps:10,number of neurons:10,number of connections:1210,number of parameters:1210,number of trainable parameters:1210,1210=(120+1)*10,http:/ Hinton,和他的两个学生在著名的,ImageNet,问题上用更深的,CNN,取得世界最好结果，使得图像识别大踏步前进。在,Hinton,的模型里，输入就是图像的像素，没有用到任何的人工特征。,深度学习,2006,年，,Geoffrey Hinton,基于深度置信网（,Deep Belief Net,：,DBN,）,其由一系列受限波尔兹曼机（,Restricted Boltzmann Machine,：,RBM,）组成，提出非监督贪心逐层训练（,Layerwise Pre-Training,）算法，应用效果才取得突破性进展。,之后,Ruslan Salakhutdinov,提出的深度波尔兹曼机（,Deep Boltzmann Machine,：,DBM,）重新点燃了人工智能领域对于神经网络（,Neural Network,）和波尔兹曼机（,Boltzmann Machine,）的热情，才由此掀起了深度学习的浪潮,深度学习的突破性文章,Hinton,G.E.,Osindero,S.and Teh,Y.,A f

展开阅读全文

详解卷积神经网络

最新文档