基于-深度卷积神经网络的图像分类

资源描述

SHANGHAI JIAO TONG UNIVERSITY论文题目：基于卷积神经网络的自然图像分类技术研究: 高小宁专业：控制科学与工程基于卷积神经网络的自然图像分类技术研究摘要：卷积神经网络已在图像分类领域取得了很好的效果，但其网络结构及参数的选择对图像分类的效果和效率有较大的影响。为改善卷积网络的图像分类性能，本文对卷积神经网络模型进行了详细的理论分析，并通过大量的对比实验，得出了影响卷积网络性能的因素。结合理论分析及对比实验，本文设计了一个卷积层数为8层的深度卷积网络，并结合Batch Normalization、dropout等方法，在CIFAR-10数据集上取得了88.1%的分类精度，有效地提高了卷积神经网络的分类效果。关键词：卷积神经网络，图像分类，Batch Normalization，DropoutResearch on Natural Image Classification Based on Convolution Neural NetworkAbstract: Convolution neural network has achieved very good results in image classification, but its network structure and the choice of parameters have a greater impact on image classification efficiency and efficiency. In order to improve the image classification performance of the convolution network, a convolutional neural network model is analyzed in detail, and a large number of contrastive experiments are conducted to get the factors that influence the performance of the convolution network. Combining the theory analysis and contrast experiment, a convolution layer depth convolution network with 8 layers is designed. Combined with Batch Normalization and dropout, 88.1% classification accuracy is achieved on CIFAR-10 dataset. Which improves the classification effect of convolution neural network.Key Words:Convolution neural network(CNN), image classification, Batch Normalization,Dropout目录基于卷积神经网络的自然图像分类技术研究- 1 -1 引言- 3 -2 卷积神经网络的模型分析- 4 -2.1网络基本拓扑结构- 4 -2.2卷积和池化- 5 -2.3激活函数- 6 -2.4 Softmax分类器与代价函数- 7 -2.5学习算法- 8 -2.6 Dropout- 10 -2.7 Batch Normalization- 11 -3 模型设计与实验分析- 12 -3.1 CIFAR-10数据集- 12 -3.2 模型设计- 13 -3.3 实验结果与分析- 15 -4 结论- 22 -参考文献- 23 -1 引言1986 年, Rumelhart等提出人工神经网络的反向传播算法 (Back propagation, BP), 掀起了神经网络在机器学习中的研究热潮。但是由于BP神经网络存在容易发生过拟合、训练时间长的缺陷, 90年代兴起的基于统计学习理论的支持向量机具有很强的小样本学习能力。学习效果也优于BP神经网络，导致了神经网络的研究再次跌入低估。2006 年, Hinton 等人在 Science 上提出了深度学习. 这篇文章的两个主要观点是: 1) 多隐层的人工神经网络具有优异的特征学习能力, 学习到的数据更能反映数据的本质特征，有利于可视化或分类;2) 深度神经网络在训练上的难度, 可以通过逐层无监督训练有效克服。理论研究表明为了学习到可表示高层抽象特征的复杂函数, 需要设计深度网络。深度网络由多层非线性算子构成, 典型设计是具有多层隐节点的神经网络。但是随着网络层数的加大, 如何搜索深度结构的参数空间成为具有挑战性的任务。近年来, 深度学习取得成功的主要原因有：1) 在训练数据上, 大规模训练数据的出现 (如ImageNet),为深度学习提供了好的训练资源; 2) 计算机硬件的飞速发展 (特别是 GPU 的出现) 使得训练大规模神经网络成为可能。卷积神经网络 (Convolutional neural networks, CNN) 是一种带有卷积结构的神经网络, 卷积结构采用权值共享的方式减少了深层网络占用的存量, 也减少了网络的参数个数, 缓解模型的过拟合问题。为了保证一定程度的平移、尺度、畸变不变性, CNN 设计了局部感受野、共享权重和空间或时间下采样, 提出用于字符识别的卷积神经网络LeNet-5。LeNet-5 由卷积层、下采样层、全连接层构成, 该系统在小规模手写数字识别中取得了较好的结果。2012 年, Krizhevsky等采用称为AlexNet的卷积网络在ImageNet竞赛图像分类任务中取得了最好的成绩, 是 CNN 在大规模图像分类中的巨大成功。AlexNet网络具有更深层的结构, 并设计了ReLU (Rectified linear unit) 作为非线性激活函数以及 Dropout 来避免过拟合。在AlexNet之后, 研究者由提出了网络层数更深的神经网络，例如Google设计的GoogLeNet和MSRA设计的152层的深度残差网络等。表 1 是ImageNet竞赛历年来图像分类任务的部分领先结果,可以看出，层数越深的网络往往取得的分类效果更好。为了更好地改进卷积神经网络, 本文在CIFAR10数据集上研究了不同的网络层设计、损失函数的设计、激活函数的选择、正则化等对卷积网络在图像分类效果方面的影响，本文引入了Batch Normalization与dropout结合的方法，通过加深卷层神经网络的层数，有效地提高了卷积神经网络在图像分类准确率。表1-1 ImageNet历年图像分类任务结果公布时间机构Top-5错误率（%）网络名称网络深度2015.12.10MSRA3.57ResNet1522014.8.18Google6.66GoogLeNet222013.11.14NYU7.33Clarifai102012.10.13U.Toronto11.7Alexnet82 卷积神经网络的模型分析2.1网络基本拓扑结构卷积神经网络与其他神经网络模型最大的区别是卷积神经网络在神经网络的输入层前面连接了卷积层，这样卷积层就变成了卷积神经网络的数据输输入。LeNet-5是YanLecun开发的用于手写字符识别的经典卷积神经网络模型，图2-1是其结构图。图2-1 LeNet-5结构图LeNet-5的体系结构有7层，其中有3个卷积层。第一卷积层由6个特征图 (Feature Maps, FM)组成，故C1包含156可训练参数(6个5X5核加上6偏值)来创建122304 (156* (28*28) -122, 304)个连接。在C1层FM的尺寸为28 x 28，由于边界条件，第二卷积层，C3包含1500权重和16偏置，C3层共有1516个可训练参数以及151600个连接。S2和C3之间的连接如表2-1所示。Lecun设计这些连接最大化的特征由C3提取的数目，同时减少权重的数目。在最后的卷积层C5包含120个FM，输出尺寸为1X1。LeNet-5的体系结构还包含有两个子采样层:S2和S4，S2包含6个特征图和S4有16个特征图。层S2有12个可训练的参数与5880连接，而层S4有32个可训练参数与156000连接。表2-1 S2与S3之间的连接总结LeNet-5的网络结构，我们得到卷积神经网络的基本结构可以分为四个部分:输入层，卷积层，全连接层和输出层四个部分：输入层:卷积输入层可以直接作用于原始输入数据，对于输入是图像来说，输入数据是图像的像素值。卷积层:卷积神经网络的卷积层，也叫做特征提取层，包括二个部分。第一部分是真正的卷积层，主要作用是提取输入数据特征。每一个不同的卷积核提取输入数据的特征都不相同，卷积层的卷积核数量越多，就能提取越多输入数据的特征。第二部分是pooling层，也叫下采样层（Subsamping），主要目的是在保留有用信息的基础上减少数据处理量，加快训练网络的速度。通常情况下，卷积神经网络至少包含二层卷积层(这里把真正的卷积层和下采样层统称为卷积层)，即卷积层-pooling层-卷积层-pooling层。卷积层数越多，在前一层卷积层基础上能够提取更加抽象的特征。全连接层:可以包含多个全连接层，实际上就是多层感知机的隐含层部分。通常情况下后面层的神经节点都和前一层的每一个神经节点连接，同一层的神经元节点之间是没有连接的。每一层的神经元节点分别通过连接线上的权值进行前向传播，加权组合得到下一层神经元节点的输入。输出层:输出层神经节点的数目是根据具体应用任务来设定的。如果是分类任务，卷积神经网络输出层通常是一个分类器，通常是Softmax分类器。2.2卷积和池化2.2.1卷积卷积，一般利用卷积核对图像进行特征提取，其中最重要的就是卷积核。卷积核的设计一般涉及卷积核的大小(size)，卷积核的数目(number)以及卷积核的步长(stride)。从理论上来说，卷积核的个数表示从上层过卷积滤波得到特征图的个数，提取的特征图越多，网络表示特征空间就越大，学习能力也就越强，最后识别结果就比较准。但卷积核太多(特征图太多)，增大网络的复杂度，增加参数的个数，加大了计算的复杂度，易出现过拟合现象，所以有时候卷积核也不并是越多越好，而应根据具体的数据集图像的大小确定卷积核的个数。图像卷积特征提取，通过设定的一个卷积核尺寸为的滤波器，步长(stride）为个像素，对一幅新的图像进行卷积处理，得到一个大小为的特征图，如图2-2所示。一般来说卷积核尺寸越小，特征提取的质量也就越高，具体大小还应根据输入图像的尺寸决定。图2-2 图像卷积示意图2.2.2池化对输入的图像邻域进行卷积处理得到图像的邻域特征图(Feature Map)，再通过亚采样层使用池化(pooling)技术将小邻域进行下采样得到新的特征。通过对上层池化，特征结果可以使得参数减少(降低了特征维数)，且增强特征使得最后的特征表达保持了某些不变性(旋转、平移、伸缩等)，所以说池化的本质是一个降纬的过程。常用的有均值采样(mean- pooling )、最大采样( max - pooling)。据相关理论，特征提取的误差主要来自两个方面：（1）邻域大小受限造成的估计值方差增大；（2）卷积层参数误差造成估计均值的偏移。一般来说，mean-pooling能减小第一种误差，更多的保留图像的背景信息，max-pooling能减小第二种误差，更多的保留纹理信息。2.3激活函数在神经网络中经常使用的激活函数有Sigmoid函数、Tanh函数、ReLu函数等，前两种激活函数在传统的BP神经网络使用的较多，ReLu函数在深度学习中使用的较多。ReLu ( rectified finear unit)函数是Hinton提出的修正线性单元(Relu) ,CNNs在利用ReLu函数进行训练几次之后明显比传统的sigmoid和tanh函数更快。假设一个神经单元的激活函数为，其中i表示隐含层单元的个数，表示隐含单元的权值，那么ReLu函数的表达式为：(2-1)其函数图像如图2-3所示：图2-3 ReLu函数图像由于ReLu函数具有线性的、非饱和的形式，单侧抑制，相对宽阔的兴奋边界，稀疏激活性，所以在卷积神经网络中的使用效果好于sigmoid和tanh函数。2.4Softmax分类器与代价函数在卷积神经网络应用于图像分类任务时，我们在神经网络最后一层全连接层后接一个Softmax分类器用于图像标签的预测。在softmax回归中，我们解决的是多分类问题（相对于 logistic 回归解决的二分类问题），类标可以取个不同的值（而不是2个）。因此，对于训练集，我们有。（注意此处的类别下标从 1 开始，而不是0）。对于给定的测试输入，我们想用假设函数针对每一个类别j估算出概率值。也就是说，我们想估计的每一种分类结果出现的概率。因此，我们的假设函数将要输出一个维的向量（向量元素的和为1）来表示这个估计的概率值。具体地说，我们的假设函数形式如下：(2-2)为了方便起见，我们同样使用符号来表示全部的模型参数。在实现Softmax回归时，将用一个的矩阵来表示会很方便，该矩阵是将按行罗列起来得到的，如下所示：(2-3)由上式子可得样本属于的概率为：(2-4)当每个样本所属类别的条件概率都最大时，分类器识别率最高，此时等价于最大化如下的似然函数：(2-5)为了降低计算量和防止溢出，对似然函数取对数，并适当变形得：(2-6)其中1.称为示性函数，表达的功能为：1 true =1，1false= 0。此时最大化似然函数等价于最小化代价函数，故使用梯度下降法求解的最小值，从而确定参数。代价函数的梯度为：(2-7)在实际应用中，我们为了防止过拟合问题，我们通常在代价函数后加正则化项（L2正则化），这样代价函数变为：(2-8)上式中的第二项它会对偏大的参数值进行惩罚，又称权值衰减项。适当的可以降低权值的数量级，从而控制网络参数的取值，在一定程度上防止了过拟合。2.5学习算法在神经网络的学习中我们主要利用反向传播算法来进行梯度计算，并且用梯度执行参数更新，主要的方法有随机梯度下降法（Stochastic Gradient Decent, SGD）,自适应矩估计法（Adaptive Moment Estimation，Adam）。通常情况下我们的训练数据集会比较大，如何一次性装载所有训练样本进行训练，往往会出现存溢出问题，所以我们实际中常常采用数据集的一个微型集(mini-batch，数量为N|D|，此时的代价函数为:(2-9)2.5.1 随机梯度下降随机梯度下降法每次输入一个微型集(mini-batch)对网络进行训练,由于每次的微型集都是随机选取的，所以每次迭代的代价函数会不同，当前bacth的梯度对网络参数的更新影响较大，为了减少这种影响，我们通常情况下会引入动量系数对传统的随机梯度下降法进行改进。momentum即动量，它模拟的是物体运动时的惯性，即更新的时候在一定程度上保留之前更新的方向，同时利用当前batch的梯度微调最终的更新方向。这样一来，可以在一定程度上增加稳定性，从而学习地更快，并且还有一定摆脱局部最优的能力。加动量的随机梯度下降算法迭代公式如下：(2-10)(2-11)其中是上一次的权值更新量，为动量系数，表示要在多大程度上保留原来的更新方向，这个值在0-1之间，为学习率。特点如下：下降初期时，使用上一次参数更新，下降方向一致，乘上较大的能够进行很好的加速下降中后期时，在局部最小值来回震荡的时候，使得更新幅度增大，跳出陷阱在梯度改变方向的时候，能够减少更新，总而言之，动量项能够在相关方向加速SGD，抑制振荡，从而加快收敛。2.5.2 自适应矩估计法Adam(Adaptive Moment Estimation)本质上是带有动量项的RMSprop，它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。Adam的优点主要在于经过偏置校正后，每一次迭代学习率都有个确定围，使得参数比较平稳。迭代公式如下：(2-12)(2-13)(2-14)(2-15)(2-16)其中，分别是对梯度的一阶矩估计和二阶矩估计，可以看作对期望，的估计；，是对，的校正，这样可以近似为对期望的无偏估计。可以看出，直接对梯度的矩估计对存没有额外的要求，而且可以根据梯度进行动态调整，而对学习率形成一个动态约束，而且有明确的围。特点如下：具有善于处理稀疏梯度和非平稳目标的优点对存需求较小为不同的参数计算不同的自适应学习率适用于大多非凸优化问题，也适用于大数据集和高维空间通常情况下且迭代速度快于SGD，但是其收敛精度一般不如SGD2.6 Dropout权值衰减(L2正则化)是通过修改代价函数来实现的，但是Dropout通过修改神经网络结构来实现的，它是在训练神经网络时用的一种优化方法。Dropout是指在模型训练时随机让网络部分隐含层单元的不工作，不工作的那些单元可以暂时不作为网络的部分计算，但保留它的权重(暂时不更新)，因为下次样本输入时它可能又工作。在训练过程中，Dropout是以一定概率将隐含层节点的输出清0，而用反向传播更新权值时，不再更新与该节点相连的权值，未设置Dropout与设置Dropout的神经网络结构如下：（a）无Dropout的神经网络结构（b）设置Dropout的神经网络结构图2-4 Dropout示意图2.7 Batch Normalization我们知道，在训练深度神经网络时，常常会发生“梯度弥散”问题,即当我们使用反向传播方法计算梯度导数的时候，随着网络深度的增加，反向传播的梯度（从输出层到网络的最初几层）的幅度值会急剧地减小。一个简单的例子就是：，结果就造成了整体的代价函数对最初几层网络的权值的导数非常小。这样，当使用梯度下降法的时候，最初几层的权重变化非常缓慢，以至于它们不能够从样本中进行有效的学习。为了解决梯度弥散问题，Google在2015年的ICML大会上提出了Batch Normalization的方法。Batch Normalization嘛，即“批规化”，即在每次进行随机梯度下降时，通过mini-batch来对相应的激活输出做规化操作，使得结果（输出信号各个维度）的均值为0，方差为1。具体的“批规化”算法如下：在Batch Normalization中，通过将激活函数的输出规为均值和方差一致的手段使得原本会减小的输出的变大，从而在很大程度上解决了梯度弥散问题，并加快了深度神经网络的训练。3模型设计与实验分析3.1CIFAR-10数据集CIFAR-10数据集含有6万的自然图像，共分为10种类型，由 Alex Krizhevsky, Vinod Nair和 Geoffrey Hinton收集而来。包含50000训练图片，10000测试图片，数据集的数据存在一个的数组中（按行存储，每一行表示一副图像），前1024位是R值，中间1024位是G值，最后1024位是值，数据集样例如图3-1所示。我们对实验数据集仅作简单的裁剪与白化处理后将像素值送入神经网络中进行训练。图3-1CIFAR-10数据集样例3.2 模型设计在上一章中我们对卷积神经网络性能的影响因素进行了分析，如何选择感受野大小、核个数、池化大小、网络的层数等。对此，我们根据这些影响因素并结合CIFAR-10数据集，设计了两个模型。一种是浅层卷积网络模型，一种是深度卷积网络模型，浅层卷积网络模型受Google TensorFlow的教学手册启发，深度卷积网络模型是结合了影响卷积网络性能的影响因素设计而成。浅层卷积网络与深度卷积网络的结构图分别如图3-2与图3-3所示。图3-2 浅层卷积网络图3-3 深度卷积网络两个网络的架构图分别如表3-1与表3-2所示。表3-1 浅层卷积网络架构图typePatch Size/stridesFeatureMapsdepthactivationlearning ruleconvolution33321ReLuSGD+Momentummax pool33/1, 2, 2, 1320convolution33641max pool33/1, 2, 2, 1640Full connection13384/1922softmax101表3-2 深度卷积网络架构图typePatch Size/stridesFeatureMapsdepthactivationlearning ruleconvolution33322ReLuSGD+Momentummax pool33/1, 2, 2, 1320convolution33642max pool33/1, 2, 2, 1640convolution331282max pool33/1, 2, 2, 11280convolution332562max pool33/1, 2, 2, 12560Full connection13384/1922softmax101若我们将下采样层(pooling)与归一化层（Batch Normalization）不计入网络层数的计算，则我们设计的浅层网络的深度为5，深度网络的深度为11。3.3 实验结果与分析3.3.1实验环境与基本参数设置：实验中我们采用Python+tensorflow进行编程，tensorflow是Google开发的一种深度学习框架，其提供了C+与Python接口，主要支持Linux与Mac OS，这种框架主要采用先进的图计算，即使用有向图的节点和边共同描述数学计算。graph中的nodes代表数学操作，也可以表示数据输入输出的端点。边表示节点之间的关系，传递操作之间互相使用的多位数组（tensors，量），tensor在graph中流动这也就是TensorFlow名字的由来。一旦节点相连的边传来了数据流，节点就被分配到计算设备上异步的（节点间）、并行的（节点）执行，这种灵活的架构允许我们使用相同的API在单或多CPUs或GPU，服务器及移动设备上进行计算。本文的编程环境处于Linux之中，具体的实验室环境如表3-3所示：表3-3 实验环境CPUi5-6500 CPU 3.20GHzGPUGTX750 ti2GB存8GB操作系统Linux mint 18深度学习框架Google TensorFlow（r0.12）编程语言Python 2.7为了后续进行对比实验，我们配置了基本的实验参数，后续相关的实验参数也是在基本参数上进行变动。权值衰减的实现是在代价函数中增加惩罚项，随机训练样本会造成这惩罚项产生较大的随机突变，干扰梯度更新方向的稳定性，同时增大训练误差，故惩罚项的参数需要非常小，一般都要小于0.001；另外，对神经元随机失能的比例不能太大，否则随机噪声会淹没训练集的作用；批处理尺寸（batch size）不能太大，负责会造成迭代过慢及存溢出问题，我们在CNN的训练时间、准确率和稳定性之间进行折中后的基本实验参数如表3-4所示。表3-4基本实验参数参数取值输入图像尺寸（image_size）批处理尺寸（batch size）128初始学习速率（）0.1学习速率衰减率（）0.1衰减间隔（NUM_EPOCHS_PER_DECAY）350动量系数（）0.9Dropout比例（）0.5权值衰减项权重（）0,0.001最大迭代步数（max_steps）10003.3.2 不同batch size对比实验我们采取不同的batch size，并选取随机梯度下降学习算法，在CIFAR-10数据集上进行了对比实验，各种不同batch size对应的代价函数曲线如图3-4所示。(a) batch size=128(b) batch size=256(c) batch size=512(d) batch size=1024图3-4不同batch size的代价函数曲线从图3-4可以看出，batch size为128与256时，代价函数的震荡较激烈，随着batch size增大到512与1024，代价函数的下降变得相对平稳，这是由于batch size越大越能代表总体的训练集样本分布，但是batch size越大，每次迭代所需时间就近线性增长，在实验室中，不同的batch size对应的处理速度如表3-5。表3-5 不同batch size的处理速度batch size处理速度（sec/batch）1280.102560.215120.4310240.85在后续实验中，为了加快收敛速度，我们取batch size = 128。3.3.3 不同激活函数对比实验我们分别选择三种激活函数，均采取Adam学习算法，经过1000次迭代后的代价函数曲线如图3-5所示。(a) sigmoid(b) tanh(c)ReLu图3-5 不同激活函数的代价函数曲线从上图中我们可以看出，在相同的迭代次数下，sigmoid型激活函数对应的代价函数值降低到2.0左右，而tanh型激活函数的代价函数下降到一个更小的值（1.01.5），最后ReLu激活函数的震荡更小，对应代价函数下降到一个比tanh型函数更小的值，这与其特性（单侧抑制相对宽阔的兴奋边界稀疏激活性）有关，所以ReLu型激活函数更适用于深度神经网络，后续我们的实验也是默认采用ReLu激活函数。3.3.4不同学习算法对比实验在保持基本实验参数设置的情况下，三种不同的学习算法的代价函数曲线如图3-6所示。从曲线图我们可以看出，SGD（随机梯度下降法）收敛速度最慢，而且曲线震荡明显；SGD+Momentum(随机梯度下降加动量因子)震荡减小且收敛速度加快，如果迭代次数足够多，可以收敛到一个比较理想的值；Adam(自适应矩估计法)收敛速度最快，且震荡较小，如果对精度没有严格要求话，Adam是一个较理想的选择（后续对比实验也默认采用Adam学习算法）。(a) SGD(b) SGD+Momentum(c) Adam图3-6 不同学习算法的代价函数曲线3.3.5 不同特征图个数对比实验我们以之前设计的浅层卷积网络为基础，分别设置两层卷积层的特征图（Feature Maps）个数为16-16,32-32,64-64，卷积核尺寸为55，pooling窗口尺寸为33，其他层保持不变，迭代10000步后，不同数目的特征图对应的测试集分类精度如表3-6所示。表3-6 不同Feature Maps对应的测试集精度Feature MapsPresion16-1670.0%32-3275.0%64-6479.5%由表3-5可知，在一定围，随着特征图（Feature Maps）个数的增多，对应的分类精度就越大，这是由于特征图个数越多，从输入图像中提取到的特征也就越多，模型的表达能力也就越强，所以在计算能力允许的情况下我们应该尽量增加特征图的数目，提高图像特征的提取质量进而增强模型的表达能力。3.3.6不同池化方式对比实验我们保持基本实验参数不变，分别采用averagepooling（均值采样）与max pooling（最大采样）两种池化方式，迭代10000次后的对应的测试集分类精度如表3-6所示，相应的代价函数曲线如图3-7所示。表3-7 不同池化方式对应的测试集精度PoolingPresionAverage poling77.9%Maxpooling79.5%(a) average pooling(b)max pooling图3-7 不同pooling方式对应的代价函数曲线从表3-6可以看出采用max pooling取得了更高的分类精度，从两者的代价函数曲线也可以看出max pooling可以将代价函数降到更低，这是由于max pooling减小了卷积层参数误差造成的估计均值偏移，所以后续的实验中我们也将采用max pooling的方式。3.3.7不同卷积层数对比实验我们在之前设计的浅层卷积网络的基础上增加两层卷积层，并与浅层卷积网络、深度卷积网络一起进行对比实验，保持基本的实验参数不变，采用Adam学习算法，迭代10000次后的分类精度如表3-8所示。表3-8 不同卷积层数对应的测试集精度卷积层数Presion279.5%683.1%883.6%由表3-8可知，随着卷积层数的增多相应的分类精度也在提高，这是由于卷积层数越多，对特征的抽象能力也就越强大，最后提取到的特征质量也就越高，所以一般来说，深度卷积网络比浅层卷积网络的性能要好。3.3.8深度卷积网络模型实验我们设置最大迭代次数为50000次，采用SGD+Momentum的学习算法，初始化学习率，每隔125次Epoch学习率衰减为上一次的0.1倍，其他参数保持基本参数不变，对应的代价函数曲线如图3-8所示。图3-8 深度卷积网络模型代价函数曲线经过50000次迭代后，代价函数大约稳定在0.20左右，最低为0.10，最后的分类精度为88.1%，CIFAR-10部分论文的分类精度如图3-9所示。从图中可以看出，本文的分类精度优于许多论文得到的分类精度，但是由于本文的方法并未对训练集图像做精细的预处理，所以本文的分类精度比一些做过相应预处理的论文结果要低；观察代价函数曲线可知，若迭代次数再增大，代价函数可以再进一步下降，但由于本文中使用的计算机计算能力有限，若迭代更多的次数需要的时间会很长，就不做进一步的迭代。图3-9 CIFAR-10部分论文分类精度4 结论本文通过分析影响卷积神经网络模型的各个因素（网络层数、学习算法、卷积核大小、pooling方式、激活函数、Dropout、Batch Normalization等），针对CIFAR-10图像数据集，设计了两个卷积网络模型（浅层网络模型与深度网络模型），经过实验对比，本文设计的深度网络模型的分类精度更高，并取得了88.1%的分类精度，比CIFAR-10官网上公布的大部分论文的分类精度要高，若想进一步提高分类精度，可以从以下几个方面进行改进：（1）对学习率进行更加精细的设计，使得在代价函数降低到0.2以下时可以有更加适合的学习率与之对应。（2）对输入图像进行精细的预处理（比如滤波、白化等）（3）原数据集进行数据增强，并进行更多次的迭代。参考文献1晓普. 基于卷积神经网络的图像分类D.理工大学,2015.2楚敏南. 基于卷积神经网络的图像分类技术研究D.大学,2015.3弛. 基于卷积神经网络的鞋印图像分类算法研究D.海事大学,2016.4龚丁禧,长荣. 基于卷积神经网络的植物叶片分类J. 计算机与现代化,2014,04:12-15+19.5莹,海仙. 基于卷积神经网络的图像分类研究J. 现代计算机(专业版),2016,05:67-71.6Alex Krizhevsky, IlyaSutskever, Geoff Hinton. Imagenet classification with deep con-volutional neural networksJ. Advances in Neural Information Processing Systems 25, 2012：1106-11147Ioffe S, Szegedy C. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate ShiftJ. Computer Science, 2015.8Simon M, Rodner E, Denzler J. ImageNet pre-trained models with batch normalizationJ. 2016.9Dan C C, Meier U, Gambardella L M, et al. Convolutional Neural Network Committees for Handwritten Character ClassificationC/ International Conference on Document Analysis and Recognition. IEEE Xplore, 2011:1135-1139.

展开阅读全文

基于-深度卷积神经网络的图像分类

最新文档