CNN特征可视化报告.ppt

资源描述

卷积神经网络特征可视化报告 AnnualReport 汇报人龚志雄首先介绍一篇可以视为CNN可视化开山之作的论文 VisualizingandUnderstandingConvolutionalNetworks 作者是MatthewD Zeiler和RobFergus 于2014年发表在ECCV 欧洲计算机视觉国际会议通过反卷积可视化等技术作者改进了AlexNet的网络结构得到了ZFNet 使得识别率进一步提高今年来CNN在图像分类和物体检测领域大放异彩主要是以下几项因素的作用 1 数以百万计带标签的训练数据的出现 2 GPU的强大计算能力 3 更好的模型调优策略如DropOut策略使得训练大的模型成为可能尽管如此从科学的角度来看这是令人很不满意的因为我们并不能解释这个复杂的模型也就不理解为什么它能达到这么好的效果而不了解这个模型如何工作和为什么有作用我们改进模型就只能使用试错法这篇论文提出了一种新的可视化技术揭示了模型中任意层的特征图片与输入之间的响应关系论文介绍上面的结构就是作者此篇论文中使用的CNN网络结构它是根据AlexNet的网络结构改进而来的本文选择了ImageNet2012作为训练集 130万张图片超过1000种类别训练过程在一块GTX580GPU上进行总共进行了70次全库迭代运行了12天单击此处编辑内容单击添加标题建议您在展示时采用微软雅黑体单击此处辑内容论文介绍本文将中间层特征反向映射到像素空间观察什么样的输入会导致特定的输出可视化过程基于 Zeiler2011 提出的反卷积网络实现本文模型中卷积网的每一层都附加了一个反卷积层每一层反卷积层有三个操作 unpooling 本文用了一种近似的方式计算maxpooling的逆过程在maxpooling的过程中用 Switches 表格记录下每个最大值的位置在unpooling的过程中我们将最大值标注回记录所在的位置其余位置填0 右下图片显示了unpooling的过程论文介绍矫正在卷积网中我们通过Relu激活函数来保证所有输出都是非负数这个约束对反卷积依然成立因此将unpooling得到的重构信号送进Relu函数中计算右下图显示的就是Relu函数的图像反卷积反卷积使用已经训练好的卷积核的转置作为核与矫正后的特征图进行卷积运算论文介绍论文介绍论文介绍论文介绍上面三张图显示的是layer1 layer5的部分节点通过反卷积过程产生的可视化特征图对于网络中的每个节点展示了9张在该节点上刺激最强的图片左边显示的是通过反卷积得到的可视化特征图右边显示的是对应的原始图片通过观察上面三幅图片我们至少可以得出两点结论 1 CNN特征提取具有层次化的特点第一二层响应物体的边缘轮廓颜色信息第三层捕获相似的纹理第四五层开始体现类与类之间的差异 2 每个节点只关注自己关注的特征而对其他特征不予理会例如layer5的第一行第二列的九张图片都只提取了背景中的草地特征而没有关注五花八门的前景特征论文介绍特征在训练过程的演化上图显示的是layer1 layer5所得到的反卷积可视图在训练迭代次数为1 2 5 10 20 30 40 64时的演变情况由此可以得出结论底层特征需要少量的迭代训练就能收敛但高层特征需要更多次的迭代才能收敛只有所有层都收敛时分类模型才能使用这也提供了一种确定迭代次数的思路当观察到高层网络的可视图收敛时就可以不用训练了单击此处编辑内容单击添加标题建议您在展示时采用微软雅黑体单击此处辑内容论文介绍单击添加标题建议您在展示时采用微软雅黑体单击此处辑内容论文介绍上面一张图片显示的是遮挡敏感性实验的结果图这个实验的过程是用一个灰色方块随机遮挡图片的某个区域观测这种操作对第五层的strongestfeaturemap和分类结果的影响第a列是三张输入图片在没有灰色方块遮挡的情况下分别被网络分类为博美犬车轮阿富汗猎犬这三张输入图片在第五层都有一个对应的strongestfeaturemap 也就是激活值最大的一个featuremap 第c列的黑框图片就是将这三张strongestfeaturemap用反卷积技术可视化可以看到图二反卷积后显示的是车上的文字但最终分类结果是车轮图三反卷积后显示的是右边女人的脸但分类结果是阿富汗猎犬所以复杂图片里高层所关注的特征并不一定是分类的结果论文介绍 b列的三张图片显示的是随着灰色方块位置的变化 strongestfeaturemap的激活值的变化情况横纵坐标表示灰色方块在原图中的位置颜色从蓝到红表示激活值从小到大第一张图片遮挡狗脸时 strongestfeaturemap的激活值是最小的第二张图片遮挡汽车上的文字包括反卷积图像里没有显示的文字时 strongestfeaturemap的激活值是最小的说明这个featuremap的作用就是来提取文字特征第三张图片遮挡人脸包括男人的脸时 strongestfeaturemap的激活值是最小的说明这个featuremap的作用就是来提取人脸的论文介绍 d列的三张图片显示的是随着灰色方块位置的变化正确分类准确率的变化情况横纵坐标表示灰色方块在原图中的位置颜色从蓝到红表示准确率从小到大第一张图片遮挡狗脸时正确分类准确率是最低的第二张图片遮挡车轮时正确分类准确率是最低的第三张图片遮挡整只狗时正确分类准确率是最低的经过这个实验回答了论文中提到的一个问题 anaturalquestionisifthemodelistrulyidentifyingthelocationoftheobjectintheimage orjustusingthesurroundingcontext 论文介绍反卷积可视化技术显示了AlexNet的一些问题 a是第一层卷积核 c是AlexNet网络的第二层可视化特征图 a中混杂了大量高频和低频的信息缺少中频的信息 c中由于选择了4作为跨度产生了无用的特征第一行第二列为了解决这些问题作者做了以下工作将第一层卷积核大小由11 11调整为7 7 将第一层和第二层卷积过程的跨度由4调整为2 调整后的结果为b和d 最终模型错误率为14 8 比AlexNet提高了0 5个百分点单击此处编辑内容单击添加标题建议您在展示时采用微软雅黑体单击此处辑内容论文介绍 CNN可视化还有另外一种方法梯度上升法这种方法的目的是合成一张在某个网络节点上产生最大激活值的输入图片为了合成这张图片我们开始从一张随机像素值的噪声图片x开始接下来我们使用这张噪声图作为CNN网络的输入向前传播然后取得其在网络中第i层j个卷积核的激活值a ij x 按照右边的公式反向传播更新输入图片不断重复上述过程直到图像x能够让第i层第j个节点具有较高的激活值梯度上升可视化单击添加标题建议您在展示时采用微软雅黑体单击此处辑内容梯度上升可视化上图是通过梯度上升得到的一些可视化结果这种方法一个很大的问题就是得到的图片会有很多重叠不易于观察单击添加标题建议您在展示时采用微软雅黑体单击此处辑内容梯度上升可视化

展开阅读全文

CNN特征可视化报告.ppt

最新文档