资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2018/6/20,#,Fully Convolutional Networks for Semantic Segmentation,“,汇报人:戴非凡,2023/6/20,目录,什么是语义分割,CNN,与,FCN,全连接,全卷积,上,采样与损失,跳动构造,Semantic Segmentation,什么是语义分割?,语义分割是计算机视觉中的根本任务,在语义分割中我们需要将视觉输入分为不同的语义可解释类别,语义的可解释性即分类类别在真实世界中是有意义的。例如,我们可能需要区分图像中属于汽车的全部像素,并把这些像素涂成蓝色。,论文主要贡献,CNN能对图片进展分类,可是怎么样才能识别图片中特定局部的物体FCN,1、FCN能承受任意尺寸的输入图像;AlexNet,LeNet,2、将全连接层改为全卷积层,保存原始输入图像中的空间信息,输出heatmap;,3、对每个像素而言,逐像素求其在全部heatmap上该像素位置的最大数值分类;,4、反卷积Deconvolution,5、提出了跳动构造,将来自较深较粗糙层的语义信息与较浅层精细的外观信息相结合。,VGG16,VGG16,CNN,与,FCN,通常CNN网络在卷积层之后会接上假设干个全连接层,将卷积层产生的特征图(feature map)映射成一个固定长度的特征向量。以AlexNet为代表的经典CNN构造适合于图像级的分类和回归任务,由于它们最终都期望得到整个输入图像的一个数值描述概率,比方AlexNet的ImageNet模型输出一个1000维的向量表示输入图像属于每一类的概率(softmax归一化)。,全连接,全卷积,任何全连接层都可以被转化为卷积层。,例如:一个K=4096的全连接层,输入数据体的尺寸是 77512,这个全连接层可以被等效地看做一个114096的卷积层。,换句话说,就是将滤波器的尺寸设置为和输入数据体的尺寸全都。结果输出将变成114096,这个结果就和使用初始的那个全连接层一样了。,全连接,全卷积,FCN将这3层表示为卷积层,滤波器的大小(通道数,宽,高)分别为(4096,7,7)、(4096,1,1)、(1000,1,1)。看上去数字上并没有什么差异,但是卷积跟全连接是不一样的概念和计算过程,使用的是之前CNN已经训练好的权值和偏置,但是不一样的在于权值和偏置是有自己的范围,属于自己的一个卷积核。,上采样,upsampling,经过屡次卷积和池化以后,得到的图像越来越小,区分率越来越低。产生图叫做heatmap热图,热图即为高维特征图,然后进展上采样,把图像进展放大、放大、放大,到原图像的大小,确保识别出来的类别能和原来每一个像素点的位置对上。,a natural way to upsample is therefore backwards convolution(sometimes called deconvolution).,上采样,upsampling,Thus upsampling is performed in-network for,end-to-end learning,by backpropagation from the pixelwise loss,.,上,采样参数是可学习的。,Deconvolution,为了对每个像素进展分类猜测成最终已经进展语义分割的图像,就对每个像素点分别在21个通道中进展softmax得到属于各类的概率,然后比较这21个通道中的概率哪个最大就选哪个类作为该像素的分类,因此产生了一张已经分类好的图。,直接利用ground truth作为监视信息训练一个端到端的网络。,最终逐个像素计算softmax分类的损失。,This model provides the a softmax cross entropy loss for training FCN.,cross entropy是用来评判一个输入向量和期望向量的接近程度即两个概率分布的距离;,softmax用于计算概率分布,即经过神经网络推导,一个样例属于不同类别的概率分别为多大;,从而可以通过穿插熵来计算猜测的概率分布和真实答案的概率分布之间的距离。,L,oss,L,oss,通过q来表示p的穿插熵:,刻画了通过概率q来表达概率p的困难程度。,p代表正确答案,q代表的是猜测值。,穿插熵值越小,两个概率分布越接近。,例:假设有一个三分类问题,某个样例的正确答案是1,0,0。两个模型分别经过softmax回归之后的猜测结果分别为0.5,0.4,0.10.8,0.1,0.1,两个模型的猜测和正确答案之间的穿插熵为:,Combining what and where skip architecture,CNN的强大之处在于它的多层构造能自动学习特征,并且可以学习到多个层次的特征:较浅的卷积层感知域较小,学习到一些局部区域的特征;较深的卷积层具有较大的感知域,能够学习到更加抽象一些的特征。,觉察分割结果较粗糙,所以考虑参与更多前层的细节信息,将其进展融合。,Receptive field,感知域/感受野receptive field:,卷积神经网络每一层输出的特征图上的像素点在原图像上映射的区域大小。可由中心位置和大小来表征。,固定大小,CNN,可视化,神经元感受野的值越大表示其能接触到的原始图像范围就越大,也意味着它可能蕴含更为全局,语义层次更高的特征;相反,值越小则表示其所包含的特征越趋向局部和细节。,Combining what and where skip architecture,不同的构造产生的结果比照:,FCN,【缺点】,1、即使8倍上采样比32倍上采样效果好,但上采样的结果是比较模糊和平滑的,对图像中的细节不敏感;,2、是对各个像素进展分类,没有充分考虑像素与像素之间的联系,缺乏空间全都性。,FCN,【总结】,FCN对图像进展像素级的分类,从而解决了语义级别的图像分割semantic segmentation问题。,与经典的CNN在卷积层之后使用全连接层得到固定长度的特征向量进展分类全连接层+softmax输出不同,FCN可以承受任意尺寸的输入图像,并将全连接层转变为卷积层。,承受反卷积层对最终一个卷积层的feature map进展上采样结合跳动架构,使它恢复到输入图像一样的尺寸,从而可以对每个像素都产生了一个猜测,同时保存了原始输入图像中的空间信息,。,最终在上采样的热度图上进展逐像素分类(逐个像素计算softmax分类的损失)。,谢 谢,
展开阅读全文