MaskRCNN原理详解

上传人:hao****021 文档编号:245003008 上传时间:2024-10-07 格式:PPT 页数:10 大小:702KB
返回 下载 相关 举报
MaskRCNN原理详解_第1页
第1页 / 共10页
MaskRCNN原理详解_第2页
第2页 / 共10页
MaskRCNN原理详解_第3页
第3页 / 共10页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,Mask RCNN,解读,10/7/2024,Faster RCNN,Faster R-CNN,可以简单地看做“区域生成网络,RPNs+Fast R-CNN”,的系统,用区域生成网络代替,Fast R-CNN,中的,Selective Search,方法。,Faster R-CNN,这篇论文着重解决了这个系统中的三个问题:,1.,如何,设计,区域生成网络;,2.,如何,训练,区域生成网络;,3.,如何让区域生成网络和,Fast RCNN,网络,共享特征提取网络。,在整个,Faster R-CNN,算法中,有三种尺度:,1.,原图尺度:原始输入的大小。不受任何限制,不影响性能。,2.,归一化尺度:输入特征提取网络的大小,在测试时设置,源码中,opts.test_scale=600,。,anchor,在这个尺度上设定。这个参数和,anchor,的相对大小决定了想要检测的目标范围。,3.,网络输入尺度:输入特征检测网络的大小,在训练时设置,源码中为,224*224,2,Faster RCNN,1,:向,CNN,网络,【,如,VGG-16】,输入任意大小图片,:,2,:经过,CNN,网络前向传播至最后共享的卷积层,一方面得到供,RPN,网络输入的特征图,另一方面继续前向传播至特有卷积层,产生更高维特征图;,3,:供,RPN,网络输入的特征图经过,RPN,网络得到区域建议和区域得分,并对区域得分采用非极大值抑制,【,阈值为,0.7】,,输出其,Top-N【,文中为,300】,得分的区域建议给,RoI,池化层;,4,:第,2,步得到的高维特征图和第,3,步输出的区域建议同时输入,RoI,池化层,提取对应区域建议的特征;,5,:第,4,步得到的区域建议特征通过全连接层后,输出该区域的分类得分以及回归后的,bounding-box,。,3,RPN,RPN,的核心思想是使用,CNN,卷积神经网络直接产生,Region Proposal,,使用的方法本质上就是滑动窗口(只需在最后的卷积层上滑动一遍),因为,anchor,机制和边框回归可以得到多尺度多长宽比的,Region Proposal,。,RPN,网络也是全卷积网络(,FCN,,,fully-convolutional network,),可以针对生成检测建议框的任务端到端地训练,能够同时预测出,object,的边界和分数。只是在,CNN,上额外增加了,2,个卷积层(全卷积层,cls,和,reg,),4,Anchors,RPN,:训练样本,考察训练集中的每张图像:,a.,对每个标定的真值候选区域,与其重叠比例最大的,anchor,记为前景样本,b.,对,a),剩余的,anchor,,如果其与某个标定重叠比例大于,0.7,,记为前景样本;如果其与任意一个标定的重叠比例都小于,0.3,,记为背景样本,c.,对,a),b),剩余的,anchor,,弃去不用。,d.,跨越图像边界的,anchor,弃去不用,代价函数,同时最小化两种代价:,a.,分类误差,b.,前景样本的窗口位置偏差,5,Roi max pooling,roi_pool,层将每个候选区域均匀分成,MN,块,对每块进行,max pooling,。将特征图上大小不一的候选区域转变为大小统一的数据,送入下一层。对于,roi max pooling,,一个输入节点可能和多个输出节点相连。,6,Mask RCNN,其中 黑色部分为原来的 Faster-RCNN,红色部分为在 Faster网络上的修改:,1)将 Roi Pooling 层替换成了 RoiAlign;,2)添加并列的FCN 层(mask 层);,Mask-RCNN 的几个特点,1)在边框识别的基础上添加分支网络,用于 语义Mask 识别;,2)训练简单,相对于 Faster 仅增加一个小的 Overhead,可以跑到 5FPS;,3)可以方便的扩展到其他任务,比如人的姿态估计 等;,4)不借助 Trick,在每个任务上,效果优于目前所有的 single-model entries;,7,Mask RCNN,Mask-RCNN 技术要点,通过 ResNeXt-101+FPN 用作特征提取网络,达到 state-of-the-art 的效果。,采用 ROIAlign 替代 RoiPooling(改进池化操作)。引入了一个插值过程,先通过双线性插值到14*14,再 pooling到7*7,很大程度上解决了仅通过 Pooling 直接采样带来的 Misalignment 对齐问题。,虽然 Misalignment 在分类问题上影响并不大,但在 Pixel 级别的 Mask 上会存在较大误差。,结果对比能够看到 ROIAlign 带来较大的改进,Stride 越大改进越明显。,每个 ROIAlign 对应 K*m2 维度的输出。,K 对应类别个数,即输出 K 个mask,,m对应 池化分辨率。,Loss 函数定义:,Lmask(Cls_k)=Sigmoid(Cls_k),平均二值交叉熵(average binary cross-entropy)Loss,通过逐像素的 Sigmoid 计算得到。,8,双线性插值,9,THANK YOU,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!