Boosting自下而上和自上而下的视觉特征的显著性估

资源描述

单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,LOGO,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,*,Boosting Bottom-up and Top-down Visual Features for Saliency Estimation,Boosting,自下而上和自上而下的视觉特征,的显著性估计,主要内容,四,、,模型比较和结果,5,六,、,读者小结,7,五,、,讨论与小结,6,摘要,1,一、简介,2,二、,学习一个视觉,显著,性的模型,3,三、实验程序,4,摘要,自由观赏自然场景时，最好的视觉显著模型尽管有显著的最新进展，在预测眼睛注视与人类的表现仍然落后。多数模型是基于低层次的视觉特点，自顶向下的特点的重要性尚未得到充分探讨或建模。在这里，我们结合了低级别的功能，如方向，颜色，强度，以前最好的自下而上的模式，采用自顶向下的视觉认知功能（例如，脸，人类，汽车等）的显著图，使用回归、,SVM,和,AdaBoost,分类，从这些特点里学习直接映射这些功能的的眼睛注视。通过广泛的试验三个基准眼球跟踪数据集，使用三种流行的评价分数，我们展示了：我们的,Boosting,模型优于,27,个最先进的模型，是迄今为止在注视预测最准确的模型。此外，我们的模型没有如区域分割这样复杂的图像处理，成功地检测到的最显著的一个场景中的对象。,视觉注意的过程中一直是许多心理学，神经科学，计算机视觉等研究的对象。相应地，一些计算模型已经在机器学习，计算机视觉和机器人领域引起关注。几个应用程序也已经被提出，并进一步提出了在这一领域的兴趣，包括：，自动创建拼贴,5,，视频压缩,6 9,，非真实渲染,8,，广告设计,10,。,自下而上的显著性的模型经常被评估，在自由观看任务中，预测人的注视。今天，许多显著性模型基于各种各样令人信服的技术，仍然每年都会有人引进新模型。然而，在预测眼睛注视时，模型和人类间观察员（,IO,）有很大的差距。,IO,模型“对于一个给定的刺激的输出，通过整合眼睛注视建成地图，而不是观看那个刺激。该模型预计将提供预测模型的准确度的程度，不同的人可能是对方的最好的预测者。上面提到的模型和人类之间的差距主要是由于自顶向下的因素的作用（参照图,1,）。,一,、,介绍,一,、,介绍,它被认为是自由观看的早期阶段（前几百毫秒），主要是基于图像醒目性的注意，后来，高层次的因素（例如，行动和事件）指导眼球运动,5339,。这些高层次的因素可能不一定转化为自下而上的显著性（例如，根据颜色，强度或方向），应考虑分开。举例来说，一个人的头部可能在其余的场景中不会特别突出，但可能会引起人们的注意。因此，结合高层次概念和低层次的功能扩展现有模型，并达到人类的表现似乎是不可避免的。,一,、,介绍,由,1,的启发，我们提出了三个贡献显著性的学习。首先，我们结合最好的两个方面：自下而上和自上而下的因素。通过比较,29,个显著性模型，我们整合功能，最好的自下而上的模式已经发现预测与自上而下的因素，如人脸，人，车，等人的注视，培养几个线性和非线性分类从这些功能中的录制品。第二，我们更强调内部零件更准确的显著性检测瞩目的对象（例如，人类上部）。通过大量的实验，我们证明了我们的相结合的方法，超过以前显著的学习方法（,1 48,），以及其他最新的方法，在,3,个数据集上，使用,3,个评价得分。第三，我们证明了我们的模型能够在一个场景中检测到最突出的对象，接近主流的显著区域检测的表现。,一,、,介绍,相关工作,：显著性模型简介,显著性模型一般可以分为认知（生物）或计算（数学），而有些发生在之间。几款根据,Itti,等人的自底向上的显著性模型,4,。这种模型是先执行,Koch,和,Ullman,的计算架构基于特征整合理论,1516,。在这个理论中，图像被分解为低一级的属性，如跨越几个空间尺度，然后归一化和线性或非线性相结合，形成一个主显著图的颜色，强度和方向。这一理论的一个重要组成部分是作为图像区域及其周围环境的独特性，显著性定义中心环绕的想法。这个模型还提出一个合适的架构适应视觉搜索理论和对象检测模型（例如，,18,）。基于去相关的神经反应，,Diaz,等人,29,提出了一种有效的模型被称为自适应白化显著性（,AWS,）的显著性。,Le Meur,等,33,，,Marat,等,36,，,Kootstra,等,17,提出的模型是其他以认知的调查结果为导向的模型。,另有，基于概率模型、基于频率模型等，这里不一一介绍。,一,、,介绍,与手动设计显著性措施相比，我们按照训练分类的一种学习方式，直接从人眼跟踪数据。其基本思路是的加权组合的功能，其中权重学会从一个大的库对自然图像的眼球运动，可以增强显著性检测比未经调整组合特征映射。学习方法也有容易适用于通过提高要素权重目标对象的可视化搜索的好处。,在下面，我们提出了一个朴素贝叶斯公式的显著性估计。让我们是一个二元变量表示的显著位置的图像像素,X=,（,X,，,Y,）与特征向量,f,，其中“,s,等于,1”,表示这个像素是突出的（也就是说，它可以吸引人类的眼睛）和零。像素,x,的概率是显著的可写为：,二,、学习一个视觉,显著,性的模型,上面的公式是基于假设特点可以出现在所有的空间位置（即，,x,和,f,是相互独立的，则,p,（,f|x,）,=p,（,f,）。我们进一步假设，在,S,的先验概率（即，位置突出与否）都是平等的。上式右边的第一项测量由于上面的图像的像素的特征的显著性，而第二项措施显著性的基础上的像素的空间位置。我们学习使用,p,（,s|f,）分类标注数据（倾向的位置）。我们估计,p,（,s|x,）：,其中，,d,（,X,，,X0,）是归一化的像素,x,从中心像素的,X0,的距离。,二,、学习一个视觉,显著,性的模型,低层次（自下而上）特点,传统上，强度，方向和颜色已被用于对静态图像的显著性推导。动态场景（视频），闪烁和运动特点也已经被其他几个低级别的特点（例如，大小，深度和光流）增加,5556,。在这里，我们先调整每个图像为,200200,像素，然后提取一组特点，我们使用低级每个像素,1,，因为他们已经被证明与视觉注意力相关的特点，并有潜在的生物合理性,1615,。低层次的特点列举如下：,13,个在,4,个方向,3,尺度的可操纵金字塔过滤器的局部特点,使用,Itti,和,Koch,显著的方法,4,计算的,3,强度，方向和颜色（红,/,绿和蓝色,/,黄色）对比通道。,3,个红色，绿色和蓝色通道，以及,3,个功能相对应的各颜色通道的概率值。,5,在,6,个不同尺度中值滤波器滤波的图像的三维颜色直方图计算从上述颜色通道的概率。,二,、学习一个视觉,显著,性的模型,这样产生了,30,个低级的特点。中心环绕操作需要注意的是，直接施加在地图的某些特点（例如，,Ltti,特征映射）。虽然在实践中，它是作为一个功能，可以使用任何自下而上的模型，在这里，我们利用,Torralba 32,，,AWS29,，,GBVS20,的模型，因为这些模型具有较高的固定预测能力，采用完全不同的显著性机制的速度，可以计算出从其他低级别的特点。,样本图像中提取的特征示于图,2,。,二,、学习一个视觉,显著,性的模型,二,、学习一个视觉,显著,性的模型,高级别（自顶向下）特点。,高级别特点，如人脸和文字,14,，人车,1,，对称性,17,，和体征已建议直接关注。据悉，这些都是通过一个人的一生的时间获得的先验知识一个挑战是检测情感（情绪）的功能和语义（高层次的知识）场景属性，如因果关系和行动的影响力，这被认为是很重要的引导注意力。这些因素都影响眼球固定的位置和持续时间,13,。我们将我们的功能集包括如下的高级别的功能：。,由于摄影师的倾向帧图像和对象水平所形成的水平线。,实施由,Felzenszwalb,的变形部分模型的人和车探测器（,DPM,）,50,。,使用,Viola,和,Jone,代码的人脸检测,51,。,二,、学习一个视觉,显著,性的模型,从注释的数据，我们注意到，某些地区吸引更多的关注对象，例如人类上部（头区）和脸部（眼睛，鼻子和嘴）（见图,3,）。为了提高这些地区的显著性，我们了解到该对象的平均显著图从训练数据了解到对象的检测区域。,二,、学习一个视觉,显著,性的模型,另一个重要特点是在前中心的基础上发现的：大多数的录制品在中心附近发生的图像（即中心偏置,39,）。与基线的方法进行公平比较的分类（,AWS,和,GBVS,模型），我们在这里单独对待中心功能。根据公式,2,，我们把每个模型的显著性图与,p,（,s|x,）相乘，,p,（,s|x,）是每个像素打牌中心的距离。,最终，所有的特点都变成,34,（,30,自底向上,+4,自上而下）向量（不含中心），被送入分类器（在下一节中解释）。,二,、学习一个视觉,显著,性的模型,分类器,我们调查线性和非线性分类器的固定预测能力。线性分类通常比较快，通过矩阵运算计算了解到的权重是比较容易解读。另一方面，非线性模型通常是速度慢，但更强大的。,回归。假设特征矢量,f,和显著性,s,之间的线性关系，解方程,FW=S,，其中，,F,和,S,是训练数据为,f,和,s,的矩阵。解决的办法是：,W=F+S,，,F+,是通过,SVD,分解最小二乘伪逆矩阵,F,。为了避免数值不稳定，这些特征向量的特征值是小于的最大特征值的一半的伪逆的计算过程中被丢弃。对于测试图像，特征提取，然后学习的映射被用于产生一个向量，然后调整大小到,200200,的显著图。,二,、学习一个视觉,显著,性的模型,SVM,。使用,liblinear,的支持向量机,2,，,liblinear,是一个公开的,SVM matlab,版，我们也训练,SVM,分类器。我们采用了线性的内核，因为它们是更快的执行以及非线性多项式和,RBF,内核的固定预测,1,。回归，而不是预测的标签（即，,1/-1,）相似，在测试中，我们使用的,WT,的值,F+b,，其中,W,和,b,的学习参数。,要调查的非线性映射功能显著性，我们使用,AdaBoost,算法,52,，在应用场景分类和识别物体时，其中有许多吸引人的理论性。鉴于,N,标记的训练实例,(ui,vi),，,vi1,+1,，,uiU,，,AdaBoost,的结合了一些弱分类器,Ht,学到了强分类器,H(u)=sign(f(u),；,f(u)=,，这里,t,是第,t,个分类器。,二,、学习一个视觉,显著,性的模型,本节对分类和功能提出一个全面的评估。,在这里，我们不仅评估了我们的模型，也比较几款模型以供日后参考。我们能够运行,27,个显著性模型。此外，我们还实施了其他两个简单但功能强大的模型：,Gaussian Blob,和人类中间观察者模型。,Gaussian Blob,的是一个简单的,2D,高斯形状的绘制图像的中心，它是预期预测人的目光，以及如果这样的凝视强烈图像中心的周围聚集。对于一个给定的刺激，当他们观看刺激时，中间观察员的模型输出一个通过整合比其他物体测试的地图。模型地图可以根据记录眼球运动来调整原始图像的大小。,三,、,实验程序,3.1,眼动数据集,由于可用的眼球运动数据集有不同的统计、各类刺激、受试者人数，在这里，我们利用公平的基准数据集来比较模型。第一个数据集，,MIT 1,，从,Flicker,和,LabelMe46,采集到的包含,1003,幅图像的数据集。图像的最长尺寸是,1024,，其他的尺寸范围从,405,到,1024,。它有,779,幅景观图像和,228,幅人像图像。,15,人类受试者观看的图像。图像显示,3,秒，每两个之间有,1,秒的灰色屏幕。第二个数据集，,Toronto 21,，是显著模型评价最高和最广泛使用的数据集。它包含,120,室内和室外场景的彩色图像。随机图片,4,秒，图像之间有,2,秒灰度掩模，,20,个的主题。,NUSEF,是最近推出的数据集，它有,758,幅包含情感的场景,/,物体如表现

展开阅读全文

Boosting自下而上和自上而下的视觉特征的显著性估

最新文档