数字图像处理课程设计

上传人:kfc****89 文档编号:141948056 上传时间:2022-08-24 格式:DOC 页数:24 大小:692.84KB
返回 下载 相关 举报
数字图像处理课程设计_第1页
第1页 / 共24页
数字图像处理课程设计_第2页
第2页 / 共24页
数字图像处理课程设计_第3页
第3页 / 共24页
点击查看更多>>
资源描述
综合课程设计(计算机)题 目: 通过概率分布预测的端 到端的显著性映射 学 院: 理学院 班 级: 学 生 姓 名: 学 生 学 号: 指 导 教 师: 2016年 12月 24日课程设计任务书姓名班级学号设计题目通过概率分布预测的端到端显著性映射设计目标介绍一个新的显著图模型制定一个地图作为广义伯努利分布。然后,训练深层架构,使用新的损失函数来预测这样的地图,其将softmax激活函数与设计为计算概率分布之间的距离的度量配对。在广泛的实验中展示了这样的损失函数在四个公共基准数据集上的标准函数的有效性,并且证明了相对于最先进的显著性方法改进的性能。研究方法步骤预期结果一种新的显著性配方和模型,用于预测输入图像的显著图。 使用目标函数训练深度网络,该目标函数以概率分布的形式捕获目标和预测地图之间的距离。 对四个数据集的实验证明了本方法相对于其他损失函数和其他最先进的显著性估计方法的优越性能。计划与进步的安排第1、2天:查找题目相关的文献资料;第3、4天:粗读论文,了解其研究背景、相关工作和实验结果;第 5-7 天:详读论文,理解核心工作极其创新点;第8-10天:根据文章撰写课程设计报告;第 11 天:从网上搜索PPT模板并制作答辩PPT;第 12 天:汇报答辩,并根据教师提出的问题修改报告和PPT。目录摘要I1 引言12相关工作23本文要点33.1 问题模型53.2 算法设计64实验75结论86课程设计心得体会107 参考文献11注:(1)页脚:从摘要开始进行页码编号,; (2)目录内容用宋体4号; (3)目录可根据英文原文适当调整,包括2级标题、3级标题的设置等。摘要最显著性估计方法旨在显式地建模诸如边缘或斑点的低级别醒目提示,并且可以另外使用面部或文本检测来并入自上而下的提示。使用眼睛数据训练显著性模型的数据驱动方法越来越受欢迎,特别是随着大规模数据集和深层架构的引入。然而,后者范例中的当前方法使用为分类或回归任务设计的损失函数,而在地形图上评估显著性估计。在这项工作中,我们介绍一个新的显著图模型制定一个地图作为广义伯努利分布。然后,我们训练深层架构,使用新的损失函数来预测这样的地图,其将softmax激活函数与设计为计算概率分布之间的距离的度量配对。我们在广泛的实验中展示了这样的损失函数在四个公共基准数据集上的标准函数的有效性,并且证明了相对于最先进的显著性方法改进的性能。关键词:广义伯努利分布,损失函数,显著性方法综合课程设计(计算机)1 引言 这项工作涉及视觉注意预测,特别是,当给定输入图像时预测地形视觉显著图。 传统上,视觉注意在计算机视觉中用作预处理步骤,以便将后续处理集中在图像中感兴趣的区域上,随着视觉模型和数据集尺寸增加,视觉注意作为越来越重要的步骤。 显著图预测已经在诸如自动图像裁剪。内容感知图像大小调整,图像缩略图,物体识别和融合场景以及人类行为分类。传统显著性模型,如Itti等人的开创性工作。侧重于设计明确建模生物系统的机制。另一种流行的注意建模范例涉及使用数据驱动方法来学习补丁级分类器,其给予局部图像补丁“显著性得分”,使用眼睛数据来导出训练标签。最近出现的一种趋势与这两种模式相交:使用分层模型提取显著图,其中模型权重以受监督的方式被学习。特别地,已经成功地用于诸如分类或对象定位的语义标记任务中的端对端或“深”体系结构已经被重新用作注意模型。这种趋势通过引入使用新颖的眼动移动收集范例创建的大视觉注意数据集而得以促进16,43。然而,虽然这些深层方法集中在设计适当的架构以提取显著图,但是它们继续使用适用于语义任务的损失函数,例如分类或回归损失。 2 相关工作 现有的方法可以被组织成四个大类中的一个,基于它们是否涉及浅的或深的架构,以及无监督的或监督的学习范例。 我们将依次讨论这些大类。 对于一个优秀的显著性估计方法的调查,请参考2。无监督的浅层方法大多数早期的显著性工作建立在人类研究的心理和心理物理注意模型上。 Koch和Ullman 20首先使用特征整合理论40来提出一组基本线索的单独地形图,例如颜色,对比度和运动,并将它们组合起来以产生显著的全局地形图。 他们的模型是使用一个简单的神经电路实现的赢家获得所有和抑制回程机制。 在13中通过将特征图组合在一组更广泛的模态(42个这样的图)和对真实世界图像的测试中进一步研究。 后来的方法在很大程度上探讨了互补特征集14,41,26,24,45,32的相同想法,并且经常添加额外的中心环绕线索14,31,45。作为补充生物动机的方法,许多方法采用信息理论的注意选择理由,例如。 通过自我信息46,信息最大化4或贝叶斯惊奇12。 通过基于频谱的方法实现高计算效率10,35。 所有这些方法使用自下而上的线索,浅(一层或几层),并且不涉及阈值/启发式的或简单的学习。监督浅层方法此类别包括基于学习的方法,涉及模型如马可夫链8,支持向量机19,18和adaboost分类器6。 8代替中心的想法包围和规范化与可学习的图重量。 6,18和48通过以面部,人,汽车和地平线的检测图的形式引入自上而下的语义线索来丰富学习。无监督层次方法在显著性预测的上下文中,首先尝试采用更深层次的架构大多是无监督的。 37使用3层稀疏编码单元网络从固定图像块中学习更高层次的概念。 42执行大规模搜索以获得最多三层的最佳网络架构,但是网络权重未被学习。 DeepGaze 23采用现有的网络架构,5层深的AlexNet 21在ImageNet上进行对象分类训练,以证明即使没有训练,CNN的特性也能显著优于非深度和“较浅”的模型 明确地对显著性预测的任务。 在他们的情况下,学习意味着确定来自不同网络层的特征的最佳线性组合。监督层次方法大规模关注数据集的出版,如SALICON 16和TurkerGaze / iSUN 43,已经能够为深度预测的任务特别培训深层架构。 我们的工作在于这一类,并涉及培训具有新颖的损失函数的端对端深度模型。SALICON 16收集了一个新的数据收集范例,其中观察者显示移动的图像,并要求移动鼠标光标周围,以模拟高分辨率中央凹。 这种新的范例用于注释来自MSCOCO数据集的20K图像25。 依靠这个新的大规模数据集,33的作者训练了一个网络端到端的显著性预测。 他们的网络,名为JuntingNet,由五个卷积和两个完全连接的层组成,网络的参数通过最小化在地面真实显著图上定义的欧几里得损失函数来学习。 这种方法报告了LSUN 2015显著预测挑战的最先进的结果47。另一种端到端方法将显著性预测作为回归来制定22。 DeepFix建立在非常深的VGGNet 38上,使用具有大和多尺寸接收场的卷积层来捕获互补图像上下文,并引入位置偏置卷积(LBC)层来建模中心偏置。最后,这个范例中最近的一个作品11提出使用深层神经网络通过双管齐下的策略来弥合显著性预测中的语义差距。 第一个是使用KL-发散作为损失函数,其由以下事实激发:它是用于评估显著性方法的标准度量。 第二个是来自粗略和精细分辨率的响应图的聚集。在这项工作中,我们认为显著图的良好动机的概率模型,因此研究使用KL散度,其他概率距离度量,作为损失函数。 正如我们在第4节讨论的,我们观察到,我们的Bhattacharyya基于距离的损失函数一致地优于基于KL-发散的4个标准显著性度量。3 本文要点显著性估计方法通常试图基于显著性提示(诸如局部边缘或块状结构)或者基于在固定和非固定图像块上训练的二值显著分类器的分数来对局部显著性进行建模。 最近,方法已经试图使用像素级回归来直接预测地图。然而,视觉注意是一个根本上随机的过程,因为它是一个感性的,因此是主观的现象。 在对39个观察者观察的300张图像的分析中,17的作者发现,一组个观察者的固定与来自不同组个观察者的固定相匹配,AUC分数随着值的增加而增加 。 发现人类表现的下限为85AUC。 因此,观察者之间存在高一致性。 在的极限,该AUC分数为92,因此可以被认为是显著性估计性能的现实上限。地面真实显著图是从多个观察者的聚集的固定构造的,忽略任何时间固定信息。具有高固定密度的区域被解释为受到更多的注意。由于注意被赋予局部区域而不是精确像素,二维高斯滤波通常被应用于二元固定图以构建平滑的“注意的景观”44(参见图1,中间图像为例)。我们的目标是预测这种注意的景观,或显著图。给定地图基于的固定的随机性质,以及地图基于没有时间信息的聚合固定的事实,我们建议将显著图建模为像素上的概率分布,其中每个值对应于概率的像素被固定。也就是说,我们将显著图表示为广义伯努利分布其中是形成图像的一组像素的概率分布,是概率的像素被固定在上面,是图像像素的数量。虽然这个公式有点简单,它将允许新的损失函数高度训练深度模型与反向传播。接下来,我们首先描述这些损失函数,然后描述我们的模型实现。 3.1 学习预测固定的概率 我们采用端到端的学习框架,其中对成像的图像和地面真实显著图被建模为分布的全卷积网络进行训练。 网络输出预测分布。 使用softmax激活函数来计算两个概率分布和:, , (1)()或预测地图()的非归一化显著性响应值的集合,其中。 为了计算,从地面真实眼图首先生成二进制固定图。 然后二进制映射与高斯核进行卷积,如本节前面所述,以产生。 然后将平滑的映射标准化为 . (2) 我们从我们深层网络的最后一个响应图直接生成,其架构在下一节中描述。我们建议将softmax函数与适用于概率分布的距离测量相结合,以便构造用于训练网络的目标函数。这种组合的灵感来自流行和有效的softmax /交叉熵损失配对,其通常用于训练用于多项Logistic回归的模型。在我们的例子中,我们建议将softmax函数与,总变差,余弦和Bhattacharyya距离度量结合起来,如表1所示。据我们所知,这些配对以前没有用于训练网络的概率分布预测。我们还研究了KL发散度量的使用,其最小化等效于交叉熵最小化,并广泛用于学习深层网络中的回归模型。由于与softmax函数的配对,关于的这些损失函数的偏导数都是的形式,其相对于的偏导数 (3)我们比较两个标准回归损失,欧几里德和Huber损失,定义为: , (4)和 (5)概率距离发散总变化距离余弦距离Bhattacharyya距离iKL发散表1.用于具有反向传播的随机梯度下降的概率距离测度及其导数。 我们建议使用第一个4个变量作为损失函数。 我们还调查KL-发散,其广泛用于以紧密相关的交叉熵损失的形式训练识别模型。3.2 训练预测模型网络架构和显著图提取流程如图2所示。我们使用VGGNet模型38的卷积层,这是在ImageNet图像上进行分类任务的训练,作为我们模型的早期层。这种卷积子网络已被证明为各种不同的任务提供良好的局部特征图,包括对象定位34和语义分割27。由于显著性数据集往往太小,不能从随机初始化训练这样大的网络(最大的数据集有15000个图像,而ImageNet的1M),必须用预训练网络初始化。然后,我们使用额外的卷积层逐渐减少特征图的数量,直到产生最后的下采样显著图。我们添加了三个新的层,而不是只有一个,以预测最终地图,以提高可辨别性和泛化性38。我们实验了不同的滤波器尺寸,除了77(例如99,55,33),并发现没有显著的性能差异。我们明确地避免了完全连接的层,以获得一个内存和时间模型。三个新层被初始化为具有= 0.01的均匀高斯分布。因为响应图经历了几个最大合并操作,所以预测显著图p p p比输入图像分辨率低。因此,地面真值图g g g在训练期间被下采样以匹配p p p的维度。相反,在推理期间,预测图被用双线性滤波器上采样以匹配输入图像的尺寸(参见图2),并且softmax函数被应用于概率分布的归一化。最终的完全卷积网络包括16个卷积层,每个卷积层后面是ReLu层。由于完全卷积架构,对于深度模型来说,大小是相当小的,只有15,530,481个权重(60MB的磁盘空间)。注意,虽然几个深显著性模型明确地包括中心偏差(参见例如22),但是我们假设该模型可以隐含地学习中心偏差,因为它主要是摄影师倾向于放置的构图偏差的伪像高度突出的物体在图像中心3。我们使用MIT显著性基准5的后处理代码,通过向优化的参数添加高斯模糊和中心偏置来测试这一点。我们发现使用此后处理的不同度量没有一致的改进,这表明在模型中已经考虑了大量的中心偏置和高斯模糊。使用随机梯度下降优化目标函数,其中学习率为新引入层的全局学习率的1倍,并且已经在ImageNet上预训练的那些层的全局学习率的0.1倍。为了减少训练时间,第一4卷积层被固定,并因此保持它们的预训练值。我们使用0.9的动量和0.0005的重量衰减。该模型在Caffe中实现15。我们使用Nvidia K40 GPU训练网络。 SALICON培训班的培训时间为30小时。显著性数据集倾向于具有语义偏差和与收集眼睛跟踪信息(例如到屏幕的观看距离和眼睛跟踪器校准)的复杂性相关的其他特性。为此,我们执行数据集特定调整,这提高了性能。微调在我们的情况下是特别重要的,因为SALICON数据集收集鼠标点击代替实际的眼睛,虽然高度相关,一般仍然是真实的人眼运动的近似。如SALICON图像的子集所示,SALICON固定和人眼固定之间的图像水平一致性可以低至0.655的缩小AUC(sAUC),并且高达0.965的sAUC 16。 因此,有益的是对每个感兴趣的数据集进行网络调整。 以下是每个数据集的详细描述。图2.我们提出的显著图提取管道:输入图像被引入到具有与VGGNet的卷积层部分相同的架构的convNet中。 然后应用附加的卷积层,产生在测试时被上采样和软最大归一化以产生最终显著图的单个响应图。 4 实验 本节描述用于训练和评估显著性预测模型的实验数据集,随后讨论结果的定量和定性方面。4.1数据集 SALICON这是在公共领域可用的最大的显著性数据集之一16。它包括来自MS COCO数据集的20000张图像的眼图信息25。这些图像包含各种室内和室外场景并显示一系列场景杂乱。 10000个图像标记为训练,5000个为验证,5000个为测试。测试集的固定数据保留,并且必须在远程服务器上评估其性能。 SALICON的特点在于其基于鼠标的范例用于固定收集。定义显著性固定的人类注意机制中的注意力集中(foveation)是使用模糊图像上的鼠标移动来模拟的。当用户使用鼠标光标浏览图像场景时,围绕鼠标位置的近似中心凹图像区域被选择性地模糊。如在数据集的子集上评估的,这种鼠标点击数据通常与人眼固定(在0.89sAUC)高度一致。因此,尽管鼠标固定数据是人类基线的近似值,但是它适用于将原先针对不同任务训练的深度网络的权重适配于新的显著性预测任务。我们使用这个数据集作为我们在选择的概率距离作为学习期间的损失函数的比较研究。我们还向SALICON挑战服务器提交了我们最好的性能模型47。MIT-1003这个数据集是作为列车的一部分引入的18中的测试范式。 使用头戴式眼睛跟踪装置为15个不同的观看者收集眼睛跟踪数据。 该数据集的1003幅图像涵盖自然的室内和室外场景。 对于我们的实验,我们使用第一900图像进行训练,其余103图像的验证,类似于22的范式。MIT-300该基准包括39个不同观察者收集的300张图像的持续眼动追踪数据17。 该数据集的数据收集范例与MIT-1003中使用的数据集范例非常相似。 因此,根据在线基准的建议,我们使用MIT-1003作为训练数据来调整MIT-300。OSIE此基准包含一组700图像。 这些包括自然的室内和室外场景,以及从Flickr和Google拍摄的高美学质量的照片。 为了从自上而下的理解中获得,该数据集提供对象和语义级信息(我们不使用)以及眼睛跟踪数据。 根据28的工作,我们随机划分为500个训练和200个测试图像,并在10倍交叉验证的平均结果。VOCA-2012除了SALICON,以前的数据集相对较小,最多有1003幅图像。 对实际固定的大规模数据集的评估将更有信息。 然而,据我们所知,没有真正大规模的数据集的自由观看的固定。 相反,我们评估VOCA-2012,行动识别数据集,增加了任务依赖的眼睛数据30。 预测这样的固定是一个不同的任务,以预测自由观察固定,我们的模型设计的任务。 因此,我们评估这个数据集,以确定我们的模型是否推广到这个任务。生成地面真实图从固定数据创建地面真实显著图,我们使用每个数据集作者建立的显著图生成参数。 对于SALICON,这意味着使用宽度为153和标准偏差19的高斯内核卷积二进制固定图。对于OSIE,这意味着应用宽度为168和标准差为24的高斯核(全部以像素为单位)。 MIT-1003和MIT300的作者提供地面真实显著图,根据他们的技术报告17,用高斯核计算,其大小对应于每个图像8个周期的截止频率。距离AUC-JuddsAUCCCNSS欧几里得HuberKL发散发散总变化距离 余弦距离Bhattacharyya距离0.8650.8670.8760.8720.8690.8710.8800.7610.7660.7800.7740.7660.7780.7830.6670.6840.7240.7110.7160.7170.7402.1082.1772.3712.3372.3852.3632.419表2. SALICON验证集:使用不同损耗函数训练的模型的性能比较4.2 结果 我们首先比较不同损耗函数的结果,然后与最先进的方法进行比较。 对于每个数据集,我们遵循已建立的评估协议和报告结果的标准显著性度量,包括sAUC,AUC-Judd,AUC-Borji,相关系数(CC),归一化扫描路径显著性(NSS),相似性 距离(EMD)。损失函数我们将使用我们提出的损失函数训练的模型的性能与基于欧几里德距离,Huber距离和KL-发散度量的标准损失函数训练的模型的性能进行比较。这些模型都是在SALICON训练集的10K图像上训练的,并在SALICON验证集的5K图像上验证。表2呈现了对于每个损失的最佳验证集性能,如通过关于4个度量的总体性能所测量的。这些结果表明:(i)基于适合于概率分布的距离测度的损失比标准回归损失更好; (ii)KL-发散优于其他方法;和(iii)Bhattacharyya基于距离的损失胜过所有其他损失。这两个最后的损失具有这样的性质,即它们对异常值是鲁棒的,因为它们抑制概率之间的大差异(在KL散度的情况下为对数,在Bhattacharyya距离的情况下为几何)。这种鲁棒性是特别重要的,因为地面真实显著图是源于由于视觉注意的主观性而具有自然变化的眼睛,并且还可能包含杂散的固定和其他噪声。图3显示了SALICON验证集上的显著性度量随着训练进展的演变。 Bhattacharyya距离始终是最好的。图3.随着训练迭代次数的增加,SALICON评估集上不同度量的演变。方法CCsAUCAUC-BorjiIttle14GBVS8BMS45WHU_IIP*Xidian*Rare12_Improved*UPC330.2050.4210.4270.4570.4810.5110.5960.6100.6300.6940.6060.6810.6640.6700.6600.7820.7700.7760.8000.8050.829PDP0.7650.7810.882表3. SALICON挑战:不同方法之间的比较。 标记为*的方法至今没有相关的出版物。 与现有技术的比较我们使用Bhattacharyya距离与我们的四个标准显著性基准的最先进的方法比较我们提出的模型的性能如下。 SALICON挑战:显著性估计挑战47在于预测从SALICON数据集中提取的5000个图像的显著图。 表3示出了用于概率分布预测的现有技术方法和我们的方法的结果,其被称为PDP。 我们胜过所有三个指标的所有发布结果,在我们的知识,这个数据集。MIT-300:MIT-1003图像作为训练集,用于调整到这个基准。 结果在表4中进行比较。我们的表现与最先进的方法相当。 请注意,DeepFix 22在其模型中包含外部线索,如中心和水平偏差。 我们认为包括这样的线索也可以改善我们的模型。 此外,他们使用更大的架构,但训练与回归损失。 因此,我们的方法可以补充他们。 MIT-1003上的微调只能使用1个图像的批量大小进行,因为图像的大小和纵横比差异很大。 我们观察到0.70的大大减小的动量提高了稳定性,并允许有此约束的模型的有效学习。方法AUC-JuddSIMEMDAUC-BorjisAUCCCNSSeDN42BMS45SALICON11DeepFix220.820.830.870.870.410.510.600.674.563.352.622.040.810.820.850.800.620.650.740.710.450.550.740.781.141.412.122.26PDP0.850.602.580.800.730.702.05表4. MIT-300:与现有技术的比较方法sAUCItti14SUN46Signature9GBVS8LCQS-baseline280.6580.7350.7490.7060.765PDP0.797表5.OSIE:通过10倍交叉验证对平均AUC(sAUCE)的性能度量进行平均。 (基线结果取自28。)我们对显著性估计的概率性视角在两个方面是直观的。 首先,注意力是有竞争力的,因为我们看着某些地区的图像,牺牲别人。 因此,在整个视觉刺激上归一化的固定图可以被理解为空间概率分布。 其次,概率框架允许模型考虑跨主题和数据收集范例的噪声。为了提供定性洞察,一些随机选择的预测地图如图4所示。我们的方法一致地给出高中心 - 环绕对比度区域的高固定概率,以及高层次的线索,如身体,面部和较小 范围,文本。 与文本相比,对主体和面部的更高强调可能是由于在SALICON数据集中包含人和面部的大量图像。方法KLAUCHOG 探测器*30Judd et al.*18Itti & Koch13中央偏见30人类308.5411.0016.539.596.140.7360.7150.5330.7800.922PDP(不整合)PDP*(整合)7.928.230.8450.875表6.VOCA:KL-发散和AUC测量的性能比较。 注意,通过使用一个人类观察者的固定来预测剩余观察者的固定,可以实现最佳性能。 粗体结果表示在测试时不需要人工干预的最佳性能方法。 (*表示已经在这个特定数据集上训练的方法)。 图片 GT BMS SALICON PDP图4. BMS,SALICON和我们为MIT-1003随机抽样图像提出的PDP方法的比较。 GT是指地面真实显著图。 注意,为了确保公平的比较,这里所示的PDP结果仅仅是从在SALICON图像上训练的网络获得的,没有对该数据集进行精细调谐。图5示出了在已经使用给定数量的训练图像来训练模型之后在正向通道上获得的SALICON训练图像的显著图预测。 可以看到,在已经看到少于50个图像之后,中心 - 环绕对比线提示被非常快速地学习。 面孔(动画和非动画对象)也被快速学习,已经看到少于100个图像。 文本的显著性也相当快地出现。 然而,提示没有那么强烈地识别,可能是由于涉及文本的相对较少的训练数据。 样品 图片 GT 预测结果5050100100100100图5.我们的方法快速地了解到高中心区域的对比度,面部和头部是显著的5 结论 我们介绍一种新的显著性配方和模型,用于预测输入图像的显著图。 我们使用目标函数训练深度网络,该目标函数以概率分布的形式惩罚目标和预测地图之间的距离。 对四个数据集的实验证明了我们的方法相对于其他损失函数和其他最先进的显著性估计方法的优越性能。 他们还说明了使用适合此任务的适当学习标准的好处。正文具体说明:要求:论文页数,正文在8页以上字体:宋体小四 (行距20磅)内容:要求如下:1格式要和英文原稿尽量保持一致,但不用分栏,单栏即可;2文中的专业术语可以直接用英文表示,不翻译; 3文中的图、表及其相应的标注必须也要翻译; (2)标题:一级标题黑体2号、二级标题黑体3号、三级标题黑体4号; (3)小节标题可根据情况自己适当改动;6 课程设计心得体会通过此次课程设计,使我更加扎实的掌握了有关图像数字处理方面的知识,并了解了通过概率分布预测的端到端显著性映射概念这一课题的内容,在设计过程中虽然遇到了一些问题,但经过一次又一次的思考,一遍又一遍的检查终于找出了原因所在,也暴露出了前期我在这方面的知识欠缺和经验不足。实践出真知,这次的课程设计中不仅检验了我所学习的知识,也培养了我如何去把握一件事情,如何去做一件事情,又如何完成一件事情。课程设计是我们专业课程知识综合应用的实践训练,通过这次课程设计,综合运用本专业所学课程的理论和实际生产的经验巩固了我对数字图像处理等各方面的知识。 课程设计是一门专业课,给我很多专业知识以及专业技能上的提升,同时又是一门讲道课,一门辩思课,给了我许多道,给了我很多思,给了我莫大的空间。同时,设计让我感触很深。使我对抽象的理论有了具体的认识。我认为,在这次的课程设计中,不仅培养了独立思考、动手操作的能力,在各种其它能力上也都有了提高。更重要的是,在实验课上,我们学会了很多学习的方法。而这是日后最实用的,真的是受益匪浅。要面对社会的挑战,只有不断的学习、实践,再学习、再实践。这对于我们的将来也有很大的帮助。以后,不管有多苦,我想我们都能变苦为乐,找寻有趣的事情,发现其中珍贵的事情。就像中国提倡的艰苦奋斗一样,我们都可以在实验结束之后变的更加成熟,会面对需要面对的事情。 课程设计是我们专业课程知识综合应用的实践训练,着是我们迈向社会,从事职业工作前一个必不少的过程“千里之行始于足下”,通过这次课程设计,我深深体会到这句千古名言的真正含义我今天认真的进行课程设计,学会脚踏实地迈开这一步,就是为明天能稳健地在社会大潮中奔跑打下坚实的基础7 参考文献1 R. Achanta and S. Susstrunk. Saliency detection for contentaware image resizing. In ICIP, 2009. 1 2 A. Borji and L. Itti. State-of-the-art in visual attention modeling. TPAMI, 2013. 2 3 A. Borji and J. Tanner. Reconciling saliency and object center-bias hypotheses in explaining free-viewing xations. IEEE TNNLS, 2015. 4 4 N. Bruce and J. Tsotsos. Saliency based on information maximization. In NIPS, 2006. 2 5 Z. Bylinskii, T. Judd, A. Borji, L. Itti, F. Durand, A. Oliva, and A. Torralba. Mit saliency benchmark. http:/saliency.mit.edu/. 4 6 M. Cerf, J. Harel, W. Einhauser, and C. Koch. Predicting human gaze using low-level saliency combined with face detection. In NIPS, 2008. 2 7 S. O. Gilani, R. Subramanian, Y. Yan, D. Melcher, N. Sebe, and S. Winkler. PET: An eye-tracking dataset for animalcentric pascal object classes. In ICME, 2015. 1 8 J. Harel, C. Koch, and P. Perona. Graph-based visual saliency. In NIPS, 2006. 2, 6, 7 9 X. Hou, J. Harel, and C. Koch. Image signature: Highlighting sparse salient regions. TPAMI, 2012. 7 10 X. Hou and L. Zhang. Saliency detection: A spectral residual approach. In CVPR, 2007. 2 11 X. Huang, C. Shen, X. Boix, and Q. Zhao. Salicon: Reducing the semantic gap in saliency prediction by adapting deep neural networks. In Proceedings of the IEEE International Conference on Computer Vision, pages 262270, 2015. 2, 7 12 L. Itti and P. F. Baldi. Bayesian surprise attracts human attention. In NIPS, 2006. 2 13 L. Itti and C. Koch. A saliency-based search mechanism for overt and covert shifts of visual attention. Vision research, 40(10):14891506, 2000. 2, 7 14 L. Itti, C. Koch, and E. Niebur. A model of saliency-based visual attention for rapid scene analysis. TPAMI, (11):1254 1259, 1998. 1, 2, 6, 7 15 Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick, S. Guadarrama, and T. Darrell. Caffe: Convolutional architecture for fast feature embedding. In ACM MM, 2014. 4 16 M. Jiang, S. Huang, J. Duan, and Q. Zhao. SALICON: Saliency in Context. In CVPR, 2015. 1, 2, 5 17 T. Judd, F. Durand, and A. Torralba. A benchmark of computational models of saliency to predict human xations. In MIT Technical Report, 2012. 3, 5, 618 T. Judd, K. Ehinger, F. Durand, and A. Torralba. Learning to predict where humans look. In CVPR, 2009. 1, 2, 5, 7 19 W. Kienzle, F. A. Wichmann, B. Scholkopf, and M. O. Franz. A Nonparametric Approach to Bottom-Up Visual Saliency. In NIPS, 2007. 1, 2 20 C. Koch and S. Ullman. Shifts in selective visual attention: towards the underlying neural circuitry. In Matters of intelligence, pages 115141. 1987. 2 21 A. Krizhevsky, I. Sutskever, and G. Hinton. Imagenet classication with deep convolutional neural networks. In NIPS, 2012. 2 22 S. S. S. Kruthiventi, K. Ayush, and R. V. Babu. Deepx: A fully convolutional neural network for predicting human eye xations. Technical report, 2015. arXiv:1510.02927. 2, 4, 5, 6, 7 23 M. Kummerer, L. Theis, and M. Bethge. Deep Gaze I: Boosting Saliency Prediction with Feature Maps Trained on ImageNet. In ICLR Workshop, 2015. 1, 2 24 C. Lang, T. Nguyen, H. Katti, K. Yadati, M. Kankanhalli, and S. Yan. Depth matters: Inuence of depth cues on visual saliency. In ECCV, 2012. 2 25 T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dollar, and C. L. Zitnick. Microsoft COCO: Common objects in context. In ECCV, 2014. 2, 5 26 Z. Liu, O. Le Meur, S. Luo, and L. Shen. Saliency detection using regional histograms. Optics letters, 38(5):700 702, 2013. 2 27 J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In CVPR, June 2015. 4 28 Y. Luo, Y. Wong, and Q. Zhao. Label consistent quadratic surrogate model for visual saliency prediction. In CVPR, 2015. 5, 7 29 L. Marchesotti, C. Cifarelli, and G. Csurka. A framework for visual saliency detection with applications to image thumbnailing. In ICCV, 2009. 1 30 S. Mathe and C. Sminchisescu. Action from still image dataset and inverse optimal control to learn task specic visual scanpaths. In NIPS, 2013. 5, 7 31 N. Murray, M. Vanrell, X. Otazu, and C. A. Parraga. Saliency estimation using a non-parametric low-level vision model. In CVPR, 2011. 2 32 N. Murray, M. Vanrell, X. Otazu, and C. A. Parraga. Low-level spatiochromatic grouping for saliency estimation. TPAMI, 2013. 2 33 J. Pan and X. G. i Nieto. End-to-end convolutional network for saliency prediction. Technical report, 2015. arXiv:1507.01422. 1, 2, 6 34 S. Ren, K. He, R. B. Girshick, and J. Sun. Faster R-CNN: towards real-time object detection with region proposal networks. CoRR, abs/1506.01497, 2015. 4 35 B. Schauerte and R. Stiefelhagen. Quaternion-based spectral saliency detection for eye xation prediction. In ECCV, pages 116129, 2012. 2 36 G. Sharma, F. Jurie, and C. Schmid. Discriminative spatial saliency for image classication. In CVPR, 2012. 1 37 C. Shen, M. Song, and Q. Zhao. Learning high-level concepts by training a deep network on eye xations. In NIPSDeep Learning and Unsupervised Feature Learning Workshop, 2012. 2 38 K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In ICLR, 2015. 2, 4 39 F. Stentiford. Attention based auto image cropping. In The 5th International Conference on Computer Vision Systems, Bielefeld, 2007. 1 40 A. M. Treisman and G. Gelade. A feature-integration theory of attention. Cognitive psychology, 12(1):97136, 1980. 2 41 R. Valenti, N. Sebe, and T. Gevers. Image saliency by isocentric curvedness and color. In ICCV, 2009. 2 42 E. Vig, M. Dorr, and D. Cox. Large-scale optimization of hierarchical features for saliency prediction in natural images. In CVPR, 2014. 2, 7 43 P. Xu, K. A. Ehinger, Y. Zhang, A. Finkelstein, S. R. Kulkarni, and J. Xiao. Turkergaze: Crowdsourcing saliency with webcam based eye tracking. Technical report, 2015. arXiv:1504.06755v1. 1, 2 44 W. H. Zangemeister, H. Stiehl, and C. Freksa. Visual attention and cognition. Elsevier, 1996. 3 45 J. Zhang and S. Sclaroff. Saliency detection: A boolean map approach. In ICCV, 2013. 2, 6, 7 46 L. Zhang, M. H. Tong, T. K. Marks, H. Shan, and G. W. Cottrell. SUN: A Bayesian framework for saliency using natural statistics. JoV, 8(7):120, 12 2008. 2, 7 47 Y. Zhang, F. Yu, S. Song, P. Xu, A. Seff, and J. Xiao. Large-scale scene understanding challenge. http:/lsun.cs.princeton.edu/leaderboard/#saliencysalicon. 2, 5, 6 48 Q. Zhao and C. Koch. Learning a saliency map using xated locations in natural scenes. JoV, 11(3), 2011. 2课程设计评阅书课程设计报告评语:(评阅意见主要对设计任务的合理性、规范性和正确性以及设计报告书的完整性、规范性和通顺性等方面作出评价) 报告成绩: 答辩记录与评语: 答辩成绩: 课程设计总成绩: 教师签名: 年 月 日XX
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 解决方案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!