毕业设计（论文）基于视觉感知的图像检索

资源描述

摘要摘要多媒体技术的快速发展与互联网技术的日益普及，使我们拥有越来越多的数字图像数据。为了能够准确、快速和人性化地从浩瀚的图像数据库中找到用户所需内容，基于内容的图像检索(Content Based Image Retrieval，CBIR)技术应运而生，并已成为国际学术界研究的一个热点。随着基于内容的图像检索技术的渐渐研究深入，一种基于视觉感知的图像检索技术逐渐活跃起来，它是根据人眼的视觉注意机制特点进行检索的，因而可以提高图像检索的精准率。本论文重点围绕基于视觉感知的图像检索进行研究，并提出了一种基于视觉感知的图像检索方法。该方法使用Itti的视觉注意模型计算得到一个关注度图，在关注度图基础上，使用种子区域增长技术实现对图像中感兴趣物体的自动提取。与一般的图像分割技术不同，种子点的选取和区域增长过程都融合了个体视觉注意程度的信息。最后，本论文通过MATLAB的图形用户界面，构架了一个GUI检索界面，实现了基于视觉感知的图像检索平台。关键词：基于内容图像检索高斯金字塔种子区域增长算法感兴趣区ABSTRACTWith the development of multimedia technology, the application of Internet and the rapid increment of multimedia database, we have more and more digital images. In order to manage and retrieve those information, the CBIR(Content-Based Image Retrieval) has came into being and emerged to be one of the hot research areas in digital image domainAs the CBIR technology improved，visual perception-based image retrieval technology gradually became activity. It is retrieved based on human visual attention mechanism characteristics. So it can enhance the accuracy of image retrieval .This paper focus on image retrieval based on visual perception .And proposes a method to make it come true.These paper use Ittis visual attention model to get the attention-degree of the whole image which shows the level of individual attention to every parts of the image. On the base of the concern degree map ,I extract the interested objects in the image automatically with seed region growing technique .And different with the general image segmentation technologies, the process of seed points selection and regional growth combines the information of individual visual attention degree. At the end of the paper, I make a GUI search interface with the MATLAB graphical user interface. And make the search platform based on the visual perception of the image come true.Key words: content-based image retrieval Gaussian pyramid seed region growing algorithm regions of interest 目录 i目录摘要1第一章绪论11.1 图像检索的应用和技术背景11.2 国内外研究和发展现状21.3本文的研究内容及章节安排3第二章基于内容图像检索的预备知识及关键技术52.1 图像检索中常用的低层特征描述方法52.2 图像检索中的相似性度量方法62.3 图像检索算法的评价准则8第三章视觉感知技术和Itti视觉注意模型113.1 视觉注意机制113.2 视觉注意计算模型和关注度图123.2.1 初级视觉特征的提取143.2.2 多特征图的计算与合并17第四章基于视觉感知的图像检索技术234.1 算法主要流程234.2 感兴趣物体的自动提取算法244.2.1 关注度图的生成244.2.2 种子区域增长和图像分割254.3 基于感兴趣物体的特征提取与表达294.3.1 HSV颜色空间的直方图特征提取294.3.2 Tamura纹理特征提取304.4 相似性度量334.5 实验结果与分析34第五章图形用户界面GUI的生成37第六章总结与展望416.1 已完成工作的总结416.2 对图像检索技术未来的展望41致谢43参考文献45第一章绪论 3第一章绪论近年来，由于图像、视频和音频采集设备的广泛应用，计算、存储设备的性能的飞速提升，以及互联网络的兴起和迅速普及，人们正在快速地进入信息化的社会。各种多媒体信息层出不穷、数据量急剧增加，成为了人们获取信息的重要来源，其形式包括：图像、图形、动画、视频、文本以及音频等。在很多应用领域中都出现了大容量的图像视频数据库：然而，相对于多媒体数据的爆炸性增长，相应的管理手段却相对滞后，海量图像数据库的有效地存储、管理和检索成为一种亟需的应用技术，因而也成为了多媒体领域近十几年来的研究热点。本文对图像检索系统的结构、功能以及该领域相关技术进行了较为深入的研究，重点讨论：如何利用、反映视觉感知特性，提高基于内容的图像检索(Content-Based Image Retrieval，CBIR)系统【1】【2】的性能。主要工作集中在视觉注意模型的建立、感兴趣目标的自动提取、颜色空间的量化、底层特征提取、相似度量设计五个方面。本章内容安排如下：11节，简述图像检索的应用和技术背景：12节，国内外研究和发展现状；13节，本文的研究内容及章节安排； 1.1 图像检索的应用和技术背景随着多媒体技术、计算机技术、通信技术以及互联网技术的高速发展，信息数量和信息媒体种类在不断增加，各种各样的信息被人们更多的接触。每天，无论是军用还是民用领域都会产生十亿比特的图像/视频数据。这些图像/视频数据中包含大量的信息。在如此之多的信息中，人们很容易就迷失方向，所以如何从中发现有用的信息是一个严峻的问题，对多媒体数据进行高效的管理、存取、检索已经成为一种比较迫切的需求。所以面对大量的各式各样的图像数据库，对图像数据库的管理工作成了一个迫在眉睫的研究课题，图像检索技术就是其中的核心技术之一。所谓的图像检索技术，就是从图像库中查找用户所需要的图像的这样一门技术。传统的基于文本的图像检索技术(Text-Based Image Retrieval)是将图像作为数据库中存储的一个对象，然后利用人工对其进行人工标注，在系统检索时，使用标注以后得到的关键字进行匹配，这种做法本身存在着许多缺陷：首先，每一幅图像都需要人工进行注释，因此标注较大的图像数据库就需要大量的人力。其次，图像内容非常丰富，人工注释所采用的少量文字很难充分表达图像的内涵。更为重要的是，人们对于一幅图像的理解有着强烈的主观性，所以在其注释的过程中完全可能出现理解上的偏差，这就直接导致了在检索的过程中不可避免的出现错误。随着大规模数据库的出现，上述问题变得越来越尖锐，为了克服基于文本的图像检索技术带来的困难，上世纪90年代早期提出基于内容图像检索技术(Content Based Image Retrieval，简称CBIR)，所谓的基于内容图像检索技术，是指直接根据描述媒体对象内容的各种特征，从数据库中查找出具有指定特征或含有特定内容的图像。基于内容图像检索技术是建立在计算机视觉和图像理解理论基础之上，其综合了人工智能、面向对象技术、认知心理学、数据库等多学科的知识。它突破了传统的基于文本检索的局限，从媒体内容中提取信息线索，实现了自动化、智能化图像检索和管理方式，便于快速、准确的查找。CBIR与传统的基于文本的检索方法相比，克服了人工描述的各种缺点，减少了工作量，适用于现在大规模的图像数据的检索。这项新技术具有客观、节省人力、可建立复杂描述、通用性好和应用前景广阔等许多优点，正受到了越来越广泛的重视，并得到了迅速的发展，CBIR已经代替了基于文本的图像检索成了图像检索技术的重心。1.2 国内外研究和发展现状基于内容的图像检索技术始于90年代初期，目前己有十年的发展历史，由于此技术涉及的领域很多，因此迅速成为研究的热点，各大研究机构和公司如:IBM、MIT、Columbia、Stanford、UIUC、UCSB、Berkeley、Microsoft等都推出了它们的系统，各大著名杂志IEEE Trans. On PAMI、IEEE Trans. On Image Processing、IEEE Trans. On Multimedia、IEEE Trans. On CSVT、Computer Vision and Image Understanding、International Joural of Computer Vision、Pattern Recognition、Signal Processing: Image Communication、Joural of Electronic Imaging、Multimedia Systems等纷纷设专刊介绍该领域研究的成果，著名的国际会议如:IEEE Conference on CVPR、IEEE Conference on ICME、IEEE Conference on ICIP、ACM Conference on Multimedia、SPIE Conference on Electronic Imaging等纷纷设专题交流最新的研究成果【2】。基于区域(Region-based)的检索方法是目前基于内容的图像检索研究的热点之一。它的目的是为了克服使用全局图像特征无法满足用户在物体层(Object level)完成检索的愿望。相对于全局图像特征，使用基于区域或者物体的特征可以对图像进行更进一步的理解和分析，而且也更容易获取图像的语义信息。此外，基于区域的图像检索方法的另一个突出优点是:它更贴近于用户进行检索时的思路，用户在寻找图像时，往往是想查询与例子图像中包含的物体相似的图像。目前，己经出现了一些基于区域的图像检索方法，这类方法大致的思路是:利用经典的图像分割技术，首先将图像分成不同的区域，然后对于每一个区域提取一些特征，如:颜色、纹理、形状等，并且结合基于区域的视觉特征与区域的位置等约束条件生成特征矢量，最后进行基于区域的特征匹配，输出最为相似的图像集合。然而，现有的这些基于区域的图像检索方法仍然具有以下几个没有解决的问题:（1）由于图像分割仍然是图像处理和计算机视觉领域一个相当困难的课题，目前的技术还无法保证准确地提取到图像中的物体:（2）用户对多数提取出的区域不感兴趣，因此使用用户不感兴趣的区域进行检索不但无法体现用户的检索目的，而且，这些无关的区域往往难以正确的匹配，导致检索准确率的降低。尽管有些方法让用户来手工选择感兴趣的区域，但这又增加了用户的工作量，这种查询方式，用户并不习惯。其实，我们可以分析用户在使用举例查询时的具体过程来得到一些有用的信息，或许通过这些有用的信息能够总结出有效的方案。一般地，用户在检索之前应当有自己希望检索的物体，如:一只老虎、一条鱼等，然后他寻找一幅或多幅图像包含他感兴趣的物体或者能够代表其检索目的，然后将这些图像作为例子提供给图像检索系统，系统按照一定的特征描述和相似度度量方法给出与之相似的图像集合。从用户的查询过程不难看出，用户一般只对例子图像中的某些物体感兴趣，因此，从用户的角度出发，使用全局的图像特征很难满足用户的希望，而基于区域的方法提取的区域大多用户根本不感兴趣，也不是最佳的方案。1.3本文的研究内容及章节安排充分地考虑到用户检索时的实际过程，结合目前的技术发展，本文提出一个基于用户感兴趣物体的图像检索方法中。此方法的关键技术有两个:其一，结合用户感兴趣模型(Attention model)和种子区域增长技术(Seeded region growing)来自动提取图像中用户感兴趣的物体:其二，对提取出的用户感兴趣物体进行特征描述，并用它们的特征来代表图像，完成图像匹配。本文的方法具有以下两个较大的特点:（1）提出了一种图像检索的新思路，即:并不是图像中的所有区域都对检索有贡献，真正起作用的应该是能够引起用户兴趣的物体。所以，本文的算法首先提取图像中用户感兴趣的物体，用它们来代表图像特征，进而检索图像。这种思路与用户检索的要求相吻合;（2）提出了一个感兴趣物体自动提取算法，此方法有效地结合了感兴趣模型和图像分割技术，实现过程相当简单，但效果很好;本文的结构安排如下：第二章，介绍基于内容图像检索的预备知识及关键技术；第三章，介绍视觉感知技术和Itti视觉注意模型【9】【10】【11】；第四章，基于视觉感知的图像检索技术，详细介绍本文算法的技术细节、模拟实验和最后的检索平台的展示；第五章，最后给出本文的总结和对图像检索未来的展望。第二章基于内容图像检索的预备知识及关键技术 9第二章基于内容图像检索的预备知识及关键技术为了后续各章内容的展开，本章将系统地介绍基于内容图像检索领域研究的一些预备知识和若干关键技术。本章的结构安排如下:第一节介绍基本的图像低层特征描述方法;第二节介绍在图像匹配中一些常用的相似性度量准则;第三节介绍图像检索算法的评价方法。2.1 图像检索中常用的低层特征描述方法目前，用于图像检索的低层视觉特征主要有三种:颜色、形状和纹理【3】【4】【5】。本节将简要地一一介绍，较为详细地介绍分布于本文后续的相关章节。一、颜色特征描述颜色是彩色图像最显著的、最直观的物理特征，因此颜色特征的描述方法很多。颜色直方图(Color histogram):颜色直方图具有与生俱来的旋转不变性(Rotation-invariance)、尺度不变性(Seale-invariance)和平移不变性(Translation-invariance)，因此它被被广泛的应用到图像检索中。其核心思想是在颜色空间中采用一定的量化方法对颜色进行量化，然后统计每一各量化通道在整幅图像颜色中所占的比重。常用的颜色空间有RGB和HSI空间，量化的方法有均匀量化方法、基于主观感知的量化、参考颜色表法、颜色聚类量化; 颜色矩(Color moment):类似于描述形状的区域矩不变量，颜色矩的主要思想是在颜色直方图的基础上计算出一些统计量如:一阶中心矩、二阶矩等，用这些统计量来表示颜色特征; 包含空间信息的颜色描述方法(Spatial color):颜色直方图的缺点是失去了象素点的位置信息，为了克服此缺点，许多方法在描述颜色的同时考虑了空间信息。Huang提出了一种Color correlogram的描述子，它的本质是用颜色对相对于距离的分布来描述颜色信息; 颜色不变量(Color constant):由十颜色通常随着光照的变化发生变化，一些学者试图提取出一些颜色不变量来进行图像检索，利用每一象素点周围小邻域中颜色的分布信息，通过差分或相比来获得颜色不变量。二、形状特征描述形状是刻画物体的最本质的特征，也是最难描述的图像特征之一，目前用于图像检索的形状描述方法大致分为两类:基于边缘和基于区域的形状方法. 基于边缘的形状描述方法:利用图像的边缘信息，如边缘曲线、边缘方向直方图、角点、兴趣点等来描述物体的形状; 基于区域的形状描述方法:利用区域内的灰度分布信息，包括不变矩法、小波重要系数法等。三、纹理特征描述纹理是图像的重要特征之一，其本质是刻画象素的邻域灰度空间分布规律。纹理特征描述方法主要有四类:基于统计的方法、几何的方法、基于模型和基于信号处理的方法。基于统计的方法:其主要思想是通过统计图像中灰度的分布来描述纹理特有文献提出了一种以灰度级空间相关矩阵即共生矩阵为基础描述纹理信息的方法，也有文献提出了一种利用象素灰度间的自相关函数来提取纹理特征; 几何方法:将纹理看作是纹理基元按照一定的几何规则排列的组合。这种方法的代表工作有利用V氏图剖分提取纹理特征和利用结构法提取纹理基元; 基于模型的方法:利用一些成熟的图像模型来描述纹理，如基于随机场(Random field)的方法、分形(Fractals)的方法和多尺度子回归的方法(Multi-resolution simultaneous autoregressive，MRSA)等。基于信号处理的方法:利用信号处理的频率分析理论来提取纹理特征，包括基于傅立叶变换域(Fourier domain)的方法、基于加博滤波器(Gabor filter)的方法、基于小波域(Wavelet)的方法。2.2图像检索中的相似性度量方法相似性度量方法【1】用来计算两幅图像之间的相似程度，其模型是多种多样的，但没有一个适用于任何情况，主要原因是相似性具有特征依赖的特点，不同的特征应该应用不同的度量方法。以下是目前图像检索中用到的若干相似性度量方法。1.距离度量方法:图像特征抽取后，最直观的方法是直接利用特征向量的距离来衡量两幅图像的相似性，下面列举了一些CBIR系统中常用的距离公式，其中用x，y代表两幅图像对应的特征矢量，xi，yi代表特征分量。 Minkkowsky距离：Dx,y=(i=1nxi-yir)1r(2.1) Manhattan距离：Dx,y=i=1nxi-yi(2.2) Euclidean距离：Dx,y=(i=1n(xi-yi)2)12(2.3)Euclidean距离没有考虑到向量各维之间的关系，各维分量同等重要。加权Euclidean距离：Dx,y=(i=1ni(xi-yi)2)12(2.4)加权Euclidean距离考虑不同维分量的重要性，而一般的CBIR系统抽取的特征的重要性是不同的，因此此距离应用范围很广。 Mahalanobis距离：Dx,y=i=0nj=0nxi-yiai,j(xj-yj)，ai,jA(2.5)A矩阵是相应的协方差矩阵，此距离考虑了样品的统计一性和样品之间的相关性。直方图交Dx,y=i=0nminxi,yimin(i=0nxi,i=0nyi)(2.6)该距离只能用于以直方图为特征矢量的相似性度量。2.人类视觉相似性模型:距离度量模型的公式应受以下四条计量公理的限制:D(A,A)=D(B,B)=0 自相似常数公理D(A,B)D(A,A) 最小公理D(A,B)=D(B,A) 对称性公理D(A,B)+D(B,C)D(A,C) 三角不等公理然而，这四条公理对于图像检索来说并不完全成立，实验证明，这四条公理都有反例。如在认知试验中，人们容易把某种特征不太显著的物体认为象特征显著的物体，却不认为显著的物体象不显著的物体，这就违反了对称性公理。所以，有文献提出了模糊特征对照FFC(Fuzzy feature contrast)模型，其相似性计算公式如下:Sa,b=i=1pminia,i(b)-i=1pmaxia-ib,0-i=1pmaxia-ib,0(2.7)在FFC中，图像的特征向量的各维分量的取值是模糊的，只要各个特征取值范围有限，FFC度量比传统的距离度量更为接近人类对相似性衡量的心理上的特点。2.3 图像检索算法的评价准则由于图像检索具有很强的主观性，因此，评价一个图像检索算法性能的优劣并不容易。下面列举的是几个公认的图像检索算法的评价准则。准确率(Precision rate)和回想率(Recall rate):对于一幅查询图像Q，其准确率和回想率分别定义为:PR=n/TRR=n/N其中:N:人眼主观从图像库中找出域图像Q相似的图像数目;n:图像检索系统自动检索输出的包含在N中的图像数目;T:图像检索系统自动检索输出的总的图像数目。回想率相当于在一定范围内的查全率，而准确率相当于在一定范围内的查准率。这两个指标都是越大越好。可以统计多幅查询图像的平均检索准确率和回想率，直接分别用它们来衡量图像检索算法的性能，也可以使用准确率对回想率的曲线来评价算法的性能，另外，还可以根据准确率和回想率计算出检索效率来评价检索算法，检索效率定义为:T nN, NT nT,NT(2.8) 命中准确率:准确率和回想率需要用户在图像库中人工找出与查询图像相似的图像集，这将耗费大量的人工劳动，因此这种度量准则仅适用于小型的图像数据库。如果图像库测试集已经提前进行了分类，如Corel Image Gallery等，就可以简单的将每一个图像类作为其中每一幅图像的Ground truth，由此来度量算法的检索准确率。设图像Q所在的Ground truth图像集为G，图像检索算法自动输出了T个相似图像，其中命中G的有n图像，此次检索的准确率定义为:PT=n/T(2.9)由此，平均多个查询的检索准确率就可以度量算法的检索性能。排序值评测法设Q为一幅查询图像，g1, g2,，gn为图像检索算法输出与Q相关的一且从主观上认为相似的图像(等同于上公式中的n)，rank(gi)，i=1，2，n是它们在检索结果中对应的排序值，则有两个指标可以衡量检索算法的性能:Average r-measure=1ni=1nrank(gi)(2.10)Average p-measure=1ni=1nirank(gi)(2.11)其中，第一个指标定义了所有相关图像在检索结果中的平均排序，显然，此指标越小，检索算法的准确率越高。第二个指标定义了所有相关图像在靠前排列的紧密程度，此值越大越好，如果所有的相关图像都排在最前面，则此指标取值为1。应当指出，除了主观因素，图像检索的准确率与图像数据库有很大的关系，即使同一算法根据相同的评价方法在不同的数据库中计算出的检索准确率都可能会存在较大的差异。目前流行的评价策略是:根据具体的实验环境，采用上述三种评价方法之一，在图像数据库中任意挑选若干个图像进行检索，用平均检索准确率来衡量算法的效率。本章简单介绍了基于内容图像检索研究中的一些预备知识和关键技术，主要包括三个方面的内容:描述图像的低层视觉特征、图像的相似度度量方法和图像检索算法的评价准则。通过这些预备知识的介绍，让我能够从整体上了解该领域研究的主要问题和己有的工作基础，同时也为后续章节的展开作了铺垫。但是，每一部分介绍的都比较概括，详细的应用将在下一章节进行展开介绍。第三章视觉感知技术和Itti视觉注意模型 21第三章视觉感知技术和Itti视觉注意模型3.1 视觉注意机制视觉注意(Visual attention)是人类视觉(Human vision)研究领域的重要课题，通俗地讲，视觉注意就是研究人在观看图像时，到底对什么更加注意。从本质上讲，视觉注意是属于神经生物学范畴的概念，它意味着人具有精神或者观察能量能够集中的技能。从事视觉注意机制研究的学者大多是心理学家或生物神经学家，因此，图像处理和计算机视觉领域并没有对此产生很大的研究兴趣，但是近几年来，己经有一些学者将注意机制的一些方法应用到图像处理应用中。研究视觉注意机制的一个重要实验被称为眼动实验(Eye movement)，即:通过大量实验样本(人)在观察图像时眼睛的转动频率和视点位置的移动归纳出若干能够影响视觉注意的低层因素和高层因素。目前，总结出来的低层视觉特征有: 对比度(Contrast):人往往会更加关注图像中颜色或亮度反差较大的地方；尺寸(Size):尺寸一大的物体更能吸引人的注意；形状(Shape):细长条的物体更能引起人的注意；颜色(Color):人类视觉对某些颜色较为敏感，如红色；运动(Motion):运动的区域能够强烈地吸引人的注意。影响视觉注意的高层因素包括: 位置(Location):人往往对位于图像中心的区域更加关注；前景和背景(Foreground & background):人们往往更关心图像中的前景区域；人(People):图像中的人或者人脸、手等都更加吸引观察者的注意；观察者自身的素质(Context):观察者自身的职业、受教育情况、性别等都会影响它们注意机制。根据眼动实验总结的影响视觉注意的诸多因素，近年来，一些学者提出了视觉注意的计算模型。Itti等回顾了与视觉注意机制相关的一些工作，并且提出了一个自下而上(Bottom-up)、基于显著度(Saliency- based)的注意计算模型。首先，融合图像的一些低层视觉特征生成关注度图(Saliency map)【23】，然后使用一个动态的神经网络(Dynamic neural network)按照显著度递减的顺序依次发现图像中的注意点。在此工作中，显著度图是一个相当重要的贡献，它用具体的定量描述给出了图像中每一点受关注程度的情况。Privitera等通过对大量的人做眼动实验，然后将人工实验的结果与常见的图像处理算法的结果作对比，从而归纳出哪些图像处理算法对兴趣区域的发现更加有效。有相关文献提出一种极大似然(Maximum-likelihood)方法来定义视觉注意的计算模型。有相关文献将视觉注意模型应用到目标识别中，结合一些先验知识利用此模型滤除掉图像中与待识别目标无关的部分，这样既可以减小计算量节省识别时间，还可以使系统专注于图像中的一部分区域，提高了识别的精度。此方法在手写字识别和人脸检测方面都取得了不错的结果。最近，一些工作又将注意机制引入到视频分析中，通过线性组合用户对三个信息通道:视觉(visual)、听觉(Audio)和语言文字(Linguistic)的感兴趣程度，对每一帧图像都计算出总的受关注程度，并基于此动态提取关键帧。通过分析与视觉注意机制相关的工作，我有以下几个观点: 视觉注意的计算模型是通过大量对人的生理实验建立的，因此结果应当符合人的主观感觉。这就为视觉注意计算模型的应用提供了科学的依据; 目前己有的工作，包括视觉注意的计算模型建立和在目标识别、视频分析等方面的应用多数都是近几年才开展起来的，这说明此领域的研究开始升温; 已有的工作中还没有根据视觉注意模型提取图像中用户感兴趣物体的研究，更没有将其应用到基于内容的图像检索中，而这些正是本文研究的创新点。3.2 视觉注意计算模型和关注度图Itti提出的基于显著度的空间视觉注意模型, 是当前视觉注意机制领域中具有主导地位的自底向上的视觉注意模型，为实现本文相关功能提供了必要的理论基础和指导。在数字图像处理领域内，在缺乏先验信息的情况下对图像进行理解，由于没有明确的目标和目的，大多数的传统方法都会采取对图像进行全面分析的方式。这意味着，在图像中，兴趣区域和非兴趣区域享有相同的计算资源，分配到同样的计算时间。一般情况下，最能反映图像内容的信息或者数据，仅仅占据完整图像的很小一部分。因此对全图进行全面、相同的处理不但增加了分析过程的复杂性和数据冗余度，而且浪费了宝贵的计算资源。自底向上的基于显著度的空间视觉注意模型能够很好地解决这一问题。尽管没有事先给定任何先验信息，模型仍然能够根据来源于图像的底层数据，分析视觉刺激、分配计算资源，按照不同位置显著度高低顺序有选择地对各个场景区域进行局部分析处理，所以自底向上的视觉注意模型通常也被称作数据驱动(Data-driven)的视觉注意模型。尽管更为普遍的观点是:自顶向下和自底向上的信息综合处理结果影响人类的行为。但是，目前将这种自底向上的数据驱动的视觉注意机制引入到图像信息处理过程是非常有意义的。通过计算机建模，场景中的突出目标因其特殊的视觉特征分布模式而具有较高的显著性，根据显著性的优先级计算程序就能够快速准确地认知场景内容，进行逻辑推理和决策。同时，自底向上的视觉注意模型的研究能够推动自顶向下视觉注意模型的研究进一步深入，并且和神经生物学方面的视觉注意机制研究工作相互促进、相辅相成。图3.1描述了基于显著度的空间视觉注意模型框架。通过对图像进行多尺度处理、初级视觉特征提取、注意焦点确定与转移三个部分的协同工作，能够从输入图像中提取出感兴趣的待注意目标。输入一幅彩色图像，首先使用线性滤波器将图像分解为多个特征通道，提取颜色、亮度和方向等多个维度的特征;然后使用高斯金字塔对不同维度特征进行多尺度采样，经过中央周边差操作提取初级特征图;接着，采取有效的特征合并策略，将不同维度的多幅特征图合并得到突出图和显著图;最后，根据得到的显著图定位待注意目标，完成对目标的关注。模型中使用胜者为王WIA竞争网络寻找显著图中存在的最显著的点同时返回其坐标。同时，使用禁止返回IOR机制使注意力不返回已经关注过的区域。进一步的迭代保证注意力能够以显著性降序为标志关注其它目标。图3.1 基于显著度的视觉注意模型框架3.2.1 初级视觉特征的提取输入一幅彩色图像，首先使用现行滤波器将输入信号分解为孤立的通道，包括亮度、颜色和局部方向等。将不同通道的信号之和与高斯低通滤波器进行卷积，获得滤波结果并以2为步长进行横行和纵向的减抽样操作，建立高斯金字塔。显著性模型中设置金字塔尺度级别分别为=1,2，9.尺度级别1，代表当前图像和原始图像的比例为1:1，尺度级别9，代表经过8次高斯平滑和8次抽样操作，当前图像和原始图像的比例是1:256，如图4.2所示。图3.2 高斯金字塔图例使用r，g和b表示彩色图像的红、绿和蓝三色通道值。使用以下公式计算亮度：MI=r+g+b3(3.1)使用MI，来计算亮度高斯金字塔MI().为了突出不同颜色通道产生的反差效果，模型计算对应红绿(RG)对比通道以及蓝黄(BY)对比通道的颜色图:MRG=r-gmax(r,g,b)(3.2)MBY=b-min(r,g)max(r,g,b)(3.3)使用MRG和MBY构建颜色高斯金字塔MRG()和MBY()。然后，使用Garbor滤波器对亮度金字塔MI()进行滤波，滤波器设定四个主要的方向: 0，45，90，135，得到局部方向高斯金字塔图M ()。局部方向高斯金字塔图是对图像中方向(朝向)信息的直观反映，该图给定区域内的能量反映了该区域内的灰度对比程度，进而反映了Gabor滤波后区域内的纹线清晰程度。如果输入图像该区域内的纹线方向接近滤波器方向，则Gabor滤波后该区域内的纹线结构相对清晰，亮度高，和周围环境对比反常大。例如，对同一区域进行0,45,90,135四个方向的Gabor滤波，该区域45方向滤波结果灰度亮度最高，表示该区域在45方向具有明显的朝向特征，该特征可能是45方向的一条直线或者规则纹理引起的。Gabor滤波器与人类初级视皮层的简单细胞的生物作用相仿。J.Daugman在1985年提出了二维Gabor滤波器理论，并指出二维Gabor滤波器可以同时在空域、频域和方向上获得最佳的分辨率，可以在频域不同尺度、不同方向上提取相关的特征。利用Gabor小波的尺度函数和对应的小波函数构成一对奇偶滤波器，它具有很好的时空域局部化特点，可较好地模拟人类视皮层简单细胞的信号处理特点。在模型中，可设置任意方向数目，但是太多的方向数对系统运行表现并无明显改进，因此，模型设置四个方向进行Gabor滤波。图3.3显示了一个多尺度和多方向Gabor滤波器和测试图片的滤波结果。图3.3 多方向多尺度Gabor滤波器和测试图片滤波结果3.2.2 多特征图的计算与合并对颜色、亮度和方向多维特征，在其图像金字塔上，应用中央周边差操作(Center Surround Difference)。中央周边差操作根据人眼的生理结构设计。人眼感受野对于反差大的视觉信息输入反应强烈，例如中央暗周边亮的情况，中央是红色周边是绿色的情况，这都属于反差较大的视觉信息。对每维特征进行中央周边差操作，以探测场景或图像中的空间不连续性，很好地模仿了视网膜上探测突出目标的机制。对于每维特征，中央尺度。为金字塔的3,4,5尺度级别，周边尺度s=c+，其中3,4，从而产生六对尺度，(3-6，3-7，4-7，4-8，5-8，5-9)。通过将周边尺度s的图像进行线性插值，使之和中央尺度c的图像具有相同大小，然后进行点对点的减操作，获得中央周边差图，这样的跨尺度的减操作用符号表示。对亮度特征而言，为了捕捉在较暗背景中的明亮对比信息以及在较亮背景中的灰暗对比信息，对中央周边差操作后的结果取绝对值，获得亮度特征图:FI,C,S=MI(c)MI(s)(3.4)这里，c=3,4,5，表示中央尺度; s=c+，s表示周边尺度，3，4，I表示亮度。同理可计算得到红绿对比颜色通道和黄蓝对比颜色通道的特征图:FRG,c,s=MRG(c)MRG(s)(3.5)FBY,c,s=MBY(c)MBY(s)(3.6)这里，RG表示红绿颜色对比通道，BY表示蓝黄颜色对比通道。类似地，局部方向通道的特征图定义为:F,c,s=M(c)M(s)(3.7)这里，0,45,90,135，后产生的四个方向特征通道。模型共计算亮度特征图42张特征图。表示使用Gabor滤波器对亮度金字塔进行四个方向滤波6张，颜色特征图2 6张，局部方向图46张，总共42张特征图。基于显著度的视觉注意模型认为视觉注意力在一张二维显著图的指导下转移，而显著图反映了场景不同位置的显著性，所以必须合并以上计算所得的多张特征图。模型使用不同机制提取不同通道的特征，如何衡量颜色、亮度或者方向特征图中的显著点的重要性，进而合并形成一张图，其合并策略非常重要。同时，显著目标可能在某一通道对应的特征图中引起强烈的响应，但是这种响应往往会被其它特征通道中的噪声所湮没。使用合适的合并策略，能凸现真正显著的目标，有效地抑制噪声。显著性视觉注意模型，使用一个非线性的标准化算子N()对图像进行迭代操作，抑制噪声，突出显著目标，为特征图的合并打下良好基础，使合并后的结果更加直观地反映图像不同位置的显著性。算子N()的操作步骤如下:为了避免由特征提取方法不同造成的特征强度差异，首先将每张特征图的特征值归一化到固定的O至1的数值区间内得到M;然后将M与二维高斯差分函数进行卷积，将结果和输入进行叠加，迭代中产生的负值设置为零(见图3.4)，公式定义如下:MM+MDOG-Cinh0(3.8)DOGx,y=cex22ex2e-(x2+y2)2ex2-cinh22inh2e-(x2+y2)2inh2(3.9)这里，DOG是二维高斯差分函数; 0 表示抛弃负值;ex和inh。是兴奋和抑制带宽(文中取经验值，ex和inh分别为输入图像宽度的2%和25%);cex和cinh为兴和抑制常量(文中取经验值，cex=0.5和cinh=1.5);为了避免将具有均匀纹理的区域当成显著的目标，公式中引入了一个偏置常量Cinh，抑制相应的区域(文中取经验值Cinh=0.2)。图3.4 使用标准化算子进行局部迭代的流程图迭代的次数可以是任意的，对于输入的二维非空特征图，过多的迭代次数最终导致在特征图中形成一个单峰。过少的迭代次数，会造成激励和抑制不足，目标突出和噪声抑制不明显。利用标准化算子对特征图进行局部迭代的这种中央自激励、领域范围内抑制的方法，促成相邻显著点之间的局部竞争。虽然迭代的次数需要人为设定，但是计算过程中一般到特征图中大多数位置的特征值收敛接近于O时就停止迭代，图3.5是对两幅不同特征图使用标准化算子进行不同次数迭代产生的中间数据结果。模型使用高斯差分函数进行局部迭代，模拟了人脑视皮层的中央自激励、领域范围内抑制的长程连接(long-range Connections)组织方式，从而避免了只能检测到一个突出的显著目标的情况，从生物角度考虑具有合理性。使用标准化算子进行局部迭代后产生的特征图更接近稀疏分布，显著目标周边的区域能够得到很好的抑制。使用标准化算子进行局部迭代的方法，具有对非显著目标强烈抑制的特点，同样适用于自然场景图像中的目标检测，表现出对噪声的鲁棒性。图3.5对两幅图像使用标准化算子进行不同次数迭代产生的中间数据结果经过迭代标准化操作后，将不同尺度上的亮度、颜色和方向特征图叠加起来，形成各个维度对应的突出图 CM(Conspicuity Maps)。这里使用到跨尺度加操作，将特征图约减到尺度级别=4金字塔图的大小，然后将特征图做点对点加操作。亮度突出图为:CI=c=35s=c+3c+4N(FI,c,s)(3.10)颜色突出图为:CC=c=35s=c+3c+4NFRG,c,s+NFBY,c,s(3.11)方向突出图为:CO=0,45,90,135Nc=35s=c+3c+4N(F,c,s)(3.12)最后，将不同特征下的突出图做加权叠加得到显著图 SM(Saliency Map)，前模型中设置每个特征的权值都是一样的。S=13kI,C,ON(Ck)(3.13)上文方案是一个有效的视觉注意计算模型。此模型在九个尺度上分别计算三个特征通道的注意程度定量值，然后线性组合它们，通过迭代过程形成最终的关注度图，此关注图记录了图像中每一个点受关注的程度，亮度越大的点意味着受关注的程度也越大。模型使用的三个特征通道是亮度对比度、颜色对比度和方位朝向对比度。本文算法仅仅使用此模型中的关注度图。但是，需要指出的是，此模型的目的是计算出每一个点受关注程度的定量值，而本文的目的是提取受关注的物体，物体具有整体的特征，因此，考虑到物体局部的整体信息，我们使用一个高斯滤波器来滤除掉关注图中的“噪声”点，其目的是为了降低后面选取种子点出错的可能性。第四章基于视觉感知的图像检索技术 35第四章基于视觉感知的图像检索技术4.1 算法主要流程相似度计算颜色纹理特征提取示例图像图像数据特征库检索结果感兴趣区颜色量化视觉注意模型感兴趣区自动提取用户在检索图像中，往往只想利用例子图像中的他们感兴趣的物体来检索，因此，本章算法的核心思想与用户检索过程相吻合。图4.1给出了算法的基本流程图。图4.1 本文算法流程图首先使用Itti提出的视觉注意计算模型对待查询图像进行处理，得到图像中每一点受关注程度的定量描述值，有理由认为受关注程度越高则观察者对其的兴趣也就越大。然后结合视觉注意计算模型和用来图像分割的种子区域增长算法来提取图像中感兴趣的物体，此过程包括了种子区域的选择，区域的增长和相似且相邻区域的合并等技术环节。当提取到预定数目的感兴趣物体后，使用颜色和纹理特征来描述每一个感兴趣物体。在度量图像间的相似性时，依据图像中感兴趣物体受关注程度对应地进行匹配。最后，按照相似度进行排序，输出相似图像集合。整个算法的核心技术是图像中感兴趣物体的自动提取。我们利用了视觉注意计算模型，假设某个物体引起视觉注意越强烈，就越可能成为用户感兴趣的物体。在感兴趣物体的提取过程中，使用了种子区域增长技术，与一般的图像分割技术不同，种子点的选取和区域增长过程都融合了视觉注意程度的信息。4.2 感兴趣物体的自动提取算法4.2.1 关注度图的生成本小节将结合关注度图和种子区域增长算法来自动提取图像中感兴趣的物体。种子区域增长(Seeded region growing)是一项相当有效的图像分割技术【19】，很多的文献介绍了相关的工作。一般地，种子区域增长开始于一个种子区域，然后不断地将相邻的点赋予此区域，而增长的过程被一些相似度准则所控制，只有通过相似度测试的点才能属于此区域。该方法有两个优点:其一，它简单、快速、鲁棒性好;另一个优点是种子点的选取过程很容易融合一些高层的语义信息，通过控制种子点的选择，可以生长出符合需要的物体，这一优点对于提取感兴趣物体是相当有吸引力的。在利用了第三章的Itti的模型的基础上，我得到了一幅图像的关注度图如图4.2和图4.3所示，(a)原始图像(b)对应的关注度图图4.2 图像与对应的关注度图示例I(a)原始图像(b)对应的关注度图图4.3 图像与对应的关注度图示例II感兴趣物体自动提取算法大致分为五步来实现: 颜色量化(Color quantization):图像中的颜色被量化成若干能够区分不同区域的代表颜色类，量化后，每一个象素点的颜色值都用其对应的代表颜色类来代替，形成一个颜色类图像(Color class map); 相对位置指示图(Relative position denote map):在颜色类图像的基础上生成一个相对位置指示图，它能够估测出每一个象素点的相对位置，是处于某一区域的内部还是更靠近边缘; 感兴趣物体种子区域的选取(Attention seed area determination):结合相对位置指示图和注意度图选择用于开始感兴趣物体生长的种子区域: 感兴趣物体生长(Attention objects growing):从种子区域开始依次增长感兴趣物体，增长过程由注意度图和相对位置指示图来共同引导和控制; 后期处理(Post-Processing):使用两个后处理技术，填充区域内部孔洞和合并相邻且相似区域，以期获得最佳的结果。4.2.2 种子区域增长和图像分割当种子点确定后，区域就从种子点开始增长，反复地将与区域内的点相邻的且满足一定的相似性要求的点归入区域【12】【13】【14】。可以说，相似性条件控制和引导着增长。在一般的图像分割应用中，相似性条件大多为颜色一致性，而对于感兴趣物体提取来说，既要满足颜色一致性同时也要满足一定的注意度条件。这也是我们的方法与一般的区域增长技术的不同之处。假设一个感兴趣物体O从种子区域R开始生长。图像中已经被认定属于感兴趣物体的点称之为己标注点，不属于任何一个物体的点称为未标注点。于是，物体O的生长就可以描述为:不断地将未标注的、与属于口的点相邻且通过相似度测试的点归入物体O。与物体O相邻的点集合可以定义为:H=(x,y)O|N(x,y)O(4.1)其中，N(x,y)表示以点(x,y)为中心的33的小区域。假定象素PH，它对应的注意度为S，对应的相对位置指示为PSD。因此，决定象素P是否归入O的相似度测试定义为:STPO=true falseif STS and PSDTPSDotherwise(4.2)通过测试，P就可以归入O;否则，不能归入。其中，TS和TPSD为阈值。相似度测试的本质是认为注意度较大且不是边缘的相邻点属于感兴趣物体。于是，下一步需要解决的问题就是如何确定阈值TS和TPSD，由于不同的图像的内容不相同，因此固定的取值是相当不合适的。最佳的阈值应当能够自动地随着图像的具体内容而自适应地变化。我们使用一个基于信息熵的自适应阈值确定方法，此方法己经被证明能够在两类问题分类的应用中取的良好的效果。但是在本文中为了简化算法，阈值我采取了一个固定的值。应当指出，不同图像中感兴趣物体的数目也应该不同，客观地讲，如何自适应地确定图像中感兴趣物体的数目相当困难，目前尚未找到好的解决方案。因此，我们简单地假定每幅图像中的感兴趣物体数目为两个。应该说，这个假定在特定条件下是有道理的，我们的应用领域是图像检索，首先一般的用户不会对一幅图像中许多物体都感兴趣，另外，通过观察大量的Corel数据库中的图像，我们发现图像中经常出现的受关注目标不止一个。下面以图像库中的一幅恐龙图像和公交车图像作为示例（见表4.1），再以花朵为示例展示单个目标和多个目标的图像分割结果（见表4.2），通过简单的对比可以大致体现通过本文算法得到的分割图像的特点：表4.1 单个目标的分割示例（Dinosaur和Bus）原始图像亮度显著图颜色显著图方向显著图分割后图像表4.2 单个目标和多个目标的分割示例（Flower）原始图像亮度显著图颜色显著图方向显著图分割后图像从上面两个表格的情况来看，本算法可以很好地做到充分体现人的视觉感知的图像分割，并可以讲同一幅图像中的多个受关注目标提取出来。4.3 基于感兴趣物体的特征提取与表达图像特征的提取与表达是基于内容的图像检索技术的基础。从广义上讲，图像的特征包括基于文本的特征（如关键字、注释等）和视觉特征（如色彩、纹理、形状、对象表面等）两类。其中基于文本的图像特征提取在数据库系统和信息检索等领域中已有深入的研究，本节中我主要利用的是图像视觉特征的提取和表达。视觉特征又可分为通用的视觉特征和领域相关的视觉特征。前者用于描述所有图像共有的特征，与图像的具体类型或内容无关，主要包括色彩、纹理和形状；后者则建立在对所描述图像内容的某些先验知识（或假设）的基础上，与具体的应用紧密有关，例如人的面部特征或指纹特征等。而在本文中我只考虑通用的视觉特征。对于某个特定的图像特征，通常又有多种不同的表达方法。由于人们主观认识上的千差万别，对于某个特征并不存在一个所谓的最佳的表达方式。事实上，图像特征的不同表达方式从各个不同的角度刻画了该特征的某

展开阅读全文

毕业设计（论文）基于视觉感知的图像检索

最新文档