视频检索技术课件

资源描述

1视频检索技术1.视频检索简述视频检索简述随着计算机技术和网络技术的发展，信息高速公路的建设，以及多媒体的推广应用,各种视频资料源源不断地产生,随之建立起了越来越多的视频数据库，出现了数字图书馆、数字博物馆、数字电视、视频点播、远程教育、远程医疗等许多新的服务形式和信息交流手段。在传统的数据库系统中，信息的检索一般以数值和字符型为主，而在多媒体数据库中集成图像、视频、音频等非格式化信息，它们具有数据量大、信息不定长、结构复杂等特点。每一种媒体数据都有一些难以用字符和数字符号描述的内容线索，如图像中某一对象的形状、颜色和纹理，视频中的运动，声音的音调等。当用户要利用这些线索对数据进行检索时，首先要将其人工转化为文本或关键词形式，这种转换带有一定的主观性，且极其费时，因而仅仅基于关键词的检索已不能满足用户的检索要求。数据库及其它信息系统不仅要能对图像、视频和声音等媒体进行存储以及基于关键字的检索，而且要对多媒体数据内容进行自动语义分析、表达和检索。1视频检索技术1.视频检索简述2 视频检索就是要从大量的视频数据中找到所需的视频片段。根据所给出的例子或是特征描述，系统就能够自动的找到所需的视频片片段。根据提交视频内容的不同，视频检索一般分为镜头检索和片段检索。目前视频检索的多数研究还集中在镜头检索上。而片段检索方面的研究则刚刚开始。实际上，从用户的角度分析，他们对视频数据库的查询通常会是一个视频片段而很少会是单个的物理镜头。从信息量的角度分析，由几个镜头组成的视频片段有比单个镜头更多的语义，它可以表示用户感兴趣的事件。因此查询的结果也比较有意义。由于视频拍摄的多样性和后期编辑的复杂性，片段的相似性有多种可能。把片段检索分为这样两种类型：精确检索和相似性检索。一个完整的视频检索系统的关键技术主要有：关键帧提取、图像特征提取、图像特征的相似性度量、查询方式、以及视频片段匹配等方法。视频检索是一门交叉学科，以图像处理、模式识别、计算机视觉、图像理解等领域的知识为基础，从认知科学、人工智能、数据库管理系统及人机交互，信息检索等领域，引入媒体数据表示和数据模型，从而设计出可靠、有效的检索算法，系统结构以及友好的人机界面。2 视频检索就是要从大量的视频数据中找到所需的3 目前，国内外已研发出了多个基于内容的视频检索系统，主要有五种，如下：1：QBIC系统：QBIC(Query By Image Content)是由 IBM Almaden研究中心开发的，是“基于内容”检索系统的典型代表。此系统主要利用颜色、纹理、形状、摄像机和对象运动等描述视频内容,并以此实现其检索。QBIC提供了对静止图像及视频信息基于内容的检索手段,允许用户使用例子图像、构建草图、以及颜色和纹理模式、镜头和目标运动等信息对大型图像和视频数据库进行查询。在视频数据分析方面包括了镜头检测、运动估计、层描述、代表帧生成等多种视频处理手段。2：Visual Seek系统：Visual Seek是美国哥伦比亚大学电子工程系与电信研究中心图像和高级电视实验室共同研究的、一种在互联网上使用的“基于内容”的检索系统。它实现了互联网上的“基于内容”的图像/视频检索系统，提供了一套供人们在Web上搜索和检索图像及视频的工具。3 目前，国内外已研发出了多个基于内容的视频检索系统43：Video Q是由美国哥伦比亚大学研究开发的一套全自动基于内容的视频查询系统。它扩充了传统的关键字和主题导航的查询方法，允许用户使用视觉特征和时空关系来检索视频。4：TVFI系统：TVFI(Tsing hua Video Find It)是清华大学开发的视频节目管理系统。该系统可提供视频数据入库、基于内容的浏览、检索等功能,并提供多种数据访问模式,包括基于关键字查询、示例查询、按视频结构浏览及按用户自定义类别进行浏览等。43：Video Q是由美国哥伦比亚大学研究开发的一套全自动5下面对视频检索的原理进行简要的介绍。2.2.基于内容的视频检索基于内容的视频检索基于内容的视频分析和检索研究的目的是通过对视频内容进行计算机处理、分析和理解，建立结构和索引，以实现方便有效的视频信息获取。它是根据视频的内容以及上下文关联，在大规模视频数据中进行检索。基于内容的视频检索包括很多技术，如：视频结构的分析(镜头检测技术)、视频数据的自动索引和视频聚类等。目前，在基于内容的视频检索技术的研究方面，除了识别和描述图像的颜色，纹理，形状和空间关系外，其他主要集中在视频镜头分割，特征的提取和描述(包括：视觉特征，颜色，纹理和形状及运动信息和对象信息等)，关键帧提取和结构分析等方面。基于内容的视频检索的系统框图见下图。5下面对视频检索的原理进行简要的介绍。2.基于内容的视频检索6基于内容的视频检索的系统框图如下：6基于内容的视频检索的系统框图如下：72.1 视频帧提取视频帧提取视频检索的目的就是要从大量的视频数据中找到所需的视频片段。视频数据是一个二维非结构化的图像序列，要实现基于内容的视频检索，首先要从多媒体文件中提取视频帧序列，然后对这些图像流进行处理，使之成为结构性的数据，提取其特征，从而达到检索目的。首先，介绍几个关于视频的基本概念。帧(Frame)：视频流中的基本组成单元，每一帧均可看成是一幅独立的图像。视频流数据就是由连续图像帧构成的。帧是视频的最小单位。镜头(Shot)：摄像机拍下的不间断帧序列，是视频数据流进一步结构化的基础。同一组镜头中，视频帧的图像特征基本保持稳定。若相邻图像帧之间的特征发生了明显变化，则认为是发生了镜头变换。关键帧（Key Frame）：关键帧是代表镜头内容的图像帧。在一个视频镜头内，关键帧的数目远小于镜头所包含的图像帧的数目。用关键帧代表镜头可以大大减小计算复杂性。场景(Scene):语义上相关和时间上相邻的若干组镜头组成了一个场景。场景是视频所蕴涵的高层抽象概念和语义的表达。像镜头可以由关键帧代表一样，场景也可以使用属于这个场景的所有镜头所对应的关键帧集合来表示。72.1 视频帧提取视频检索的目的就是要从8 Direct Show是为播放各种类型的视频数据、音频数据或其他多媒体数据而设计的。Direct Show支持MPEG(包括MP3、AVI、MOV、WAV、DVD等格式）。借助于Direct Show，可以很容易地实现多种格式的多媒体数据的回放、传输和捕获。Direct Show使用Filter Graph的模型来管理整个数据流的处理过程。利用Direct Show强大的功能，我们可以这样实现帧的提取。首先建立过滤器图表，与特定的多媒体流相关联，然后加视频抓帧过滤器进图表，并设置回调函数。当图表运行时，抓帧过滤器抓取流过的视频帧(可进行设置，可以是每一帧，也可以是间隔固定帧)，把抓取的帧存储在视频库中。利用Direct Show能够使开发者专注于各自的分析和处理，而无需考虑带有共性的实现细节，极大地降低了多媒体应用开发的复杂度，并提高了其开发效率。8 92.2 2.2 2.2 2.2 镜头检测技术镜头检测技术镜头检测技术镜头检测技术在基于内容的视频检索中，镜头是视频数据分析、编辑制作和检索的基本单元。镜头边界检测的好坏将直接影响着视频的结构化以及后续的浏览与检索。因此，它是实现基于内容检索的基础和重要步骤。镜头检测也可以看作是一个分割问题视频时域分割。视频时域分割主要采用基于边界的方法。境头边界检测算法的思路就是：第一，帧间差的计算。对帧视频提取各自不同的视觉或运动特征，并对不同帧进行帧间差计算。第二，镜头边界的判断。获取帧间差之后，设定一个判断准则，将获得的帧间差按照准则来判断视频镜头是否发生了转变。其过程如图2.2所示。其中，F(i)代表第I 帧视频，D(i)代表第i帧视频和第i+1帧视频的帧间差，S(k)代表检测到的第k个镜头边界。镜头边界检测的算法主要有：基于模板匹配的算法、基于直方图的算法、基于边缘的算法、基于运动分析的算法和基于压缩视频的算法。92.2 镜头检测技术在基于内容的视10图 2-2 镜头边界检测过程如下所示：10图 2-2 镜头边界检测过程如下所示：11 下面对基于模板匹配的算法进行介绍。直接用相邻两帧对应像素差的绝对值之和作为帧间差，公式如下：（2.1）其中，表示第i帧和第i+1帧的帧间差，表示像素的相应位置，和分别表示第i帧和第i+1帧在处的像素值。N和M分别表示帧的高度与宽度。该算法虽然计算简单，容易实现。但是，由于对像素位置的局限，使其对噪声以及物体和相机的运动都比较的敏感，很多情况下，物体很小的运动便会造成较大的误差。11 12 改进的镜头边界检测算法：RGB模型是一种最简单最常用的颜色模型，是由国际照明委员会制定。它表示红、绿、蓝三种单色光按照一定的比例可以复合出其他任何颜色。RGB空间虽然比较简单，但也有不足之处。首先，它不能很好的与人眼感知相匹配，因此不能直观反映人的直觉感知。其次，由于该模型的三个颜色分量不仅各自包含了物体本身的颜色信息、和外部光强信息，相互之间还具有较高的相关性，这使得颜色聚类特性不是很好，不适于以彩色处理为目的的应用。HSV颜色空间是孟塞尔彩色空间的简化形式，能够较好符合人眼感知特性，是较为适合人视觉特性的色彩空间;所以需要将RGB颜色模型与HSV颜色模型进行转化。12 改进的镜头边界检测算法：RGB模13 图 2-3 RGB颜色模型图 2-4 HSV颜色模型13 图 2-3 RGB颜色模型图 142.3 2.3 视频关键帧的提取视频关键帧的提取镜头通常是在一个场景下拍摄的，所以一个镜头下的各帧图像会有相当多的重复信息。因此，通常选取能够描述镜头主要内容的帧，作为关键帧，来简洁的表达镜头。一个镜头可以有一个或多个关键帧，这取决于镜头内容的复杂程度。提取关键帧的目的有两个方面：（1）静态表示视频节目的主题和主要内容，而不是动态的细节。(2)从关键帧中提取颜色、纹理和形状特征，以作为视频摘要和数据库索引的数据源，而不需要对每个画面都重复。因此，关键帧应该具有代表性，不仅应代表主题方面的特征，还应该视特征的不同而不同。因此，对关键帧的选取一般采用保守原则，即“宁多勿少”。同时，在代表特征不具体的情况一下，一般去掉重复(或冗余)帧。当选取多幅关键帧时，用于关键帧选取的准则是优先考虑关键帧之间的不相似性，即以帧之间相似度作为衡量依据，每次寻找关键帧都保证各关键帧之间具有最小相似度，以使关键帧带有最大信息量。下面介绍关键帧提取的经典方法基于帧平均的算法。像素帧平均法和直方图帧平均法是关键帧提取的经典方法。由于它们具有相同的基本思想，不同的只是选取的衡量平均值的特征，所以将其归为一类，并统称为帧平均法。像素帧平均法是取一视频段中所有帧的某位置上的像素值求其平均来作为比较的标准，将视频段中此位置像素值最为接近平均值的帧，作为该视频段的关键帧。直方图帧平均法则是选取所有帧直图的平均值作为标准，将直方图最接近平均值的帧作为该视频段的关键帧。该算法虽然计算简单，所选取的帧也能最大程度上接近平均值，但是对一个镜头只选取一个关键帧，不能够全面的描述其内容，尤其是对内容变化较大的镜头。142.3 视频关键帧的提取镜头通常是在一个152.42.4特征提取特征提取视频关键帧提取后，就要对各个镜头进行特征提取，建立视频单元索引。即提取镜头的颜色、纹理以及运动甚至高级语义等各种特征，形成描述镜头的特征空间，以此作为视频聚类和检索的依据。视频特征分为静态特征和动态特征。静态特征主要有颜色、纹理和形状等。颜色是图像最显著的特征，与其它特征相比，颜色特征计算简单、性质稳定，对于旋转，平移，尺度变化都不敏感。颜色特征包括颜色直方图，主要颜色，平均亮度等。其中，利用主要颜色和平均亮度进行图像的相似匹配是很粗略的，可作为层次检索方法的粗查。为了能够在大规模图像数据集中进行快速的搜索，Smith和Change等人提出了颜色集的概念:首先将RGB颜色空间转换为视觉上一致空间HSV，然后量化为m个颜色条，颜色集就定义为量化后的颜色空间中颜色的一种选择。152.4特征提取视频关键帧提取后，就要对各个162.52.5相似性度量相似性度量基于内容的视频检索主要是依赖它的视觉特征和时间特性。提交样例视频，查询相似的视频是最常用的检索方式。所以，要想设计一个准确可靠的基于内容的视频检索系统，就必须定义好怎样的视频才是相似的，即要解决视频相似性度量问题。视频的检索是一种相似性的检索，它是在提取帧图像的特征后，通过比较帧特征的相似性，来找到与给定的样例视频相近的视频片段，从而完成视频的检索。在检索过程中，相似性的判断是至关重要的一步，其直接影响着检索结果是否准确，而这种判断就是相似性度量。其实在该定义中，只是考虑了相似性度量的一个方面，实际上，一个合理的相似性度量应该综合考虑三个因素，即特征相似性、顺序相似性和时间跨度性。162.5相似性度量基于内容的视频检索主要是依17纹理是与物体表面材质有关的图像特征，具有照明不变性。纹理分析方法主要分为两类，即结构方法和统计方法。结构方法是假定图像有较小的纹理基元排列而成，只适用于规则的结构纹理分析;统计方法是对图像的颜色强度的空间分布信息进行统计。形状分析首先需要采用合适的图像分割算法把不同对象从图像中分割来，再用各种方法进行匹配测量。形状特征表示的一个重要准则是要求对位移、旋转、缩放的不变性，通常形状的表示可以分为基于边界和基于区域两类。运动特征反映了视频的时域变化，也是检索的重要内容。运动分析的方法有基于光流方程的方法、基于块的方法、像素递归方法和贝叶斯方法等，但这些方法计算量都比较大。于是，Tonomura等人提出了x线断层分析的方法，将整视频序列沿时间轴进行切片，从切片图像中分析运动情况。Patel和Sethi提出利用MPEG中的B帧和P帧的运动向量来避免光流计算和块匹配。17纹理是与物体表面材质有关的图像特征，具有照明不变性。纹理18参考文献1 弓洪玮.视频检索综述J.工程技术研究，2009，246147.2 杨强,尹德辉,马森.视频检索技术应用及其发展趋势J.电视技术,2007,31（2）：8889.3 赵伟,冀小平.基于内容的视频检索关键技术研究J.科技情报开发与经济,2009,19(4):117118.4 刘安文,支垮,张瑞,盛骁杰,杨小康.基于语义概念的视频检索系统的设计与实现J.中国图象图形学报,2008,13(10):20552058.5 刘安文.视频检索中概念检测技术的研究与应用D.上海：上海交通大学，2009.6 苗盼盼.基于内容的视频检索若干技术研究D.南京:南京理工大学，2010.7 罗凤玲.视频检索中的特征提取方法研究D.安徽：国防科学技术大学，2002.8 金燕.基于内容的视频检索技术研究D.山东：山东大学，2008.9 王帅.基于运动特征的视频检索技术D.黑龙江：哈尔滨工业大学，2007.10 闻剑锋,李战怀.一种基于运动轨迹的视频检索方法J.计算机科学,2002，29(8):237241.18参考文献1 弓洪玮.视频检索综述J.工程

展开阅读全文

视频检索技术课件

最新文档