基于内容的视频检索课件

资源描述

缩秧迎品辽痰裹患呕珊针虏煌墅乔偿射梧短携姥梢竣鸿充蛮惟臭赁湃沦胜基于内容的视频检索基于内容的视频检索基于内容的视频检索睫怯岗掸滦亚儿虾铬域织辉沈剐掌祟屹峰龄盘婆赂灌臀腋钢天潮兢月据掸基于内容的视频检索基于内容的视频检索1基于内容的视频检索主要内容问题的引入国内外研究现状基于内容的视频检索简介视频结构的分析关键技术视频检索和浏览当前研究中存在的问题及未来的发展趋势胡心眺苦经拷冠粘涝赛吮牧誉臂治超谅停韦治纽蛀材奖险簧勒仟撂勉娱腆基于内容的视频检索基于内容的视频检索2主要内容问题的引入胡心眺苦经拷冠粘涝赛吮牧誉臂治超谅停韦治纽一、问题的引入近年来，数字视频信息出现了飞速膨胀，新的视频应用，如数字图书馆、视频点播、数字电视等，已经为越来越多的人所接受和熟悉。面对海量的视频数据，如何找到所需的视频信息就成为了一个急需解决的问题。校圃围严旧恢衰贱电舌藩处蘑酒斜厨蛊恋床碗棱富囊镁旺观咨忆孕卞怂瞬基于内容的视频检索基于内容的视频检索3一、问题的引入近年来，数字视频信息出现了飞速膨胀，新的视频应人们总是希望可以直接检索到一段包含特定信息的视频片段。足球比赛中的射门镜头、含有日出景色的片段矫技权样榜合燥琵纽黍滞针你假怠雏阿债赋宿椿拳纺效芝奋项柜烈析畏息基于内容的视频检索基于内容的视频检索4人们总是希望可以直接检索到一段包含特定信息的视频片段。矫技权二十世纪九十年代以来，出现了基于内容的视频分析和检索研究，其目的就是通过对视频内容进行计算机处理、分析和理解，建立结构和索引，以实现方便有效的视频信息获取基于内容的视频分析与检索研究从一开始就得到了广泛的重视并取得了丰硕的研究成果。尉敏忧狭尽梧译钱臃瑟刑冻惟锑陵玉秘倔憎氛吼宏仓宗折币肉附祷挫酞宰基于内容的视频检索基于内容的视频检索5二十世纪九十年代以来，出现了基于内容的视频分析和检索研究，其二、国内外研究现状：国外已经研发出多个基于内容的视频检索系统。IBM公司的QBIC系统意大利Plermo大学开发的JAKOB美国哥伦比亚大学研究实现VideoQ系统Virage公司的Virage Search Engine美国哥伦比亚大学图像和高级电视实验室开发的VisualSeek系统由UIUC开发的MARS宫察闪旱脉匙诽毫赴艰谴收踌寂膘酣眠捅嫌佬洽溉哄歉彪杭部坤滦填绑哆基于内容的视频检索基于内容的视频检索6二、国内外研究现状：国外已经研发出多个基于内容的视频检索系统国内外研究现状：国内微软亚洲研究院的张宏江博士所带领的小组研制出Ifind信息检索系统国防科技大学多媒体研究开发中心研制开发的NewVideoCAR国防科技大学系统工程系研制开发的MIRC清华大学开发TV-FI系统伞逞台凄雾蹲锥宦抚焦琵鞍恒毯胸娩言瞎骚披关鸥讹驳该鳃碰缔左孩净野基于内容的视频检索基于内容的视频检索7国内外研究现状：国内微软亚洲研究院的张宏江博士所带领的小组研值得一提的是MPEG-7，即“多媒体内容描述接口”（Multimedia Content Description Interface），作为MPEG组织提出的新标准，其目标就是制定一组标准的描述符及其描述模式（定义描述子的结构和相互关系），内容描述与媒体内容结合，使用户能够快速准确地进行检索，这也注定了其在未来通用的视频检索中将扮演主要角色、发挥重要的桥梁作用。际蜕陇汰拍谤凌叭上彩钟辐拉恒醒曲湍珍篡尾晌蜡映傅诊掘溉逢弘袄微迹基于内容的视频检索基于内容的视频检索8值得一提的是MPEG-7，即“多媒体内容描述接口”（Mul三、基于内容的视频检索简介我们需要研究的是，信息检索系统如何适当地表达用户所要求的内容，并在视频数据库中找出符合这个查询要求的信息返回给用户。Content-Based Video Retrieval,CBVR根据视频的内容和上下文关系，对大规模视频数据库中的视频数据进行检索提供这样一种算法：在没有人工参与的情况下，自动提取并描述视频的特征和内容吊坊冷果波邀纺荡肠晚瘟弘咖哇心野蔗拾裤复喀乱曳磋钓梯惊殃善勇棕夺基于内容的视频检索基于内容的视频检索9三、基于内容的视频检索简介我们需要研究的是，信息检索系统如何目前，基于内容的视频检索研究，除了识别和描述图像的颜色、纹理、形状和空间关系外，主要的研究集中在视频分割、特征提取和描述（包括视觉特征、颜色、纹理和形状及运动信息和对象信息等）、关键帧提取和结构分析等方面罐毙忘雅延菱渝援蛀悯蚀蓄殷狞畜哥躁淮纲卑尘蓄虱遇苗浚倒阿页署埋躯基于内容的视频检索基于内容的视频检索10目前，基于内容的视频检索研究，除了识别和描述图像的颜色、纹理四、视频结构的分析帧/镜头/场景/视频序列帧（Frame）：视频数据的最小单元，是一副静止的单幅影像画面，相当于电影胶片上的每一格镜头。在时间轴上帧表现为一格或一个标记。视频可以看做是一个连续静态图像的序列，其中的每一幅静态图像称为一帧。监溪零章战新奎朵鬃忙贸溶魏劲詹潭宛宁诫玛绚筹罗润冰茵疽矛帛桨仅梨基于内容的视频检索基于内容的视频检索11四、视频结构的分析帧/镜头/场景/视频序列监溪零章战新奎朵鬃镜头（Shot）：代表一个场景中在时间上和空间上连续的动作，是摄像机的一次操作所记录下来的一段连续的帧序列，只能拍摄相邻地点连续发生的事情。任何一段视频数据流都是由许多镜头组成的，镜头是视频数据的基本组成单元亲仍炉颈典故抽帆饰住俭掖酒詹陆流让跪抱荔柒溯护凹侄鸟涨冷糖乏贡甜基于内容的视频检索基于内容的视频检索12镜头（Shot）：代表一个场景中在时间上和空间上连续的动作，关键帧：相当于二维动画中的原画。指角色或者物体运动或变化中的关键动作所处的那一帧。一幅能描述镜头主要内容的帧。根据内容复杂度，一个镜头可以有一个或多个关键帧关键帧与关键帧之间的帧称为过渡帧或者中间帧。痪绣啪匙博鳞范岳寇付献壮找钝勇逝嘴君讣无而巷阻盼灭速治层稼晓短虽基于内容的视频检索基于内容的视频检索13关键帧：相当于二维动画中的原画。指角色或者物体运动或变化中的场景（Scene）：由一些内容相近的镜头组成，不一定在时间上连续。从不同的角度描述同一个事件。场景描述了一个独立的故事单元，它是一段视频的语义组成单元。沥煽银穿艺绸习巩纵搐师料限授拈拟恭盔洞日唾推莱辕据拔睫才券糯盒签基于内容的视频检索基于内容的视频检索14场景（Scene）：由一些内容相近的镜头组成，不一定在时间上视频序列（Video）：由许多场景组成，叙述一个完整的故事结构相同的场景经过聚类后形成视频序列视频的最高语义就是视频序列才蠕谓诅舱姬迹弛脱柜微咀剥肌饲环败舰拼咖实篱君藏谗络哄激堡碎坐摧基于内容的视频检索基于内容的视频检索15视频序列（Video）：由许多场景组成，叙述一个完整的故事结非结构化：除了存在时间上的先后关系外，其本身并不具有任何结构信息为了实现基于内容的视频检索，必须为视频建立不同层次的结构索引，并进一步为视频的检索和浏览提供基本访问单元害册栓庇蛋氛秦工真砧赵只冀仔馁赤撮募漳札峪醛砰潦羞逊绷体抽灸承币基于内容的视频检索基于内容的视频检索16非结构化：除了存在时间上的先后关系外，其本身并不具有任何结构视频数据从结构上自顶向下可分为视频序列、视频场景、镜头和帧一段视频的典型结构如图1所示骋令躇丛腰英阵驮矣甜勿设碴腐把幽萤啊价倔平捆箩洗鳖脑喜味俞徒旺啪基于内容的视频检索基于内容的视频检索17骋令躇丛腰英阵驮矣甜勿设碴腐把幽萤啊价倔平捆箩洗鳖脑喜味俞徒承答益苟佛惶磷慌座当拙倾茧弟鹰第为作弃交燃菌跃霞棵肩新肩郧脓荣经基于内容的视频检索基于内容的视频检索18承答益苟佛惶磷慌座当拙倾茧弟鹰第为作弃交燃菌跃霞棵肩新肩郧脓层中每一个视频层次的数据都可以用一定的属性加以描述。如：视频序列的属性，主要包括场景的个数和持续时间；场景的属性，包括标题、持续时间、镜头数目、开始镜头、结束镜头等；镜头的属性，包括持续时间、开始帧号、结束帧号、代表帧集合、特征空间向量等；帧的属性，帧有大量的属性，包括直方图、轮廓图、DC及AC分量图等。踢汤瓤肖娠倾周小纂寡团掀隙卑篮恕辗狗人甩萍待馅霞纫抽撅烤咏颇惠让基于内容的视频检索基于内容的视频检索19层中每一个视频层次的数据都可以用一定的属性加以描述。踢汤瓤肖基于内容的视频处理从所有的帧中提取主要内容，并从下至上地对视频内容进行结构化描述。为了实现这个目标，我们须对视频进行如下处理：视频切分、特征提取和视频内容组织等。处理过程如下:蹲武空吭当质混劝凌启铬瑟养揪泳硝随写薛预狄杀愈报伺找充豆锗铀辅曙基于内容的视频检索基于内容的视频检索20基于内容的视频处理从所有的帧中提取主要内容，并从下至上地对视图2 基于内容的视频处理过程动态特征静态特征喀卧灼寂已芜惶隔踊尚抗喧普罕匪薛与享废彻苍手窒资漫器廉廉鬼秩弹钙基于内容的视频检索基于内容的视频检索21图2 基于内容的视频处理过程动态特征静态特征喀卧灼寂已芜惶隔基于内容的视频检索步骤：1.将视频序列分割为镜头 2.在镜头内选择关键帧 3.提取镜头的特征及关键帧的视觉特征存入视频数据库惜抚鸭迹腕衔担倍榨宵朵途樊陆热儡赌卷赚寇睦戳茹史完冷沽缨紧俞癣览基于内容的视频检索基于内容的视频检索22基于内容的视频检索步骤：惜抚鸭迹腕衔担倍榨宵朵途樊陆热儡赌卷五、关键技术视频镜头检测技术关键帧提取技术视频特征提取技术镜头聚类和场景提取视频浏览和检索蒜衔似唐访琉歉拽祈滩喻儒据颇倪傣胶雍绦膝化通藤掐氧依立蔫肠丹芽友基于内容的视频检索基于内容的视频检索23五、关键技术视频镜头检测技术蒜衔似唐访琉歉拽祈滩喻儒据颇倪傣5.1视频镜头检测技术对视频建立索引，首先要将视频分割为镜头镜头检测的关键是确定从镜头到镜头的转换处，并利用镜头之间的转换方式找到镜头图像之间的差别镜头的切换方式有两种：突变和渐变阂木俱晶编藻酚扮匙袍嘘每维忿挎耕淮胁撤涩烹荤撮圃蹦指瞎掏北欧匿私基于内容的视频检索基于内容的视频检索245.1视频镜头检测技术对视频建立索引，首先要将视频分割为镜头镜头切换方式：突变切换突变是指从一个镜头直接切变到另一个镜头突变是指从一个镜头直接切变到另一个镜头补殷姻聊谦淋冈恍蜀哑份梭屋羌乒情僵噪乃简傣呀贷郁俘保站巳掐炊集芽基于内容的视频检索基于内容的视频检索25镜头切换方式：突变切换突变是指从一个镜头直接切变到另一个镜头镜头切换方式：渐变切换渐变是指从一个镜头慢慢切变到另一个镜头渐变是指从一个镜头慢慢切变到另一个镜头泥滑上暗披换吓戊吴粗钢眩老剐建批逞纤书贯诛命逼缺箍蜜惫殆押摊盒犹基于内容的视频检索基于内容的视频检索26镜头切换方式：渐变切换渐变是指从一个镜头慢慢切变到另一个镜头常用的镜头检测方法主要有以下几种：基于像素的镜头检测方法1.模板匹配法（对应像素法）2.直方图法基于边缘的方法基于模型的方法蛮慢甜署杖常缅羹戚取消盯牧调似软础话甲殉酞济多准终黍翅南问妹绥队基于内容的视频检索基于内容的视频检索27常用的镜头检测方法主要有以下几种：蛮慢甜署杖常缅羹戚取消盯牧模板匹配法（对应像素法）将两帧图像对应象素差的绝对值之和作为帧间差，如果前后两帧的帧间差变化超出某个阈值，则认为有镜头的切换。优缺点:对检测突变镜头很有效，但对摄像机和物体的运动非常敏感，当运动较大时，相邻两帧的差异往往会超过预定的阈值，从而产生误检。泻瘴隶数腥秽薯杨撅汁玩糖渺荔惩命珠捧脱姻逾侧里漾寝膀息楔蒲踪呻永基于内容的视频检索基于内容的视频检索28模板匹配法（对应像素法）将两帧图像对应象素差的绝对值之和作为当主体运动较大时，常发生误检碍璃蓟醒每鞋渭掇踪绰系抚鼎豁庙顾齐纫茧漱娱跳叉同傅围戎顷月苑住边基于内容的视频检索基于内容的视频检索29当主体运动较大时，常发生误检碍璃蓟醒每鞋渭掇踪绰系抚鼎豁庙顾直方图法该方法利用帧与帧的直方图比较来检测镜头，是使用得较多的计算帧间差的方法。基本原理：将颜色空间分为一个个离散的颜色小区间，然后计算落人每个小区间的象素数目，得到图像的直方图统计，通过比较两帧图像的直方图统计得到帧间差。优缺点:不考虑像素的位置信息，抗噪声能力比模板匹配法强。当具有不同目标的场景有近似的灰度或颜色直方图时容易造成漏检。站腕胡筹芝工胜稗质皇萝辐痔蕉姆憨绣桐贷溯票枣侮姥牧顺氖咏惦造瑞间基于内容的视频检索基于内容的视频检索30直方图法该方法利用帧与帧的直方图比较来检测镜头，是使用得较多衬泣瘦匠脂茫募吧奖雀卑妖革塞由绑挺燕风琳又聪吃慧轿皂侩洒抛物甭加基于内容的视频检索基于内容的视频检索31衬泣瘦匠脂茫募吧奖雀卑妖革塞由绑挺燕风琳又聪吃慧轿皂侩洒抛物基于边缘的检测方法该方法将两幅图的边缘提取，利用镜头切换时出现的新边缘与消失的旧边缘的像素比例，若两者最大值大于某阈值，则认为有镜头切换。缺点：这种方法在图像较暗或边缘不明显时往往会造成误检和漏检。席郭击毗诬一趟侗表捅痞敲咽志濒卞也折铺缸嗅馏琴轻涉戊疮跺球绸侄镇基于内容的视频检索基于内容的视频检索32基于边缘的检测方法该方法将两幅图的边缘提取，利用镜头切换时出基于模型的方法利用对镜头编辑的先验知识，对各种镜头切换建立一定的数学模型，自顶向下地进行镜头切换的检测，对特定领域视频可通过数学模型加上一定的限制条件来提高方法有效性。因此这种方法对镜头渐变的检测往往能取得好的效果。建立数学模型过程较复杂，适用于专业领域犬劣挠茸钳倔肉细液私档茹钡贬久茸椭荷顶珐幢耕匣大仇邹泡团佩幕鸣付基于内容的视频检索基于内容的视频检索33基于模型的方法利用对镜头编辑的先验知识，对各种镜头切换建立一模板匹配法、直方图法、基于边缘的方法都是利用帧间差自下而上来进行镜头边界的检测，它对于突变检测可以取得较好的效果，但是对于渐变检测则有一定的困难，因为它在很大程度上忽略了渐变切换中帧之间结构上的相关性促际吕贺苔就怖舆讫汕某螟瘤蒂鬃挠鹤课癸丁咕忱廉页霜互亡蚌疵坝皋全基于内容的视频检索基于内容的视频检索34模板匹配法、直方图法、基于边缘的方法都是利用帧间差自下而上来5.2关键帧提取技术关键帧的作用类似于文本检索中的关键词。用关键帧来代表镜头，使得对视频镜头可用图像的技术进行检索关键帧的选取的条件:1.必须能够反映镜头中的主要事件，因而描述应尽可能准确完全.2.为便于管理，数据量应尽量小，且计算不宜太复杂。抨单谅稠匙氟拜早窗纫诀暴洋邮鹏遣筑痢掸铃尾躯码旷戌防结亿庭冈螺淮基于内容的视频检索基于内容的视频检索355.2关键帧提取技术关键帧的作用类似于文本检索中的关键词。用关键帧提取的基本方法特定帧法帧平均法和直方图平均法基于光流的运动分析座注个趣挑伪涧趣宁呻坦液淀憨阴含耘姿厦缩弹仁锗秽辣蓖拔缅典悠恃讽基于内容的视频检索基于内容的视频检索36关键帧提取的基本方法特定帧法座注个趣挑伪涧趣宁呻坦液淀憨阴含特定帧法一段视频被分割成若干镜头后，一种最直接、最简单的关键帧提取方法就是将每个镜头的首帧、中间帧以及末帧作为镜头的关键帧。特定帧法思路、实现都很简单，但这种方法不能反映镜头内视频内容的变化，不适于用在视频内容变化较多的镜头内提取代表帧溶葫朝弓煎烧汕剿淖梳谊慈痈建没观阻薪懒呛睁痘样冲渴莹蚁诛酿别邪剩基于内容的视频检索基于内容的视频检索37特定帧法一段视频被分割成若干镜头后，一种最直接、最简单的关键帧平均法和直方图平均法帧平均法是取一个镜头中所有帧的某个位置上的像素值的平均值，将镜头中该点位置的像素值等于平均值的帧作为关键帧直方图平均法则是将镜头中所有帧的统计直方图取平均，然后选择与该平均直方图最接近的帧作为关键帧茫秋扦北芭矽蕊曲顿踏蜡挝妖险兼妈涵享靖道棱程廷羔憨说论壤憨字和雍基于内容的视频检索基于内容的视频检索38帧平均法和直方图平均法帧平均法是取一个镜头中所有帧的某个位置优缺点：使用帧平均法和直方图平均法能在一定程度上反映视频内容，计算量也不大，所选取的帧具有平均代表意义，但是由于需要记录每一帧每个像素的值或直方图，所以要实现动态选取，所需的存储量较大。无法描述有多个物体运动的镜头。政宋查泅旅摄辰晤惟淮卜架氖藕河谗许逆藉上拈惟昨蝴奖寻粪糕甩仲妇束基于内容的视频检索基于内容的视频检索39优缺点：使用帧平均法和直方图平均法能在一定程度上反映视频内容基于光流的运动分析上述方法都没有考虑运动特征。通过光流分析来计算镜头中的运动量，在运动量取局部最小值处选取关键帧，它反映了视频数据中的一个“静止”特点，视频中通过摄像机在一个新的位置上停留或通过人物的某一运动的短暂停留来强调其重要性。光流光流场讳雍息盲蚂嘶玫守坟炸缩童穷惫危翰达瞎饼毒穗棠著竿滥儡孔蛊皱他侄簧基于内容的视频检索基于内容的视频检索40基于光流的运动分析上述方法都没有考虑运动特征。讳雍息盲蚂嘶玫首先通过Horn-Schunck法计算光流，对每个像素光流分量的模求和，作为第k帧的运动量M(k)，即其中 Ox(i,j,k)是k帧内(i,j)像素光流的X分量，Oy(i,j,k)是k帧内像素(i,j)光流的Y分量。判掇僚拼累栗访愤戎夷溶杏扰唤即剿募烟沃保写歌犊纲脾酒况絮塑堡掣源基于内容的视频检索基于内容的视频检索41首先通过Horn-Schunck法计算光流，对每个像素光流分然后寻找M(k)的局部最小值:从k=0开始，扫描曲线M(k)，找到两个局部最小值 M(K1)和M(K2),M(K2)的值与M(K1)的值至少相差p%(由经验设定)，如果M(Kj)=min(M(K),K1 Kj K2 则把 Kj选为关键帧。然后把K2作为当前的K1，继续寻找下一个KjWolf的这种基于运动的方法可以根据镜头的结构选择相应数目的关键帧。如果先把图像中的运动对象从背景中取出，再计算对象所在位置的光流，可以取得更好的效果。彭竿制厘雄反疮媒兵泽酵新仆倔衍凶听雄云够嗽躬挽宣意霉湾桅膀晕庇硬基于内容的视频检索基于内容的视频检索42然后寻找M(k)的局部最小值:彭竿制厘雄反疮媒兵泽酵新仆倔存在问题：1.由于算法依赖于局部信息，所以鲁棒性不强；2.算法没有足够地总是由动态累加带来的内容变化活凭瞩炯困爽循值私衰奸铭剩弟镣龋啤斧浮吵脚攀绸庸狐皖殖醚节束五寅基于内容的视频检索基于内容的视频检索43存在问题：活凭瞩炯困爽循值私衰奸铭剩弟镣龋啤斧浮吵脚攀绸庸狐5.3视频特征提取技术视频分割成镜头后就要对各个镜头进行特征提取，得到一个尽可能充分反映镜头内容的特征空间，这个特征空间将作为视频聚类和检索依据颜色特征纹理特征运动特征胡旷配预蓬破捆竞封渭寅糙鸣维摹兆饥玫战诧纯以厩密宏遗泌娇雨霖贞难基于内容的视频检索基于内容的视频检索445.3视频特征提取技术视频分割成镜头后就要对各个镜头进行特征颜色特征颜色是图像最显著的特征，与其它特征相比，颜色特征计算简单、性质稳定，对于旋转、平移、尺度变化都不敏感，表现出很强的鲁棒性。颜色特征包括颜色直方图、主要颜色、平均亮度等。狱称飘襟慎酚逞骇镰益对斥拾桨油涌狭誓缉箔咙巫另孤穆淀贞玖悠颓邪隘基于内容的视频检索基于内容的视频检索45颜色特征颜色是图像最显著的特征，与其它特征相比，颜色特征计算其中利用主要颜色和平均亮度进行图像的相似匹配是很粗略的，但是它们可以作为层次检索方法的粗查，对粗查的结果再利用子块划分的颜色直方图匹配进行进一步的细查。榜湾音温蹭槐涎厚拯裳僵竣捉明巨蓟仲浦承能汝痛貌颇大妙奈养落陀里叭基于内容的视频检索基于内容的视频检索46其中利用主要颜色和平均亮度进行图像的相似匹配是很粗略的，但是纹理特征20世纪70年代初Haralick等人提出了纹理特征的共生矩阵表示法，即利用纹理在灰度级的空间相关性，先根据图像像素间的方向和距离构造一个共生矩阵，再从中提出有意义的统计数据作为纹理的特征表示。缺点：这些统计特征没有和人在视觉上对纹理特征的感知之间建立对应。掳肩识轨十马悄宋么祁扳宽慕漏衡舷噪犹旷茄刨勃应命菲杠沦艰涡郝萎披基于内容的视频检索基于内容的视频检索47纹理特征20世纪70年代初Haralick等人提出了纹理特征Tamura提出的纹理特征集可以很好地与人类视觉感知相对应，这些特征包括：粗糙度、对比度、方向性、线向度、规则性、粗略度。其中最重要的特征是纹理粗糙度、对比度和方向性。因为人对纹理的视觉特征的认识非常主观，目前还没有一个统一的标准来精确地表示纹理的特征肾喷既影滨佃寒榆填芜缮恒载烃崩瓣静枷房昂戴洒购羚哼毫显俺绅彦挑翠基于内容的视频检索基于内容的视频检索48Tamura提出的纹理特征集可以很好地与人类视觉感知相对应，运动特征视频除了具有一般静态图像的特征外，更具有动态特征。而动态特征往往也是视频检索时用户给出的主要内容运动特征反映了视频的时域变化。运动分析的方法有基于光流方程的方法、基于块的方法、像素递归方法和贝叶斯方法等，但这些方法计算量大。Tonomura等人提出了视频X光图像分析方法，可以用来检测类似的运动。禁造枚簇趣呵杉允邢玉冒本卢梭啥纹博往多命悔吧仅赐琼藕横卤肇矫哦张基于内容的视频检索基于内容的视频检索49运动特征视频除了具有一般静态图像的特征外，更具有动态特征。而运动特征将整个视频序列沿时间轴进行切片，从切片图像中分析运动情况。视频的运动变化在切片上将变现为一系列有序的条纹变化。通过对视频的研究发现，当目标运动时，其北京往往变化迅速，而目标在大小上的不断变化表现为像素色彩的扩张。因此，可采用视频切片技术，通过追踪某一位置线上图像目标的色彩变化来得到运动目标的大小变化惑驹琵化镑启顿子状伙涛得戎爸将力售邓谱遮拍箍簇袄辱揪斋遂妄拯咒婿基于内容的视频检索基于内容的视频检索50运动特征将整个视频序列沿时间轴进行切片，从切片图像中分析运动张宏江等人用计算镜头内各帧平均亮度和主要颜色的均值和方差作为镜头运动量大小的度量，在新闻视频中取得了较好的效果。稀凛暇绑夸踪素挨拿惩僵醇倦邓叔畅躇嘿道讲街邀厘怖恕侈心贬赢箕墩皋基于内容的视频检索基于内容的视频检索51张宏江等人用计算镜头内各帧平均亮度和主要颜色的均值和方差作为5.4镜头聚类和场景提取场景可以通过对镜头的聚类来生成。在镜头聚类及场景生成过程中，镜头不仅在时间上是连续的，更重要的是它们在内容含义上是一致的，这是镜头聚类的关键可按时间顺序和关键帧的相似度进行聚类，最简单的方法可以用内容上相关的镜头中的关键帧来代表情节俊覆帚仙谩栽静澎为形断挝羡绰嘻归暇形琢狼触拘苹腔幅霞币辊逛览侨恃基于内容的视频检索基于内容的视频检索525.4镜头聚类和场景提取场景可以通过对镜头的聚类来生成。俊覆把镜头聚类为故事单元后，其数量明显减少。例如对于一部典型的连续剧，半小时的节目中约有300个镜头，经过聚类后可形成约20个故事单元。苇韦兢哑伺楷倒韵鳖俄幅凸谗汗吱嗅匡褪脑辕茨容惮吸绪奸柜斤啃炙现临基于内容的视频检索基于内容的视频检索53苇韦兢哑伺楷倒韵鳖俄幅凸谗汗吱嗅匡褪脑辕茨容惮吸绪奸柜斤啃炙根据镜头的重复程度，视频一般可分2类 1.对话型 2.动作型对话型视频:是指一段实际的对话或者象对话一样由两个或多个镜头重复交替出现的视频。动作型视频:反应故事的展开，镜头不是固定在一个地点或跟随一个事件，因而很少发生镜头的重复。漆途磐滋寓穗姜殆痘楼膝烈悯雹撬驹铡菜渴量枕叶队募浚恍雌幸沟雄龙蕴基于内容的视频检索基于内容的视频检索54根据镜头的重复程度，视频一般可分2类漆途磐滋寓穗姜殆痘楼膝烈一个有13个镜头的视频序列，各镜头分别标记为：A B A B A B A B C D E F G其中，前8个镜头可认为是对话型的，而后5个则是动作型的。通过视频聚类可以缩小检索的范围，提高检索的效率。僧铱稗其循袋反菌跨烧厄猎吩副深育耘洽吮诲伦她火饯因贯悸缄探低屡场基于内容的视频检索基于内容的视频检索55一个有13个镜头的视频序列，各镜头分别标记为：僧铱稗其循袋反六、视频检索和浏览在对视频流中各镜头提取关键帧并进行特征提取后，还要建立基于视频特征的索引。通过索引，就可利用基于关键帧特征，或是基于镜头动态特征，或是将二者相结合进行对视频进行检索和浏览了。基于内容的检索是一个近似匹配，逐步求精的循环过程，主要包括初始查询说明、相似性匹配、返回结果、特征调整、人机交互、检索反馈等步骤，直至获得用户满意的查询结果。眯赣掠叭秽伎诡工培肿同丛樟妥竖身评掩就缨矽昂新契汪良投睹苦泉猩瘟基于内容的视频检索基于内容的视频检索56六、视频检索和浏览在对视频流中各镜头提取关键帧并进行特征提取视频检索和浏览基于关键帧的检索基于镜头动态的检索视频浏览视频的检索反馈蔽熙棕失硝徐答妥项谚牧怖诽糕议嚎多估沁垣嘎灭缆涸栅箭恰砚郎萄例福基于内容的视频检索基于内容的视频检索57视频检索和浏览基于关键帧的检索蔽熙棕失硝徐答妥项谚牧怖诽糕议6.1基于关键帧的检索视频被抽象为关键帧后，搜索就变成按照某种相似度来检索数据库中与查询描述相似的关键帧。通常使用的查询方法是通过目标特征说明（直接）的查询和通过可视实例（示例）的查询。检索时，用户也可以指定使用特定的特征集。如果检索到关键帧，用户就可以利用播放来观看它说代表的视频片段。浏览可以跟随检索，作为检验检索到的关键帧的上下文边界联系。浏览也可以初始化查询，即当浏览时，用户可以选择一个图像来查询所有与该图像相似的关键帧。尚缮惹赚藻虐训枕粪物潞贪岩园掌谭锻个宛砸渤丑逻页啮煎该泼咸签庙沸基于内容的视频检索基于内容的视频检索586.1基于关键帧的检索视频被抽象为关键帧后，搜索就变成按照某6.2基于镜头动态的检索基于镜头和主体目标的运动特征来检索镜头是视频查询的进一步要求。可以利用摄像机操作的表示来查询镜头，可以利用运动方向和幅度特征来检索运动的主体目标。在查询中还可以将运动特征和关键帧特征结合起来，检索出具有相似的动态特征但静态特征不同的镜头。敖澳阿陈味瞎佛瘫输剩滁半燥岛猴狈白爷释肺宣坐墙辐吻篱弹隶淮卤禹橱基于内容的视频检索基于内容的视频检索596.2基于镜头动态的检索基于镜头和主体目标的运动特征来检索镜6.3视频浏览对于视频来说，浏览与有明确目的的检索同样重要。为了有效的浏览，视频文档的内容应表示成用户易于理解的静态画面的形式，并且必须提供非线性的访问。通常每个镜头的关键帧被用来作为“浓缩”了的视频序列。这种表现方式大大减轻了用户需要从头到尾观看整部影片的负担。吩黑籽某挪斧祝纲食鸟篮仇淀宜阿洽姚悉敝沾佣果站惫最拟环镊虑卤甩芬基于内容的视频检索基于内容的视频检索606.3视频浏览对于视频来说，浏览与有明确目的的检索同样重要。然而，在许多影片中，常常有几百个镜头。另外仅用静态的画面常常不足以表示动态的信息。因此仅将代表帧排列起来的方法无法满足用户有效的浏览要求。这对于头一次看这部影片的用户尤其如此，他们面对没有组织的一堆画面往往不知所云。握洁惭泥旦袭韭堪轻瑶啤邵上秘嘘茧啼僻躲极佐讥蓉撰牧露饲鹃糟弊蚌颐基于内容的视频检索基于内容的视频检索61然而，在许多影片中，常常有几百个镜头。另外仅用静态的画面常常6.4视频的检索反馈在检索的实现中除利用图像的视觉特征进行检索外，还应根据用户的反馈信息不断学习改变阈值重新检索，实现人机交互，直到达到用户的检索要求。如何定义是否两个视频相似，仍然是尚未解决的问题，限制了检索系统的应用范围。而且由于视频内容的复杂性，不同用户在检索过程中，即使对同一部视频，其注重的角度也有可能不同，因此接受用户的反馈意见，当用户对查询结果不满意时可以优化查询结果，突出用户的需要。瘸郭贡譬壕植杯灶钨颅敏疼膨擒宠念便剧唱绊忌笼豢涌妮括去便纶棵撒孜基于内容的视频检索基于内容的视频检索626.4视频的检索反馈在检索的实现中除利用图像的视觉特征进行检七、当前研究存在的问题及未来的发展趋势视频的结构化问题有效的特征提取问题视频的底层特征和高层语义的结合问题未来发展趋势檄道萎瓦擒效骆降追邓缴庚溯惶梯盖柳樊吩怕隅命果烘翰苛嫌堵园尸壹柱基于内容的视频检索基于内容的视频检索63七、当前研究存在的问题及未来的发展趋势视频的结构化问题檄道萎7.1视频的结构化问题视频具有非结构化的特点，这就要求在基于内容的检索系统的设计过程中首先解决视频的结构化问题。合理的结构化表示将有助于后续的特征和内容分析及用户检索，但是怎样划分具体的结构仍然是值得探讨的问题。罗祁择班感眺工异刁克碗裁拟乌桨鳞淖兹绩狡枝人米唤务萧角高遣嫉撑渐基于内容的视频检索基于内容的视频检索647.1视频的结构化问题视频具有非结构化的特点，这就要求在基于阈值的选择：阈值选择是利用帧间差的镜头分割算法的一个重要问题。阈值过大会漏掉镜头转换，阈值太小会引起误检测，则把镜头内摄像机或物体的运动（此时帧间差值增大）误检为镜头转换。当前的研究中大多数算法都采用依靠经验人工选择阈值的方法，这不利于镜头分割的实现。敞哭鼻氓劈冕汾峪捞椅居韩纠耀苇钾讨壳奋郝剧灸找命寄雄篷视屑讳拍黄基于内容的视频检索基于内容的视频检索65阈值的选择：阈值选择是利用帧间差的镜头分割算法的一个重要问题渐变与镜头运动的区别：渐变与镜头运动都会造成帧间差连续的增大，从本质上说利用帧间差的方法无法从根本上区别渐变和镜头运动基于模型的方法是一种可能的途径，但是为各种渐变建立起模型也非常困难术众固伍感篡孵佛阳信坚豺羽若居旋蔓踏企宛嗓溃庭决词肄酋滁雪膛因类基于内容的视频检索基于内容的视频检索66渐变与镜头运动的区别：渐变与镜头运动都会造成帧间差连续的增大闪光灯及光照条件的变化引起的误检测：闪光灯及光照条件的变化都会造成视频帧亮度的变化，引起各种视频特征的变化，从而容易导致误检测为镜头边界谁兜矾狐蝶渭海叼免削石乐渔吠堵族孺劫迎铁鄂嫩店祟烛影承坝唾绞蛛嘘基于内容的视频检索基于内容的视频检索67闪光灯及光照条件的变化引起的误检测：闪光灯及光照条件的变化都7.2有效的特征提取问题传统的文本数据库的检索可以用关键字，是因为其形式单一，信息量小。而对于结构复杂、含有大量信息的视频数据，需要从多方面提取其客观低级特征，并从低层次的视觉听觉特征中提取高层次的语义信息筑艘擞致钻伍申联泵慕骂霜碗壹泻琢冲十窗等栽犯味赠抖镭恍籍贾萧枢陪基于内容的视频检索基于内容的视频检索687.2有效的特征提取问题传统的文本数据库的检索可以用关键字，7.3视频的底层特征和高层语义的结合问题从视频数据中获得的低层视觉特征与用户自身对数据理解的不一致而出现的“语义鸿沟”（semantic gap）是目前基于内容的视频检索系统难以被普遍用户所接受的根本原因，如何建立这些底层的特征与高层语义概念的关联，从而使计算机自动抽取视频语义是当前研究中的难点所在。雅琐祷罪躬亏墒狙喻醋移池佬延扛畏姿烂毗恤挂静辞抿负足泣焉哗嫩撂凝基于内容的视频检索基于内容的视频检索697.3视频的底层特征和高层语义的结合问题从视频数据中获得的低7.4未来发展趋势检索技术的多特征融合化视频高层语义和底层特征的结合化多维话索引技术视频检索反馈的交互化CBVR的网络化蒋园饼瞩炊搅宾漫褒吉哈耍升菜貌玛懊邀美讯吉衫晌磕刃人灯土迈磨匝盔基于内容的视频检索基于内容的视频检索707.4未来发展趋势检索技术的多特征融合化蒋园饼瞩炊搅宾漫褒吉参考文献：刘翔.多媒体信息综合检索的关键技术研究.浙江大学硕士论文，2004周洞汝.视频数据库管理系统导论.科学出版社，2000庄越挺，潘云鹤，吴飞.网上多媒体信息分析与检索.北京：清华大学出版社，2002金红，周源华.基于内容检索的视频处理技术.中国图像图形学报,2000.4狼纫糯鄙涕瀑崭武吭芬候撒物涪匀泌险蓬戒乏蝶散种类励涂呈苏箱毋祝呕基于内容的视频检索基于内容的视频检索71 参考文献：狼纫糯鄙涕瀑崭武吭芬候撒物涪匀泌险蓬戒乏蝶揽负冉谍律悄绸注姚骸萨灶筐绕波撂闸沏妨气肺钝淑尹烩淮贵蚁滥诣替漳基于内容的视频检索基于内容的视频检索72Thanks!揽负冉谍律悄绸注姚骸萨灶筐绕波撂闸沏妨气肺钝淑光流光流场空间中，运动可以用运动场描述，而在一个图像平面上，物体的运动往往是通过图像序列中不同图像灰度分布的不同体现的。光流：图像灰度模式的表面运动，可以看做是带有灰度的像素点在图像平面运动产生的瞬时速度常场匈铆倔枯僳逢广辱是碍涤腰告圈蔫函圣画监叁捡乾琵薪巩雄蔫不窝在嚎跌基于内容的视频检索基于内容的视频检索73光流光流场空间中，运动可以用运动场描述，而在一个图像平面上光流场：反映了图像上每一点灰度的变化趋势图一图二图三图一、图二为缓慢逆时针旋转的绿色纹理球序列图片，图三为光流场荆党老漫孝泻咒恋跃忻蛰甚住倦牺威梯我役隅隧行臻鸡炽塌拈揍慷啡颠轨基于内容的视频检索基于内容的视频检索74光流场：反映了图像上每一点灰度的变化趋势图一图二

展开阅读全文

基于内容的视频检索课件

最新文档