资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,跨媒体检索技术,*,*,摘要,摘要当前多媒体信息检索技术正从基于内容特征相似性的单一媒体检索发展到基于多种媒体综合检索,实现跨媒体信息检索提出了多种跨媒体信息检索的系统结构,在分析各种媒体信息检索的基础上,设计并实现跨媒体搜索引擎及其查询分解策略和检索结果融合方法等。,关键词:多媒体;跨媒体;信息检索;检索机制,10/3/2024,1,跨媒体检索技术,摘要摘要当前多媒体信息检索技术正从基于内容特征相似性的单一媒,跨媒体检索技术,第一章 绪论,在数字信息时代,人们对信息的需求表现出前所未有的强烈。单一形式的传播媒介不能满足受众的需求时,跨媒体传播便应运而生了。由于新技术(尤其是网络技术)的迅速发展也为跨媒体传播提供了必要的技术保障。,随着媒体每时每刻渗入到人们生活每个角落,人类从来没有感觉到媒介技术的力量如此巨大,以至于它能极大地改变和影响着现代人的生活,各种媒体为了寻求更好的生存环境和发展它们必定之间会合作、共生、互动与协调,这正是跨媒体传播的市场动因。,传媒一体化与合作化倾向正在成为历史潮流。跨媒体传播只是这种一体化与合作化的外部表象。许多传媒巨子不仅插手各种传播领域,也将传播范围覆盖到全世界。澳大利亚的默多克新闻集团、美国的CNN(美国有线电视新闻广播公司),英国的BBC等都是世界上传媒领域的大型“航空母舰”。在跨媒体传播方面,它们是最早的实践者,也是最大的受益者,。,由于跨媒体的业务不断地扩张,基于跨媒体检索的方法也越来越多,本文着重介绍基于内容相关性的跨媒体检索方法。,10/3/2024,2,跨媒体检索技术,跨媒体检索技术第一章 绪论10/3/20222跨媒体检索技术,第二章 一种基于内容相关性的跨媒体检索方法,跨媒体信息检索系统结构跨媒体是在多媒体的基础上,利用各种媒体的形式和特征,对相同或相关的信息用不同的媒体表达形式进行处理,由此而产生存储、检索和交换等活动.在跨媒体信息环境下,用户提交一种媒体对象作为查询示例,检索系统不但可以返回相同种类的相似对象,而且还能返回不同种类的其他媒体对象,如利用图像示例检索语义相关的音频或视频片段等。,跨媒体信息检索系统需要最大限度地挖掘不同媒体之间相互表达、相互补充的语义关联性和协同效应,通过智能推理重构和新生知识,构建有效存储、管理和检索跨媒体信息的模型和系统.跨媒体信息检索的系统结构如图1所示,它包括跨媒体搜索引擎、跨媒体综合处理、数据存储和用户接口等模块。,10/3/2024,3,跨媒体检索技术,第二章 一种基于内容相关性的跨媒体检索方法10/3/2022,10/3/2024,4,跨媒体检索技术,10/3/20224跨媒体检索技术,2.1 相关性介绍,相同语义、不同模态的媒体数据在底层特征上具有潜在相关性,例如,“松鼠”图像的视觉特征和“松鼠”音频的听觉特征在统计意义上存在一定相互关联。采用典型相关分析(Canonical Correlation Analysis CCA)方法挖掘这种不同模态之间的典型相关性。,两个变量场与之间的相关性定义如下:设有个样本、个变量组成的变量场,记为,另有个样本、个变量组成的变量场,以最大限度地提取与之间相关性的主要特征为准则,从中提取组合变量,从中提取组合变量,如下所示:,(1),其中,为空间特征向量,又称为典型变量。按式(1)把具有较多个变量的变量场与之间的相关化为较少组合变量与间的相关,通过,的数值分布来确定与的空间相关分布形式,而,的数值大小则表示了所对应变量的重要程度。于是问题归结为如何求解典型变量,。定义相关系数为,在式(3)的约束下,使相关系数最优化,10/3/2024,5,跨媒体检索技术,2.1 相关性介绍10/3/20225跨媒体检索技术,(2),(3),其中式(2)的表示和构成的协方差矩阵。结合式(2)和(3),使用拉格朗日乘子法可以得到,即将最优化问题转换为形如的特征根问题,并进一步根据式(1)得到最小变量组合,以最大限度地揭示,之间的相关性。,10/3/2024,6,跨媒体检索技术,2.2 同构子空间的映射,给定多个语义类别的图像和音频作为训练数据,设已知语义类别的个数为,未知每幅图像和每段音频例子与语义类别之间的所属关系,可以采用如下所示的半监督式相关性保持映射方法构建同时容纳图像和音频对象的同构子空间。,半监督式相关性保持映射。,1、对每个语义类别,随机选择一些图像和音频进行语义标注;,2、分别求出,聚类质心,;,3、分别以,为初始质心对图像数据集和音频数据集进K-Means聚类;,4、聚类结果中与初始聚类质心划分到相同类别的图像被赋予与相同的语义;,5、聚类结果中与初始聚类质心划分到相同类别的音频被赋予与相同的语义;,6、对每个语义类别中所有图像和音频数据提取视觉特征矩阵X和听觉特征矩阵Y,计算X,Y之间的典型变量,以此为基向量映射得到低维子空间。,上述方法在只对少量图像和音频数据进行语义,标注的情况下,通过K-Means聚类划分语义类别,分别求取每个类别的视觉和听觉典型变量,将典型变量映射得到的子空间命名为CCA子空间。,10/3/2024,7,跨媒体检索技术,2.2 同构子空间的映射10/3/20227跨媒体检索技术,2.3 CCA子空间中的跨媒体检索,2.3.1不同模态间的相关性度量,设表示初始的视觉特征向量,表示初始的听觉特征向量。经过半监督式的相关性保持映射后生成大量复数,定义经过子空间映射后的向量为,同理可得对应CCA子空间中的映射结果。由于存在大量复数而无法直接在CCA子空间S*中计算距离,因此,将子空间中每一维上的坐标值转换为极坐标形式:,(4),对也用式(4)的方法进行变换,则图像和音频之间的距离定义为每一维上极坐标距离的平方和的2次方根,即,(5),从而,对于用户提交的图像查询例子R,可以采用计算子空间中图像与音频对象之间的距离以衡量跨媒体相关性大小。然而,由于语义鸿沟的存在,子空间的映射过程虽然保留了视觉和听觉特征间的典型相关性,但是的计算结果不能准确反映整个数据集范围内的跨媒体语义关系。因此,需要对的结果进行修正,定义修正后的跨媒体相关性为,(6),10/3/2024,8,跨媒体检索技术,2.3 CCA子空间中的跨媒体检索10/3/20228跨媒,其中修正因子,表示子空间中不同模态样本之间与真实的跨媒体语义关系之间的差值。初始化为0,并在基于增量学习的相关反馈过程中通过提取用户交互中的先验知识进行更新,。,2.3.2基于增量学习的相关反馈,相关反馈方法的使用可以结合用户的感知先验知识,以修正查询向量和整个数据集的拓扑关系,从而提高查询效率。基于增量学习的跨媒体相关反馈作用于子空间,而不是初始的视觉和听觉特征空间。因此,子空间中数据集的分布关系直接影响反馈算法的设计和效率。子空间是基于相关性保持映射而得到的,这种相关性保持特性使得图像和音频数据在子空间中形成一定的聚类效果,因此我们有如下假设:,假设,在子空间中,相似语义、相同模态的媒体对象分布在比较集中的区域。基于上述假设,以增量学习方式传播相关反馈中的跨媒体语义信息,修正图像和音频数据集在子空间中的拓扑结构,同时更新修正因子的取值,使得式(6)的计算结果更准确地反映图像和音频对象在语义上的跨媒体相关程度。设R为提交的图像查询例子,用户对返回的音频例子进行评判。得到音频正例集合P和音频负例集合N,相关反馈,10/3/2024,9,跨媒体检索技术,其中修正因子,表示子空间中不同模态样本之间与真实的跨媒体语义,2.3.3 新媒体对象在CCA子空间中的定位,为了实现“新”媒体对象在子空间中的定位,需要结合用户反馈中的先验知识。设“新”媒体对象为Z,如果可以准确计算出Z的坐标,则以Z为查询例子的跨媒体检索可以用上述方法实现3。Z的坐标的计算如下:,(1)提取Z的底层特征,使用欧氏距离,检索与Z同模态的媒体对象数据库,找到Z的K-近邻作为返回结果;,(2)用户标注两个反馈正例,设 的坐标表示为,,则Z的坐标为,其中。,此外,还可以根据反馈正例对应的典型变量实现Z的子空间坐标映射。,10/3/2024,10,跨媒体检索技术,2.3.3 新媒体对象在CCA子空间中的定位10/3/20,2.4 实验结果与分析,为了验证上述算法的有效性,我们在Win XP下用VC6。0实现了一个原型系统,支持图像和音频间的跨媒体检索。实验数据集包括10个语义(鸟类、狗、汽车、爆炸、老虎、飞机等等)的多媒体对象,每个语义类别中分别有100幅图像和70段音频数据,其中60幅图像和60段音频例子作为训练数据,其余共400幅图像和100段音频数据作为“新”媒体对象。,以下实验结果中的“平均”是指分别在每个语义类别中随机选择了10个不同的查询例子,得到检索结果的平均值。,2.4.1 不同方法得到的跨媒体检索结果,为验证本文方法对图像和音频两种不同模态之间跨媒体检索的有效性,实验根据视觉和听觉的方法分析视觉特征和听觉特征之间的典型相关性,并提取典型变量,映射得到保持相关性的子空间,用式(5)计算图像和音频在子空间中的距离,得出在没有相关反馈情况下的跨媒体检索结果。,实验与传统的PCA、ICA和PLS方法做了对比,分别用这三种方法通过相同的降维映射步骤实现跨媒体检索,过程如下:,10/3/2024,11,跨媒体检索技术,2.4 实验结果与分析 10/3/202211跨媒体检索技,(1)计算视觉特征矩阵的子空间基向量,映射得到子空间S1;,(2)同样将听觉特征向量都映射到与S1相同维数的子空间S2中;,(3)根据图像和音频在S1,S2中的坐标计算两者间的欧氏距离,以度量跨媒体相关性从而实现检索。,图1列出了本文的方法与传统PCA,ICA以及PLS方法得到的跨媒体检索结果,其中查准率和查全率采用与基于内容的图像检索在性能检测时相同的方法计算。,10/3/2024,12,跨媒体检索技术,(1)计算视觉特征矩阵的子空间基向量,映射得到子空间S1;1,图1中的结果是以图像为查询例子检索音频和以音频为查询例子检索图像得到的平均值。可见,在选择相同的视觉和听觉特征作为输入的情况下,本文方法优于传统的PCA,ICA和PLS方法。这是因为典型变量的计算过程是根据视觉和听觉特征的协方差矩阵分析潜在的跨媒体相关性信息,从而映射得到的子空间可以更好地反映高层的语义关系;而传统的PCA,ICA和PLS方法虽然已证明在处理单一模态的特征矩阵时十分有效,但是难以挖掘两种不同的特征矩阵之间的潜在关联。,图2是一个具体的跨媒体检索例子,其中输入为一段5.3s的汽车音频,系统根据本文的方法计算相关性大小(见图2中每幅图像下方的数字),并返回前15个相似图像。可见,返回结果中有12幅图像与音频查询例子描述了相同语义。,10/3/2024,13,跨媒体检索技术,图1中的结果是以图像为查询例子检索音频和以音频为查询例子检索,图1没有相关反馈时的跨媒体检索结果对比,图2 以汽车的音频为查询例子返回的相似图像,10/3/2024,14,跨媒体检索技术,图1没有相关反馈时的跨媒体检索结果对比图2 以汽车的音频,2.4.2相关反馈对跨媒体检索性能的改善,实验在每轮反馈时分别提供2个反馈正例和2个反馈负例,并设定基于增量学习的相关反馈算法中参数为:,(7),由于在新一轮反馈之后的值随着的改变而更新(见第4节中式(6),因此参数可以根据不同的反馈情况而动态更新。,图3显示了当返回结果个数固定为15时,随着相关反馈中用户交互的不断融入,返回结果中正确结果个数的变化过程,包括以音频为查询例子检索图像(I-by-A)和以图像为查询例子检索音频(A-by-I)两部分。可以看到,经过两次相关反馈I-by-A和A-by-I得到的正确结果个数分别比反馈之前提高了44.9%和24.2%,当反馈次数大于等于3时,跨媒体检索结果趋于稳定。由此可见,本文的方法能够快速学习,并修正图像与音频数据集的拓扑结构,从而有效地提高跨媒体检索效率,。,10/3/2024,1
展开阅读全文