基于内容的图像检索ppt课件

资源描述

Two linesSlide Title,Body Text,Second Level,Third Level,82,Web,Services,MSI,Applications,Enterprise,Services,信息检索系统,信息检索技术是一项成熟的处理文本数据的技术。信息检索领域与数据库领域是并行发展的领域。信息检索领域中所用的传统模型是信息被组织成文档，且是信息量巨大的文档。,信息检索的过程就是根据用户的输入，如关键词或示例文档，查找相关文档的过程。,信息检索系统,信息检索系统的典型例子是联机图书目录和联机文档管理系统。,信息检索系统和数据库系统处理的是不同类型的数据。,信息检索领域一般用查全率和查准率对检索的效果进行量比评价。,搜集,Web,信息,建立索引库,检索查询,www,用户,基于关键字的检索,在基于关键字的信息检索系统中，文档被看成字符串，可用一组关键字加以识别。用户提供一个关键字或一组由关键字构成的表达式，由关键字进行查询。这样，用户可以找出包含关键字的全部文档。,在基于关键字的信息检索系统中，还要考虑,“,同义词问题,”,。可以采用同义词的方法解决这个问题，对每个词都定义一个同义词。,基于关键字的信息检索系统还有一个难题，就是,“,多义词问题,”,，即同一个关键字，在不同的上下文中可能有不同的含义。遗憾的是，目前这种基于上下文确定关键字含义的检索系统还不成熟。,基于相似性的检索与文档索引,基于相似性的检索,某些信息检索系统允许基于相似性的检索。这时，用户可给系统一个文档,A,，然后要求系统找出与,A,“,相似,”,的文档。两个文档的相似性可以自定义，如根据一组共同的关键词作为相似性。,文档的索引,一个高效的索引结构，对于信息检索系统查询的高效处理是十分重要的。系统可以采用倒排索引定位，包含关键词的文档。倒排索引是一种索引结构，它包含两个索引表：文档表和词表。,WEB-,常用的搜索引擎,Harvest,搜索引擎,Google,搜索引擎,Internet Archive,Inktomi,搜索引擎,Baidu,搜索引擎,多媒体检索技术,多媒体检索技术主要是通过分析多媒体信息中的视觉和音频特征，以达到查找视觉和听觉上相似内容的目的。,所谓基于内容的多媒体分析检索是指对多媒体数据,(,如视频、音频流等,),所蕴涵的物理的和语义的内容进行计算机分析理解，以方便用户查询，其本质是对无序的多媒体数据流结构化，提取语义信息，保证多媒体内容能被快速检索。,多媒体检索过程,与文本信息检索相比，多媒体分析检索要复杂得多。一般多媒体分析检索有四个主要步骤：多媒体特征提取、多媒体数据流分割、多媒体数据分类和多媒体数据索引结构的构造与检索，见下图,。,在多媒体中，可以同时存在不同媒质数据，如视频、图像、音频、三维图形和字幕等，因此能够从每种媒质中提取不同特征。,基于内容的图像检索,基于内容的图像检索系统与传统的基于文本的检索系统具有着完全不同的框架。,系统的核心是图像特征数据库。图像特征既可以从图像本身提取得到，也可以通过用户的交互获得，以用于计算图像之间的相似度。,1,、,选择、提取和索引能够充分表达图像的视觉特征。,2,、处理基于相似度的图像索引。,3,、处理用户对检索结果的反馈意见，改善检索结果。,基于内容的图像检索系统在未来几年中的可能的发展方向。,(1),图像检索人,-,机结合,(2),高层语义和底层视觉特征差距,(3),面向,Web,(4),多维数据的索引,(5),性能评价标准和测试集,(6),图像内容的主观感知,(7),图像特征映射与图像基寻找,(8),交叉领域和多媒体的融合,图像检索介绍,基于内容的图像检索,视频结构化及其检索,1,视频内容结构化,(1),图像与视频,静止的图片称为图像,(Image),，运动的图像称为视频,(video),。,(2),图像的输入,(3),视频数据流,视频结构化,视频结构化过程即是对视频流中的连续帧序列进行切分，把一个连续视频流按其内容展开的不同，将它分成若干语义段落单元。,视频流的结构化方法能够从一部很长的视频中抽象出视频内部隐含的情节发展结构,它为大数据量视频的导航和浏览提供了一种非常好的手段。,般来说，在视频结构化过程中，可以把连续视频流分割成包括镜头、组和场景等视频单元。,视频检索,基于例子的视频检索应该是高效的、简便的和正确的,.,所谓高效性指检索系统能够快速地找到用户所需要的视频,(,如在,www,范围,).,简便性指检索系统应该让用户操作简单、便捷，不需要掌握复杂的专业领域知识；正确性指检索系统返回的视频应当尽可能接近用户的检索要求。,视频检索,基于内容的音频检索,音频包括语音和非语音两类信号。,基于内容的音频检索可以分为两个方面：,由于在多媒体数据流中，音频信号同样包含了丰富的语义信息，正确识别出音频信号中所蕴涵的语义后，从而用音频来索引其相应的多媒体视频信息。,音频数据自己也可成为检索对象，如寻找相似的音乐和在电影中寻找某个的声音等。与视频检索类似，在音频检索中，也需要经过特征提取、音频分割、音频识别分类和索引检索这几个关键步骤。,分布式数据检索系统,分布式节点连接,查询的关键字,Lyra,依靠优化的数据检索算法在很短的时间内返回所有相关的结果,数字图书馆的体系结构,数据挖掘技术,西安电子科技大学刘志镜,网络之后的下一个技术热点,大量信息,带来,的问题,信息过量，难以消化,信息真假难以辨识,信息安全难以保证,信息形式不一致，难以统一处理数据开采和知识发现技术应运而生,缺乏挖掘数据背后隐藏的知识的手段，导致了,“,数据爆炸但知识贫乏,”,的现象。,1,、基于图像与视频的非规则运动目标检测,2,、可视媒体计算与理论,数据挖掘,在数据库及数据仓库中存贮有大量的数据，它们具有规范的结构形式与可靠的来源，且数量大、保存期间长，是一种极为宝贵的数据资源。充分开发、利用这些数据资源是目前计算机界的一项重要工作。,数据资源的利用有三种方式：,数据资源的查询服务,数据资源的演绎,知识的利用与搜索（,AI,）,演绎数据库,统计分析软件（,SAS,，,SPSS,）,数据资源的归纳,数据挖掘数据资源的归纳,1,什么是数据挖掘？,数据挖掘,又称为数据库中的,知识发现,（,KDD,：,Knowledge Discovery in Database,），起源于,80,年代初。,机器学习和数据分析的理论及实践是数据挖掘研究的基础，极大的商业应用前景又是数据挖掘研究工作的巨大推动力。,传统的数据库查询和统计只能提供你想要的信息，而数据挖掘技术则可以发现你没有意识到的未知信息。,什么是数据挖掘？,1,什么是数据挖掘？,数据挖掘就是对数据库,(,数据仓库,),中蕴涵的、未知的、非平凡的、有潜在应用价值的模式,(,规则,),的提取。,数据挖掘就是从大型数据库,(,数据仓库,),的数据中提取人们感兴趣的知识。这些知识是隐含的、事先未知的潜在有用信息。,因此，我们认为数据挖掘必须包括三个因素：,数据挖掘的本源：大量、完整的数据,数据挖掘的结果：知识、规则,结果的隐含性：因而需要一个挖掘过程,1,什么是数据挖掘？,因此，我们应该是在一个大量的完整数据集中进行数据的挖掘工作，归纳结果应该是具有普遍性意义的规则，我们从一万条数据中找出的规律也应该能够适用于十万、一百万、,的情况。例如：,从一个没有同名的人群中可以抽取出关键字（即标识属性）,姓名,，但这显然不适合普遍情况。,数据挖掘的目的：用归纳出的规律来指导客观世界,数据挖掘中的几个基本概念：,2.8.1,什么是数据挖掘？,模式（,pattern,）,用高级语言表示的表达一定逻辑含义的信息，这里通常指数据库中数据之间的逻辑关系。,例如：在超市的商品销售数据库中，我们可以找到以下信息：,男性顾客在购买婴儿尿布时也往往同时购买啤酒,在购买面包和黄油的顾客中,，大部分,的人同时也买了牛奶,知识（,discovered knowledge,）,满足用户兴趣度和置信度的模式。,2.8.1,什么是数据挖掘？,置信度（,confidence,）,知识在某一数据域上为真的量度。,置信度涉及到许多因素，如数据的完整性、样本数据的大小、领域知识的支持程度等。,没有足够的确定性，模式不能成为知识。,例如：模式,在购买面包和黄油的顾客中,，大部分,的人同时也买了牛奶,的置信度为：,同时购买,面包、黄油、牛奶,的顾客人数占同时购买,面包、黄油,的顾客人数的百分比。,2.8.1,什么是数据挖掘？,兴趣度（,interestingness,）,在一定数据域上为真的知识被用户关注的程度。,有效性（,effectiveness,）,知识的发现过程必须能够有效地在计算机上实现。,非平凡性（,nontrivial,）,能够以确定的计算过程提取的模式称为平凡知识。平凡的知识（如根据数据库中的薪水字段求得职员的平均薪水）不是数据挖掘的目标。,在数据挖掘中，知识的发现过程都应具有某种不确定性和一定的自由度，也就是要发现不平凡的知识。,2.8.1,什么是数据挖掘？,从上面的讨论中可以看出来，数据挖掘的过程具有以下一些显著的特点：,数据挖掘要处理大量的数据，它所处理的数据库,(,数据仓库,),的规模十分庞大，达到,GB,、,TB,，甚至更大；,由于用户不能形成精确的查询要求，因此要依靠数据挖掘技术为用户找寻他可能感兴趣的东西；,在数据挖掘过程中，规则的发现基于统计规律。因此，所发现的规则不必适用于所有数据，而是当达到一定的,“,门槛,”,时，即认为具有此规则。由此，利用数据挖掘技术可能会发现大量的规则；,数据挖掘所发现的规则是动态的，它只反映了当前状态的数据集合具有的规则，随着不断地向数据库（数据仓库）中加入新数据，需要不断地更新规则。,1,什么是数据挖掘？,数据挖掘技术在决策支持过程中所处的位置如下图：,研究问题域,选择目标数据集,数据预处理,数,据,挖,掘,模式评价与理解,决策支持应用,如果满足不了用户的需要,2,数据仓库与数据挖掘,在传统的决策支持系统中，数据挖掘技术是建立在数据库的基础上的（如下左图），数据挖掘只是其中的一个部分，在这之前需要大量的数据查询和预处理。有了数据仓库技术之后，由于数据仓库中的数据都是经过抽取、整理和预处理后的综合数据，因而数据挖掘工作可以在数据仓库上直接运行,。,数据挖掘,数据的预处理,数据库,数据源（含数据库）,数据抽取,数据仓库,数据挖掘,2,数据仓库与数据挖掘,利用数据库系统进行数据挖掘的缺点是：,动态数据（,Dynamic Data,）,大多数数据库的基本特点是内容将经常变化。在一个在线系统中，必须采用预警机制来保证,数据库中的,这些变化不,会,导致错误的,数据挖掘结果,。,噪声和不确定性（,Noise & Uncertainty,）,错误的数据对于现实世界,中的,数据库是在所难免的，这主要在于数据采集的各个环节。另一种不确定性存在于发现的模式可能只在一部分数据上有效。,2,数据仓库与数据挖掘,不完整数据（,Incomplete Data,）,由于不完整的数据域和数据域上值的缺少造成的不完整数据当然会影响发现的结果。,数据库的最初设计并没有考虑知识发现的应用，模式的发现、评价、解释很可能需要数据库中不存在的信息。,冗余信息（,Redundant Information,）,同一数据在数据库中的多处出现。这种冗余信息有时会误导知识的发现过程。,根据冗余信息发现的知识缺乏足够的兴趣度。,稀疏数据（,Sparse Data,）,数据库中的信息在实例空间中可能是稀疏的，这会严重影响发现的效率。,3,常用的数据挖掘方法,目前一般常用的数据挖掘方法很多,，,它们大多属于数学统计方法或人工智能中的机器学习算法，以及人工神经网络,/,遗传算法等,，,在这里,，,我们简单介绍在数据库中常用的几种算法,它们是：,用于特征规则挖掘的方法,面向属性归约方法,数据立方方法,关联规则挖掘,序列模式分析,分类分析,聚类分析,3.1,面向属性规约方法,特征规则是一种常见的知识形式，它用于描述一类数据对象的普遍特征，是普化知识的一种。特征规则的数据挖掘方法有两类：,数据立方方法,和,面向属性归约方法,。,面向属性归约方法,这是一种常用的特征规则的挖掘方法。它通过对属性值间概念的层次结构进行归约，以获得相关数据的概括性知识，通常又称为普化知识。,在实际情况中，许多属性都可以进行数据归类，形成概念汇聚点。这些概念依抽象程度的不同可构成描述它们层次结构的概念树。,3.1,面向属性规约方法,在面向属性规约方法中，使用到下面的一些基本概念：,概念层次树,指某属性值所具有的从具体的概念值到概念类的层次关系树。,一般由用户提供或从领域知识中得到该属性的概念层次树。,例：属性,籍贯,的概念层次树,3.1,面向属性规约方法,属性,籍贯,的概念层次树,籍贯,3.1,面向属性规约方法,归约,用属性概念层次树上高层的属性值去替代低层的属性值，又称为概念提升。,如：用,湖北,去代替,武汉,，用,江苏,去代替,南京,或,苏州,等。,概括关系表,这是一张二维关系表，其属性是目标类中参与规则发现的属性，其最终元组数不大于用户指定的值,。,该表中的元组被称为宏元组,。,一个宏元组概括了多个基本元组，并附加上一个,COUNT,属性，用以表示该宏元组所概括的基本元组数。,3.1,面向属性规约方法,例：有部分学生在图书馆借阅了,大趋势,这本书，想通过数据挖掘技术发现这部分学生具有什么样的特征。其基本关系表是：,学号,姓名,系别,书名,借阅日期,9932007,颜立,经济,大趋势,2000.3.16,9833090,王家卫,金融,大趋势,2000.3.16,9813105,王向东,医学院,大趋势,2000.5.8,9928073,朱小明,企管,大趋势,2000.5.20,9822041,刘伟,历史,大趋势,2000.6.30,9932056,陈立业,经济,大趋势,2000.9.19,9923143,刘英,新闻,大趋势,2000.12.3,3.1,面向属性规约方法,概念层次树：系别,文科,商学院,-,经济，金融，企管，会计，国贸,文科,文学院,-,中文，新闻，信管，历史，哲学,理科,医学院,理科,理学院,-,数学，天文，物理,系别,书名,商学院,大趋势,4,文学院,大趋势,2,医学院,大趋势,1,3.1,面向属性规约方法,概括关系表一,依据借阅次数的多少来决定是否为噪声数据,借阅次数,概括关系表二,系别,书名,借阅次数,文科,大趋势,6,理科,大趋势,1,3.1,面向属性规约方法,如果定义噪声数据的阀值是,1,（记录数为,1,），则：,根据,基本关系表一,发现的特征规则是：,借阅,大趋势,一书的是,经济系,的学生,根据,概括关系表一,发现的特征规则是：,借阅,大趋势,一书的是,商学院,的学生,借阅,大趋势,一书的是,文学院,的学生,根据,概括关系表二,发现的特征规则是：,借阅,大趋势,一书的是,文科,的学生,3.1,面向属性规约方法,如果定义噪声数据的阀值是,2,，则：,根据,基本关系表一,发现不到特征规则,根据,概括关系表一,发现的特征规则是：,借阅,大趋势,一书的是,商学院,的学生,根据,概括关系表二,发现的特征规则是：,借阅,大趋势,一书的是,文科,的学生,3.1,面向属性规约方法,如果定义噪声数据的阀值是,5,，则：,根据,基本关系表一,发现不到特征规则,根据,概括关系表一,发现不到特征规则,根据,概括关系表二,发现的特征规则是：,借阅,大趋势,一书的是,文科,的学生,数据立方方法,可以发现，在面向属性规约方法中，经常要做各种统计查询。,如果,预先做好某些经常需要用到但花费较高的统计、求和等集成计算，并将统计结果放在多维数据库中。采用该种方法的特征规则挖掘方法被称为数据立方方法。,在数据立方方法中，常用的分析方法有：,数据概括（,roll_up,上翻）,将属性值提高到较高层次，如：从,基本关系表,到,概括关系表一,，再到,概括关系表二,的分析过程。,数据细化（,drill_down,下翻）,将属性值减低一些层次，如：从,概括关系表二,到,概括关系表一,，再到,基本关系表,的分析过程。,3.1,面向属性规约方法,3.2,关联规则挖掘,关联规则用于表示,OLTP,数据库中诸多属性（项集）之间的关联程度。而关联规则挖掘（,Association Rules Mining,）则是利用数据库中的大量数据通过关联算法寻找属性间的相关性。,例：,(,超级市场,),在购买商品,A,的客户中有,90%,的人会同时购买商品,B,，则可用关联规则表示为：,A B,.,规则,1,我们讲数据挖掘的结果要满足一定的置信度和兴趣度要求，在这里，用户对规则感兴趣的程度我们用规则的支持度来表示。,3.2,关联规则挖掘,规则,1,：,A B,支持度,(Support),同时购买,A,和,B,的客户人数占总客户数的百分比称为规则,1,的支持度。,Support(A B) = Probability(,A,B,),置信度,(Confidence),同时购买,A,和,B,的客户人数占购买,A,的客户人数的百分比称为规则,1,的置信度。,Confidence(A B) = Probability(B/A),= Probability(A,B) / Probability(A),3.2,关联规则挖掘,购买,A,的顾客,购买,B,的顾客,同时购买,A,和,B,的顾客,3.2,关联规则挖掘,如果不考虑关联规则的支持度和,置,信度,，,那么在事务数据库中存在无穷多的关联规则。事实上,，,人们一般只对满足一定的支持度和可信度的关联规则感兴趣。,为了发现出有意义的关联规则,，,需要给定两个阈值,：,最小支持度,和,最小,置,信度,。,关联规则挖掘的实质是在,OLTP,数据库中,寻找满足用户给定的最小支持度和最小置信度的规则,。,关联规则挖掘算法,：,The Apriori Algorithm,3.2,关联规则挖掘,Apriori,算法的原理：,项集（,itemset,）：在数据库中出现的属性值的集合。,频繁项集（,frequent itemset,）：满足最小支持度要求的项集。,关联规则一定是在满足用户的最小支持度要求的频繁项集中产生的，因此，关联规则挖掘也就是在数据库中寻找频繁项集的过程。,在寻找频繁项集的过程中，我们遵循一条规则：,每个频繁项集的任一子集必定也是一个频繁项集。,3.2,关联规则挖掘,假设最小支持度和最小置信度的要求均为,50%,Transaction ID,Items,2000,A, B, C,1000,A, C,4000,A, D,7000,B, E, F,OLTP,数据库,Itmeset,Support,A,75%,B,50%,C,50%,D,25%,E,25%,F,25%,Itmeset,Support,A, B,25%,A, C,50%,B, C,25%,最后找到的频繁项集是：,(A), (B), (C), (A, C),3.2,关联规则挖掘,因此，在上述数据库中，我们能找到的关联规则只能是频繁项集（,A,，,C,）上的。,规则,1,：,A C,（支持度,50%,，置信度,66.6%,）,规则,2,：,C A,（支持度,50%,，置信度,100%,）,3.2,关联规则挖掘,例：在,借书,一例中，假设我们定义关联规则的最小支持度为,20%,如果我们在基本表上做关联规则挖掘，就只能发现一条规则：,借阅,大趋势,一书的是经济系的学生。,如果在概括关系表,1,中做挖掘，得到的关联规则是：,借阅,大趋势,一书的是商学院的学生。,借阅,大趋势,一书的是文学院的学生。,如果在概括关系表,2,中做挖掘，得到的关联规则是：,借阅,大趋势,一书的是文科的学生。,3.2,关联规则挖掘,例：假设我们定义关联规则的最小支持度为,30%,如果我们在基本表上做关联规则挖掘，发现不了规则。,如果在概括关系表,1,中做挖掘，得到的关联规则是：,借阅,大趋势,一书的是商学院的学生。,如果在概括关系表,2,中做挖掘，得到的关联规则是：,借阅,大趋势,一书的是文科的学生。,什么是数据仓库,?,数据仓库的定义很多，但却很难有一种严格的定义,它是一个提供决策支持功能的数据库，它与公司的操作数据库分开维护。,为统一的历史数据分析提供坚实的平台，对信息处理提供支持,数据仓库区别于其他数据存储系统,“,数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合，支持管理部门的决策过程,.,”,W. H. Inmon,数据仓库关键特征,面向主题,面向主题，是数据仓库显著区别于关系数据库系统的一个特征,围绕一些主题，如顾客、供应商、产品等,关注决策者的数据建模与分析，而不是集中于组织机构的日常操作和事务处理。,排除对于决策无用的数据，提供特定主题的简明视图。,数据仓库关键特征二,数据集成,一个数据仓库是通过集成多个异种数据源来构造的。,关系数据库，一般文件，,联机事务处理记录,使用数据清理和数据集成技术。,确保命名约定、编码结构、属性度量等的一致性。,当数据被移到数据仓库时，它们要经过转化。,数据仓库关键特征三,随时间而变化,数据仓库是从历史的角度提供信息,数据仓库的时间范围比操作数据库系统要长的多。,操作数据库系统,:,主要保存当前数据。,数据仓库,:,从历史角度提供信息（如过去,5-10,年）,数据仓库中的每一个关键结构都隐式或显式地包含时间元素，而操作数据库中的关键结构可能就不包括时间元素。,数据仓库关键特征四,数据不易丢失,尽管数据仓库中的数据来自于操作数据库，但他们却是在物理上分离保存的。,操作数据库的更新操作不会出现在数据仓库环境下。,不需要事务处理，恢复，和并发控制等机制,只需要两种数据访问,:,数据的初始转载和数据访问（读操作）,数据仓库的构建与使用,数据仓库的构建包括一系列的数据预处理过程,数据清理,数据集成,数据变换,数据仓库的使用热点是商业决策行为，例如：,增加客户聚焦,产品重定位,寻找获利点,客户关系管理,数据仓库应用体系结构,数据集成,数据转换,数据发布,Warehouse Process Management,数据存取,Metadata,数据集成,:,集成不同业务系统中的数据,数据转换,:,全部数据被转换成统一的数据格式,数据发布,:,数据被存储在靠近用户的地方,数据存取,:,满足数据分析等应用需求,Metadata,:,元数据,.,即数据仓库的数据字典,.,Warehouse Process Management,保证数据仓库的正确实施,Web,挖掘,Web,挖掘就是从,Web,文件和,Web,活动中筛选感兴趣的潜在的有用模式和隐藏的信息。,Web,挖掘是一项综合技术，涉及,Web,数据挖掘、计算机语言学、信息论学等多个领域。,Web,挖掘可以在很多方面发挥功能，如对查找引擎的结构进行挖掘、确定权威页面、,Web,文件分类、,Web Log,挖掘、智能型查询、建立,Meta-Web,数据仓库等。,Web,挖掘搜索策略,表面,深层,1,、深度优先（网络蜘蛛）,2,、广度优先（通用的搜索引擎）,Web,挖掘,1.Web,上的数据的特点,（,1,）,Web,页面的复杂性高于传统的文本,（,2,）,Web,是一个动态性极强的信息源,（,3,）,Web,面对的是一个广泛的形形色色的客户群,（,4,）,Web,上的信息只有很小的一部分是相关的或有用的,综上所述，,Web,挖掘是一个更有挑战性的课题，它执行的是对,Web,存取模式、,Web,结构、规则和动态的,Web,内容的查找。,Web,挖掘分类,Web,挖掘,Web,结构挖掘,Web,内容挖掘,Web,使用记录,挖掘,Web,页内容,挖掘,搜索结果挖掘,一般模式追踪,个人使用,模式追踪,在,Web,上的挖掘和信息检索是两种不同的技术，其区别主要表现在以下几个方面。,（,1,）方法论不同,（,2,）着眼点不同,（,3,）目的不同,（,4,）评估方法不同,（,5,）他用场合不同,空间数据挖掘,空间数据挖掘需要综合数据挖掘与空间数据库技术的支持。利用空间数据挖掘可以加强对数据的理解，空间关系与非空间数据问关系的发现，空间知识库的构造、空间数据库的重组和空间数据查询的优化。,地理信息数据库,(GIS),是空间数据库的特定应用。基于关系数据库挖掘系统,DB,Miner,开发的空间数据挖掘系统,Geo Miner,能在地理空间数据库中挖掘特征规则、比较规则、分类规则和数据聚类等。该系统拥有空间数据库模型、空间数据立方体、空间,OLAP,等模块,(,参见图,7,8),，并且设计了专门用于空间数据挖掘的语言,GMQL,。,什么是空间数据,什么是空间数据,城,市,空,间,基,础,数,据,什么是空间数据,GIS,空间地理信息平台,空间数据挖掘用途,空间数据挖掘主要是对存储了大量与空间有关数据的空间数据库,(,如地图、预处理后的遥感数据、医学图像数据和,VLSI,芯片设计等数据,),进行数据挖掘，主要是对空间数据库中非显式的知识、空间关系和其他有意义的模式的提取。,由于空间数据库包含大量的拓扑距离信息，需要按照复杂的多维空间索引结构组织数据。在访问这些数据时，需要采用空间推理、地理计算和空间知识的表示技术。这些技术一般比较复杂，需要效率很高的空间数据挖掘技术来处理。,空间数据挖掘方法目前主要有空间数据分类、空间数据关系分析和空间趋势分析等。,分布式数据挖掘,分布式数据挖掘是应用分布式算法，从分布式数据库中挖掘知识的过程。在分布式数据挖掘中，主要有适合水平式数据划分的分布式挖掘方法和适合垂直式数据划分的分布式数据挖掘方法。,分布式数据挖掘是一种用途广泛的数据挖掘技术。,分布式数据挖掘,分布式数据挖掘技术通常用于拥有分布式数据资源，或将集中式数据库按照水平方式或垂直方式划分后，分布在不同的站点上。,在水平划分情况下，各站点上的数据是同质,(,同构,),的，即各个站点数据具有相同的属性集。在垂直划分的情况下，各个站点上的数据是异质,(,异构,),的，即各个站点上的数据有不同的属性集。现实中的分布数据库大多是垂直划分的。,水平分布式数据挖掘,垂直分布式数据挖掘,音频作为多媒体的一种，有其特殊性：数据流式、时间动态性，无法通过一种静态的形式（相比于图像）进行挖掘和分析，所以音频信号的数据挖掘必须通过动态的方式。,基于音频采样的数据挖掘算法，利用了音频波形的分析，能够提取音频的特征（波形幅度，波形采样，波形变化特性等），进而通过建模成为统一化的挖掘、数据检索源。,音频信号数据挖掘,音频信号数据挖掘,音频切片技术（,SLICED),的思想，根据音频信号波形的瞬时变化特征将音频切分成独立的微小片段，再通过微小片段进行采样分析和提取。,本项研究的目标是达到音频片段的特征提取及其检索重现的功能。,音频信号数据挖掘,基于音频采样的数据挖掘能够从,PCM,音频信号中提取特征信息,。,音频信号数据挖掘,音频切片技术（,SLICED,),的思想，根据音频信号波形的瞬时变化特征将音频切分成独立的微小片段，再通过微小片段进行采样分析和提取。,数据挖掘应用,数据库营销（,Database Marketing,）,客户群体划分（,Customer Segmentation & Classification,）,背景分析（,Profile Analysis,）,交叉销售（,Cross-selling,）等市场分析行为,客户流失性分析,(Churn Analysis),客户信用记分,(Credit Scoring),欺诈发现,(Fraud Detection),。,综合的数据挖掘解决方案,各行业电子商务网站,算,法,层,商,业,逻,辑,层,行,业,应,用,层,商业应用,商业模型,挖掘算法,CRM,产品推荐,客户细分,客户流失,客户利润,客户响应,关联规则、序列模式、分类、聚集、神经元网络、偏差分析,WEB,挖掘,网站结构优化,网页推荐,商品推荐,。,基因挖掘,基因表达路径分析,基因表达相似性分析,基因表达共发生分析,。,银行,电信,零售,保险,制药,生物信息,科学研究,。,相关行业,数据挖掘未来研究方向,研究专门用于知识发现的数据挖掘语言,寻求数据挖掘过程中的可视化方法,研究在网络环境下的数据挖掘技术,加强对各种非结构化数据的开采,交互式发现,知识的维护更新,数据挖掘热点,网站的数据挖掘,部分数据来自浏览者的点击流，和传统的数据库格式有区别,生物信息或基因的数据挖掘,在数据的复杂程度、数据量还有分析和建立模型的算法而言，都要复杂得多,文本的数据挖掘,无论是在数据结构还是在分析处理方法方面，文本数据挖掘和前面谈到的数据挖掘相差很大,

展开阅读全文

基于内容的图像检索ppt课件

最新文档