数据仓库与数据挖掘技术概述2final.ppt

资源描述

数据仓库与数据挖掘技术概述数据挖掘,第一讲绪论,什么是数据挖掘?数据挖掘的步骤数据挖掘的主要功能（任务）概念/类描述：特征化和区分关联分析分类和预测聚类分析孤立点分析演变分析在何种数据上进行数据挖掘（对象）数据挖掘技术的前景,数据挖掘的案例：“啤酒”和“尿布”,一则广为流传的案例：啤酒和尿布的故事,美国加州某个超市连锁店发现:在下班后前来购买婴儿尿布的顾客多数是男性，他们往往也同时购买啤酒。处理：重新布置了货架，啤酒类商品、婴儿尿布、土豆片之类的佐酒小食品、男士们日常生活用品就近布置。结果：上述几种商品的销量几乎马上成倍增长。,什么是数据挖掘?,数据挖掘的定义非常模糊，对它的定义取决于定义者的观点和背景。如下是一些DM文献中的定义：数据挖掘是一个从数据集中识别出有效的、新颖的、潜在有用的，以及最终可理解的模式的非平凡过程。-Fayyad.数据挖掘是一个从大型数据库中提取以前未知的，可理解的，可执行的信息并用它来进行关键的商业决策的过程。-Zekulin.数据挖掘是用在知识发现过程，来辩识存在于数据中的未知关系和模式的一些方法。-Ferruzza数据挖掘是发现数据中有益模式的过程。-Jonn数据挖掘是我们为那些未知的信息模式而研究大型数据集的一个决策支持过程。-Parsaye,什么是数据挖掘?,从数据集中识别出有效的、新颖的、潜在有用的，以及最终可理解的模式的非平凡过程。非平凡（的过程）：有一定的智能性、自动性（仅仅给出所有数据之和不能算做一个发现过程）。有效性：所发现的模式对新的数据仍保持一定的可信度。新颖性：所发现的模式应该是新的。潜在有用性：所发现的模式将来有实际的效用。最终可理解性：能被用户理解，如：简洁性有趣性：有效性、新颖性、潜在有用性、最终可理解性的综合。,数据挖掘:多个学科的融合,数据挖掘,数据库系统,统计学,其他学科,算法,机器学习,可视化,数据挖掘相关领域,知识发现领域充分体现了各种方法论的相互交叉、渗透和协作。相关的理论和技术可以分类如下：按挖掘任务分类：包括概念/类描述、特征化和区分关联分析、分类和预测、聚类分析、孤立点分析、演变分析等。按挖掘对象分类：包括关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据库、多媒体数据库、异构数据库、数据仓库、Web数据库等。按挖掘方法分类：包括统计方法，机器学习方法，神经网络方法和数据库方法等。,数据挖掘的称谓,数据挖掘涉及多学科领域，有多个术语名称（可能其内容的侧重点略有差异）。数据挖掘（datamining）数据库中的知识发现（KDD,knowledgediscoveryindatabases）知识抽取(knowledgeextraction)信息发现(informationdiscovery)智能数据分析(intelligentdataanalysis)探索式数据分析(exploratorydataanalysis)信息收获(informationharvesting)数据考古(dataarcheology)“数据挖掘”流行于统计界、数据库、数据分析、管理信息系统界,数据挖掘的步骤,观点：数据挖掘是数据库中的知识发现（KDD）的一个步骤。粗略理解三部曲：数据准备（datapreparation）、数据挖掘（datamining）结果的解释评估（interpretationandevaluation）,数据挖掘的步骤,数据准备数据选择：目标数据数据预处理：消除噪声、不一致、冗余等数据变换：连续数据离散化、数据转化数据归约：特征选择或抽取数据挖掘时，需要明确任务如数据总结、分类、聚类、关联规则发现、序列模式发现等。考虑用户的知识需求（得到描述性的知识、预测型的知识）。根据具体的数据集合，选取有效的挖掘算法。,数据挖掘的步骤,结果的解释评估（interpretationandevaluation）对挖掘出来的结果（模式），经用户或机器评价，剔除冗余或无关的模式。模式不满足用户需求时，返回到某一步，重新挖掘。如：重新选择数据、采用新的变换方法、设定新的数据挖掘参数，或者换一种挖掘算法（如分类方法，不同的方法对不同的数据有不同的效果）。挖掘的结果是面向用户的，对挖掘结果进行可视化或者转化为用户易于理解的形式表示。评注影响挖掘结果质量的因素：采用的算法、数据本身的质量与数量数据挖掘的过程是一个不断反馈的过程可视化在数据挖掘过程的各个阶段都扮演着重要角色，如用散点图或直方图等统计可视化技术来显示有关数据，以期对数据有一个初步的了解。,KDD的一般步骤,传统KDD的一般步骤（细化）数据清理:(这个可能要占全过程60的工作量)数据集成数据选择数据变换数据挖掘（选择适当的算法来找到感兴趣的模式）模式评估知识表示,数据挖掘:数据库中的知识挖掘(KDD),数据挖掘知识挖掘的核心,数据清理,数据集成,数据库,数据仓库,Knowledge,任务相关数据,选择,数据挖掘,模式评估,数据挖掘的主要功能可以挖掘哪些模式？,一般功能描述性的数据挖掘预测性的数据挖掘通常，用户并不知道在数据中能挖掘出什么东西，对此我们会在数据挖掘中应用一些常用的数据挖掘功能，挖掘出一些常用的模式，包括：概念/类描述:特性化和区分（定性与对比）关联分析分类和预测聚类分析孤立点分析趋势和演变分析,概念/类描述：特征化和区分,一个概念：对一个包含大量数据的数据集合总体情况的概述。概念描述(conceptdescription)：对含有大量数据的数据集合进行概述性的总结并获得简明、准确的描述。概念描述的主要方法：对目标数据进行概述性的总结，数据泛化。对两个数据集合概化后，进行对比并将对比结果进行概化。（以表格或对比规则形式给出）如一个大学中讲师、副教授的情况讲师：75%(papers=3)and(teachingcourses=2),概念描述：示例,PrimeGeneralizedRelation,InitialRelation,新增加,关联规则,关联规则挖掘就是发现大量数据中项集之间有趣的关联关联规则挖掘的典型案例：购物篮问题在商场中拥有大量的商品（项目），如：牛奶、面包等，客户将所购买的商品放入到自己的购物篮中。通过发现顾客放入购物篮中的不同商品之间的联系，分析顾客的购买习惯：哪些物品经常被顾客购买？同一次购买中，哪些商品经常会被一起购买？一般用户的购买过程中是否存在一定的购买时间序列？,关联规则,基本表示形式：前提条件结论支持度,置信度buys(x,“diapers”)buys(x,“beers”)0.5%,66%major(x,“CS”)takes(x,“DB”)grade(x,“A”)1%,75%具体应用：利润最大化商品货架设计：更加适合客户的购物路径货存安排：实现超市的零库存管理用户分类：提供个性化的服务,PresentationofAssociationRules(TableForm),分类与预测,分类的目的是提出一个分类函数或分类模型（即分类器），通过分类器将数据对象映射到某一个给定的类别中。数据分类可以分为两步进行。第一步建立模型，用于描述给定的数据集合。通过分析由属性描述的数据集合来建立反映数据集合特性的模型。这一步也称作有监督的学习，导出模型是基于训练数据集的，训练数据集是已知类标记的数据对象。第二步使用模型对数据对象进行分类。首先应该评估模型的分类准确度，如果模型准确度可以接受，就可以用它来对未知类标记的对象进行分类。,ClassificationProcess(1):ModelConstruction,TrainingData,ClassificationAlgorithms,IFrank=professorORyears6THENtenured=yes,Classifier(Model),ClassificationProcess(2):UsetheModelinPrediction,Classifier,TestingData,UnseenData,(Jeff,Professor,4),Tenured?,决策树学习简介,决策树（DecisionTree）学习是以样本为基础的归纳学习方法。决策树的表现形式是类似于流程图的树结构，在决策树的内部节点进行属性值测试，并根据属性值判断由该节点引出的分支，在决策树的叶节点得到结论。内部节点是属性或属性的集合，叶节点代表样本所属的类或类分布。经由训练样本集产生一棵决策树后，为了对未知样本集分类，需要在决策树上测试未知样本的属性值。测试路径由根节点到某个叶节点，叶节点代表的类就是该样本所属的类。,TrainingDataset,ThisfollowsanexamplefromQuinlansID3,Output:ADecisionTreefor“buys_computer”,age?,overcast,student?,creditrating?,no,yes,fair,excellent,40,no,no,yes,yes,yes,30.40,决策树实例,关于PlayTennis的决策树如图所示：,预测,预测的目的是从历史数据记录中自动推导出对给定数据的推广描述，从而能够对事先未知的数据进行预测。分类和回归是两类主要的预测问题。分类是预测离散的值，回归是预测连续值。,聚类分析,聚类是对数据对象进行划分的一种过程，与分类不同的是，它所划分的类是未知的，故此，这是一个“无指导的学习”（unsupervisedlearning）过程，即聚类算法不需要“教师”的指导，不需要提供训练数据，它倾向于数据的自然划分。文本聚类（Textclustering）:将文本集合分组成多个类或簇，使得在同一个簇中的文本内容具有较高的相似度，而不同簇中的文本内容差别较大。它是聚类分析技术在文本处理领域的一种应用。,VivisimoSE,MicrosoftResearchAsia,孤立点分析,与数据的一般行为或模式不一致。多数为噪声或异常数据，常被剔除。在某些应用中，孤立点数据更有趣，如：银行诈骗，洗黑钱、恐怖行为。有专门进行孤立点研究的方法与技术。统计方法是占主流，考察数据的分布，用距离来度量。,演化分析,对随时间变化的数据对象的变化规律和演化趋势进行建模分析。（时序数据库）如对主要股票的交易数据进行建模分析。方法趋势和偏差:回归分析序列模式匹配：周期性分析基于类似性的分析,实例1-产毛量,资料来源选用1961年第一季至1996年第二季之间的台湾地區每季产毛资料，共計142笔。,观察观测值资料呈现季节性变动，周期为4季；即12个月为一个循环。数列亦呈现向上攀升的趋势，为一种无定向型的时间序列資料。,实例2-北海布兰特原油,资料来源本研究选用1984年1月至1996年10月之北海布兰特原油現货价格（美元/桶）资料，共計154笔，作為研究的資料。,实例2-北海布兰特原油（续）,介入因子：时间点为80的时候即为1990年8月，正是伊拉克入侵科威特的時候，也是波斯湾危机的开始时间，也造成国际原油价突然上涨，于是可將波斯湾战争视为介入因子，而此影响持续了半年之久，于是在研究进口油价的时间序列分析时应以介入模型来探讨。,在何种数据上进行数据挖掘,关系数据库数据仓库事务数据库高级数据库系统和信息库空间数据库时间数据库和时间序列数据库多媒体数据库面向对象数据库和对象-关系数据库异种数据库文本数据库万维网(WWW),典型数据挖掘系统的体系结构,数据仓库,数据清洗,过滤,数据库,数据库或数据仓库服务器,数据挖掘引擎,模式评估,图形用户界面,知识库,数据集成,数据挖掘的工具,SASEnterpriseMinerSPSSIntelligentMiner(IBM)AnalysisServices(MS)DBMiner(DBMinerTechnologyInc.)Matlab.,数据挖掘技术的研究历史,KDD一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议上19891994年，由美国人工智能协会主办的KDD国际研讨会1995开始，召开KDDandDataMining国际学术大会1998年，建立ACMSIGKDD组织SIGKDD1999-2002conferencesSIGKDDExplorations其它的国际和地区性的KDD和数据挖掘会议PAKDDPKDDDaWaKSIAM-DataMining(IEEE)ICDM数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷纷开辟了KDD专题或专刊。在Internet上还有不少KDD电子出版物,如：KnowledgeDiscoveryNuggets（,数据挖掘技术的应用领域,科学研究购物篮分析Web点击流分析市场营销（客户关系管理）风险管理,数据挖掘技术的前景,国际知名调查机构GartnerGroup在高级技术调查报告中，将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关键技术”之首并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前二位预计到2010年数据挖掘的市场将由目前小于5增加到大于80美国银行家协会预测数据仓库和数据挖掘技术在美国商业银行的应用增长率是14.9%,DataMiningFoundations*AssociationRules*ClassificationandRanking*Clustering*TextMining*MachineLearningMethods*StatisticalMethods*PrivacyPreservingDataMining*ParallelandDistributedDataMining*InteractiveandOnlineMining*KDDProcessandHumanInteraction*DataandKnowledgeVisualization,DataMininginSpecializedDomains*HighDimensionalData*TemporalData*BiomedicalData*ScientificDatabases*SpatialData*MultimediaData*WebData*ContinuousMediaandVideoData*SecurityandIntrusionDetection*MiningTrends,OpportunitiesorRisks*IntegrationofDataWarehousing,OLAPandDataMining,

展开阅读全文