资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,数据仓库与数据挖掘,讲解人,:,李婧洁,讲稿设计,:,曾国强,刘欢,资料收集,:,吴婷婷,李冰洁,刘婧桃,杜晓霜,数据仓库与数据挖掘讲解人:,1,日常生活,的问题:,人们在日常生活中经常会遇到这样的情况:,超市的经营者希望将经常被同时购买的商品放在一起,以增加销售;,保险公司想知道购买保险的客户一般具有哪些特征;,医学研究人员希望从已有的成千上万份病历中找出患某种疾病的病人的共同特征,从而为治愈这种疾病提供一些帮助;,日常生活的问题:,2,企业面临的问题,经过多年的计算机应用和市场积累,许多企业保存了大量原始数据和各种业务数据,它是企业生产经营活动的真实记录,由于缺乏集中存储和管理,这些数据不能为本企业加以利用,不能进行有效的统计、分析及评估,无法将这些数据转换成企业有用的信息,企业面临的问题,3,数据爆炸:,自动的数据收集工具和成熟的数据库技术导致巨大的数据存储在文件系统、数据库和其它的信息库中。,我们会淹死在数据中,但却为信息、知识所饿!,数据爆炸:,4,面临的问题,如何使企业或组织在激烈的市场竞争中保持对客户的吸引力?,如何预先发现和避免企业运作过程中不易察觉的商业风险?,如何在堆积如山的企业交易数据中发现具有商业价值的闪光点?,面临的问题,5,不同层次的信息处理需求,事物处理需求,分析处理需求,不同层次的信息处理需求事物处理需求,6,事务处理需求(,OLTP,),不同的事务处理子系统,采购子系统:,订单、订单细则、供应商,销售子系统:,顾客、销售,库存子系统:,出库领料单、进料入库单、库存台帐,人事子系统:,员工、部门,各种事务处理需求,一笔订购、一笔销售、一次进料、一次出料,要求,强调多用户并发环境,数据的一致性、完整性,事务处理需求(OLTP)不同的事务处理子系统,7,分析处理需求(,OLAP,),今年销售量下降的因素(时间、地区、商品、销售部门),某种商品今年的销售情况与以往相比,有怎样的变化?每年的第一季度商品销售在各类商品上的分布情况怎样?,要求,多个子系统中的数据(数据集成),历史数据,汇总、综合的数据,分析处理需求(OLAP)今年销售量下降的因素(时间、地区、商,8,随着数据库技术的应用普及和发展,人们不再仅仅满足于一般的业务处理,而对系统提出了更高的要求:,提供决策支持,随着数据库技术的应用普及和发展,人们不再仅仅满足于一般的业务,9,数据库 数据仓库,数据库系统能够很好的用于事务处理,但它对分析处理的支持一直不能令人满意。特别是当以业务处理为主的联机事务处理(OLTP)应用和以分析处理为主的决策支持系统(DSS)应用共存于一个数据库系统时,就会产生许多问题(混乱现象)。,例如,事务处理应用一般需要的是当前数据,主要考虑较短的响应时间;而分析处理应用需要是历史的、综合的、集成的数据,它的分析处理过程可能持续几个小时,从而消耗大量的系统资源。,数据库 数据仓库,10,人们逐渐认识到直接用事务处理环境来支持DSS是行不通的。要提高分析和决策的有效性,分析型处理及其数据必须与操作型处理及其数据分离(不能都在一个数据库环境中)。必须把分析型数据从事务处理环境中提取出来,按照DSS处理的需要进行重新组织,建立单独的分析处理环境。,数据仓库技术正是为了构建这种新的分析处理环境而出现的一种,数据存储,和,组织技术。,人们逐渐认识到直接用事务处理环境来支持DSS是行不通的。要提,11,数据仓库的定义,数据仓库,是一种面向主题的数据管理技术,它提供集成化的、历史的数据管理功能,支持综合性的数据分析,特别是战略分析。,数据仓库构成了DSS 和DBMS的技术基础,它必将推动DSS研究的全面发展和方法的实用性化。,数据仓库的定义数据仓库是一种面向主题的数据管理技术,它提供集,12,通俗的解释,人们专门为业务的统计分析建立一个数据中心,它的数据可以从联机的事务处理系统、异构的外部数据源、脱机的历史业务数据中得到;它是一个联机的系统,专门为分析统计和决策支持应用服务,通过它可满足决策支持和联机分析应用所要求的一切。这个数据中心就叫作数据仓库。,通俗的解释人们专门为业务的统计分析建立一个数据中心,它的数据,13,特征及体系结构,数据仓库的特征,数据仓库的体系结构,特征及体系结构数据仓库的特征,14,数据仓库的体系结构,一个完整的数据仓库结构一般由6个基本层次组成,1)数据源层。,2)数据后端处理层。,3)数据仓库及其管理层(包括源数据管理)。,4)数据集市层。,5)数据仓库应用层,(或称前端处理层)。,6)数据展示层。,数据仓库的体系结构一个完整的数据仓库结构一般由6个基本层次组,15,数据仓库层次结构示意图,数据展示层,数据仓库应用层,数据集市层,数据仓库及管理层,数据后端处理层,数据源层,数据仓库层次结构示意图数据展示层数据仓库应用层数据集市层数据,16,数据挖掘,定义:,数据挖掘(Data Mining,),就是从存放在数据库,数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。,数据挖掘定义:数据挖掘(Data Mining),就是从存放,17,经典案例尿布与啤酒,在一家超市中,人们发现了一个特别有趣的现象:尿布与啤酒这两种风马牛不相及的商品居然摆在一起。但这一奇怪的举措居然使尿布和啤酒的稍量大幅增加了。这可不是一个笑话,而是一直被商家所津津乐道的发生在美国沃尔玛连锁超市的真实案例。,原来,美国的妇女通常在家照顾孩子,所以她们经常会嘱咐丈夫在下班回家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。这个发现为商家带来了大量的利润,但是如何从浩如烟海却又杂乱无章的数据中,发现啤酒和尿布销售之间的联系呢?这又给了我们什么样的启示呢?,经典案例尿布与啤酒在一家超市中,人们发现了一个特别有趣的,18,数据挖掘能做以下七种分析方法,分类(Classification),估计(Estimation),预测(Prediction),相关性分组或关联规则(Affinity grouping or association rules),聚类(Clustering),描述和可视化(Description and Visualization),复杂数据类型挖掘(Text,Web,图形图像,视频,音频等),数据挖掘能做以下七种分析方法分类(Classificati,19,数据挖掘分类,直接数据挖掘,:目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述。,间接数据挖掘,:目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系,分类、估值、预言属于直接数据挖掘;后三种属于间接数据挖掘,。,数据挖掘分类直接数据挖掘:目标是利用可用的数据建立一个模型,,20,数据挖掘过程和主要步骤,数据挖掘过程和主要步骤,21,数据挖掘过程简介,(1).确定业务对象,(2).数据准备,1)、数据的选择,2)、数据的预处理,3)、数据的转换,(3).,数据挖掘,(4).,结果分析,(5).,知识的同化,数据挖掘过程简介 (1).确定业务对象,22,数据挖掘的发展前景,当前数据挖掘应用主要集中在电信、零售、农业、网络日志、银行、电力、生物、天体、化工、医药等方面。看似广泛,,实际应用还远没有普及,。而据Gartner的报告也指出,数据挖掘会成为未来10年内重要的技术之一。而数据挖掘,也已经开始成为一门独立的专业学科。,具体发展趋势和应用方向主要有:,对知识发现方法的研究进一步发展,,如对Bayes和Boosting方法的研究和提高;商业工具软件不断产生和完善,注重建立解决问题的整体系统,例如Weka等软件。,数据挖掘的发展应是,挖掘工具,在先进理论指导下的,改进,,而就国内情况而言,还有至少,20年,的发展空间。,数据挖掘的发展前景 当前数据挖掘应用主要集中在电,23,谢谢观赏,谢谢观赏,24,决策支持系统,(decision support system,简称DSS)是辅助决策者通过数据、模型和知识,以,人机交互方式,进行半结构化或非结构化决策的计算机应用系统。,它是管理信息系统(MIS)向更高一级发展而产生的,先进信息管理系统,。它为决策者提供分析问题、建立模型、模拟决策过程和方案的环境,调用各种信息资源和分析工具,帮助决策者,提高决策水平和质量,。,决策支持系统(decision support system,25,应具备的特性,效率足够高,数据质量可靠,可扩展性,应具备的特性效率足够高,26,数据仓库的四个主要特征,数据的时变性,数据的非易失性,数据是集成的,面向主题,数据仓库的四个主要特征数据的时变性,27,subject-oriented(面向主题性),面向主题,表示了数据仓库中数据组织的基本原则,数据仓库中的数据都是围绕着某一主题组织展开的。例如,企业中的客户、产品、供应商等都可以作为主题看待。,从信息管理的角度看,,主题就是在一个较高的管理层次上对信息系统的数据按照某一具体的管理对象进行综合、归类所形成的分析对象。,从数据组织的角度看,,主题是一些数据集合,这些数据集合对分析对象作了比较完整的、一致的描述,这种描述不仅涉及到数据自身,而且涉及到数据之间的关系。,确定主题,是组织数据仓库中数据的,前提,。,subject-oriented(面向主题性)面向主题表,28,integrated(数据集成性),数据仓库的,集成性,是指根据决策分析的要求,将分散于各处的源数据进行,抽取、筛选、清理、综合,等工作,使数据仓库的数据具有集成性。,数据仓库在从业务处理系统那里获取数据时,并不能将源数据库中的数据直接加载到数据仓库中,而是需要进行一系列的,数据预处理,,即数据的抽取、筛选、清理、综合等集成工作。,integrated(数据集成性)数据仓库的集成性是指根据,29,time-variant 数据的时变性,数据仓库的,时变性,,就是数据应该随着时间的推移而变化。,尽管数据仓库中的数据并不像业务数据库那样反映业务处理的实际状况,但是数据也不能长期不变,如果依据10前的数据进行决策分析,那决策所带来的后果将是十分可怕的。,time-variant 数据的时变性数据仓库的时变性,就,30,non-volatile,数据的非易失性,数据仓库的,非易失性,是指数据仓库的数据不进行更新处理,而是一旦数据进入数据仓库以后,就会,保持一个相当长的时间,。原因是数据仓库中数据大多表示过去某一时刻的数据,主要用于查询、分析,不像业务系统中的数据库那样,要经常进行修改、添加,除非数据仓库中的数据是错误的。,non-volatile 数据的非易失性数据仓库的非易失性是,31,数据源,数据源是数据仓库的,数据来源,,它是多种OLTP系统及外部文件,,一个数据仓库往往可以含多个数据源,这些数据源可以有多种不同数据结构类型,可以有桌面式数据库如Access,也可以是对象关系数据库、面向对象数据库.同时,数据源也可以包括各种数据文件如Excel、Word以及基于WWW的HTML、XML等文件形式。,数据源一般可以分布于网络的各个结点,通过网络中的数据接口与数据仓库相互连接。,数据源数据源是数据仓库的数据来源,它是多种OLTP系统及外部,32,数据后端处理,数据后端处理:数据源中数据经提取、清洗、转换最终成为数据仓库所需的数据。,它的主要工作是为数据仓库提供统一的数据并按阶段及时更新这些数据。,数据后端处理,33,数据后端处理,一个完整的后端处理包括下面5个方面,1)数据提取,2)数据清洗,3)数据转换,4)数据加载,5)数据刷新,数据后端处理一个完整的后端处理包括下面5个方面,34,后端处理4个环节的流程图,后端处理4个环节的流程图,35,数据仓库及管理层,1数据仓库,数据仓库是存储分析与决策数据的实体。它一般以关系结构形式存储,能支持数据共享
展开阅读全文