资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第四讲,数据仓库,数据库与数据,仓,仓库,数据不一致,可频繁删除数,据,据,存放短期数据,(,(,3,个月内),存在数据冗余,数据仓库概述,数据仓库与,CRM,有着难以割舍,的,的密切关系,,客,客户关系管理,的,的很多工作都,是,是以数据仓库,为,为基础展开的,。,。,利用数据仓库,,,,企业可以对,客,客户行为进行,分,分析和预测,,从,从而制定准确,的,的市场策略、,发,发现重点客户,和,和评价市场性,能,能。对于客户量大,、,、市场策略对,企,企业影响较大,的,的企业来说,必须在客户,关,关系管理系统,中,中包含数据仓,库,库。,数据仓库的产,生,生,早期的数据库,主,主要支持联机,事,事务处理,传统数据库不,能,能满足决策支,持,持对数据库的,要,要求,(,1,)事务处理和,分,分析处理的性,能,能特性不同,(,2),数据集成问题,(,3,)历史数据问,题,题,(,1,)事务处理和,分,分析处理的性,能,能特性不同,所有联机事务,处,处理强调的是,数据更新处理,性,性能,和,系统的可靠性,。在事务处理,环,环境中,用户的行为特,点,点是数据的存,取,取操作频率高,,,,每次操作处,理,理的时间短。,在分析处理环,境,境中,用户的,行,行为模式与此,完,完全不同,强,调,调的是,数据处理和分,析,析的能力,。在传统数据,库,库系统基础上,的,的决策支持(,DSS,)应用程序可,能,能需要连续几,个,个小时,从而,消,消耗大量的系,统,统资源。,联机分析和事,务,务处理对系统,的,的要求不同,,同,同一个数据库,在,在理论上难以,做,做到两全,将,具,具有如此不同,处,处理性能的两,种,种应用放在同,一,一个环境中运,行,行显然是不适,当,当的。,(,2,),数据集成问题,DSS,需要集成的数,据,据。,全面而正确的,数,数据,是有效的分析,和,和决策的首要,前,前提,相关数据收集,得,得越完整,得,到,到的结果就越,可,可靠。当前绝大多数,企,企业内数据的,真,真正状况是分,散,散而非集成的,。,。,造成这种分散,的,的原因有多种,,,,主要有事务,处,处理应用分散,、,、,“,蜘蛛网,”,问题、数据不,一,一致问题、外,部,部数据和非结,构,构化数据。,(,3,)历史数据问,题,题,事务处理一般,只,只需要当前数,据,据,在数据库,中,中一般也是,存储短期数据,,且不同数据,的,的保存期限也,不,不一样,即使,有,有一些历史数,据,据保存下来了,,,,也被束之高,阁,阁,未得到充,分,分利用。,但对于决策分,析,析而言,历史,数,数据是相当重,要,要的,许多分,析,析方法必须以,大量的历史数,据,据,为依托。没有,历,历史数据的详,细,细分析,是难,以,以把握企业的,发,发展趋势的。,DSS,对数据在空间,和,和时间上都有,了,了更高的要求,,,,而事务处理,环,环境难以满足,这,这些要求。,要提高分析和,决,决策的效率和,有,有效性,,分析型处理及,其,其数据必须与,操,操作型处理及,其,其数据相分离,。必须把分析,型,型数据从事务,处,处理环境中提,取,取出来,按照,DSS,处理的需要进,行,行重新组织,,建,建立单独的分,析,析处理环境,,数,数据仓库正是,为,为了构建这种,新,新的分析处理,环,环境而出现的,一,一种数据存储,和,和组织技术。,数据仓库的数,据,据从联机的事,务,务处理系统、,异,异构的外部数,据,据源、脱机的,历,历史业务数据,中,中得到。它是,一,一个联机的系,统,统,,专门为分析统,计,计和决策支持,应,应用服务,,通过它可满,足,足决策支持和,联,联机分析应用,所,所要求的一切,。,。,数据仓库的概,念,念和特征,著名的数据仓,库,库专家,W.H.Inmon,在其著作,Building the DataWarehouse,一书中给予如,下,下描述:,数据仓库(,Data Warehouse,)是一个面向,主,主题的(,Subject Oriented,)、集成的(,Integrate,)、相对稳定,的,的(,Non-Volatile,)、反映历史,变,变化(,Time Variant,)的数据集合,,,,用于支持管,理,理决策。,数据仓库概念,的,的两个层次,功能上:数据,仓,仓库用于支持,决,决策,面向分,析,析型数据处理,,,,它不同于企,业,业现有的操作,型,型数据库;,内容和特征上,:,:数据仓库是,对,对多个异构的,数,数据源有效集,成,成,集成后按,照,照主题进行了,重,重组,并包含,历,历史数据,而,且,且存放在数据,仓,仓库中的数据,一,一般不再修改,。,。,数据仓库特点,-,面向主题,数据仓库是面,向,向主题而进行,数,数据组织的。,主,主题是一个在,较,较高层次上对,数,数据的抽象,在逻辑意义上,它是对企业中,某,某一宏观领域,所,所涉及的分析,对,对象,即,将数据组织成,主,主题域。,数据仓库特点,-,集成,数据仓库中的,数,数据是集成的,。,。数据仓库中,的,的数据是在对,原,原有分散的数,据,据库数据抽取,、,、清理的基础,上,上经过系统加,工,工、汇总和整,理,理得到的,必,须,须,消除源数据中,的,的不一致性,,以保证数据,仓,仓库内的信息,是,是关于整个企,业,业的一致的全,局,局信息。在数,据,据仓库建设中,,,,这是最关键,最,最复杂的一个,步,步骤,主要工,作,作有:一是,,进,进行数据的综,合,合和计算;二,是,是,统一源数,据,据中所有不一,致,致和矛盾的地,方,方,(,如同,名,名异,义,义、,异,异名,同,同义,、,、字,长,长不,一,一致,、,、单,位,位不,一,一致,等,等,),。,数据,仓,仓库,四,四个,特,特点,-,相对,稳,稳定,操作,型,型数,据,据库,中,中的,数,数据,通,通常,实,实时,更,更新,,,,数,据,据根,据,据需,要,要及,时,时发,生,生变,化,化。,数,数据,仓,仓库,的,的数,据,据主,要,要供,企,企业,决,决策,分,分析,之,之用,,,,所,涉,涉及,的,的数,据,据操,作,作主,要,要是,数,数据,查,查询,,,,一,旦,旦某,个,个数,据,据进,入,入数,据,据仓,库,库以,后,后,,一,一般,情,情况,下,下将,被,被长,期,期保,留,留,,也,也就,是,是数,据,据仓,库,库中,一,一般,有大,量,量的,查,查询,操,操作,,但,修改,和,和删,除,除操,作,作很,少,少,,通,常,常只,需,需要,定期,的,的加,载,载、,刷,刷新,。,数据,仓,仓库,四,四个,特,特点,-,相对,稳,稳定,的,的,数据,仓,仓库,四,四个,特,特点,-,反映,历,历史,变,变化,数据,仓,仓库,中,中的,数,数据,通,通常,包,包含,历,历史,信,信息,,,,系,统,统记,录,录了,企,企业,从,从过,去,去某,一,一时,点,点,(,如开,始,始应,用,用数,据,据仓,库,库的,时,时点,),到目,前,前的,各,各个,阶,阶段,的,的信,息,息,,通,通过,这,这些,信,信息,,,,可,以,以对,企,企业,的,的发,展,展历,程,程和,未,未来,趋,趋势,做,做出,定,定量,分,分析,和,和预,测,测。,数,数据,仓,仓库,中,中的,数,数据,时,时间,期,期限,要,要远,远,远长,于,于操,作,作型,系,系统,中,中的,数,数据,时,时间,期,期限,。,。操,作,作型,系,系统,的,的时,间,间期,限,限一,般,般是,60,90,天,,而,数,数据,仓,仓库,中,中数,据,据的,时,时间,期,期限,通,通常,是,是,5,10,年,。,数据,仓,仓库,四,四个,特,特点,-,反映,历,历史,变,变化,数据,仓,仓库,本,本质,如果,说,说传,统,统数,据,据库,系,系统,的,的要,求,求是,快,快速,、,、准,确,确、,安,安全,、,、可,靠,靠地,将,将数,据,据存,进,进数,据,据库,中,中的,话,话,,那,那么,数,数据,仓,仓库,的,的要,求,求就,是,是能,够,够准,确,确、,安,安全,、,、可,靠,靠地,从,从数,据,据库,中,中取,出,出数,据,据,,经,经过,加,加工,转,转换,成,成有,规,规律,信,信息,之,之后,,,,再,供,供管,理,理人,员,员进,行,行分,析,析使,用,用。,数据,仓,仓库,所,所要,研,研究,和,和解,决,决的,问,问题,就,就是,从,从数,据,据库,中,中获,取,取信,息,息。,数据,仓,仓库,系,系统,体,体系,结,结构,数据,源,源,数据,源,源是,数,数据,仓,仓库,系,系统,的,的基,础,础,,是,是整,个,个系,统,统的,数,数据,源,源泉,。,。通,常,常包,括,括企,业,业内,部,部信,息,息和,外,外部,信,信息,。,。内,部,部信,息,息包,括,括各,种,种业,务,务处,理,理数,据,据和,各,各类,文,文档,数,数据,。,。外,部,部信,息,息包,括,括各,类,类法,律,律法,规,规、,市,市场,信,信息,和,和竞,争,争对,手,手的,信,信息,等,等等,。,。,数据,的,的存,储,储与,管,管理,数据,的,的存,储,储与,管,管理,是,是整,个,个数,据,据仓,库,库系,统,统的,核,核心,。,。针,对,对现,有,有各,业,业务,系,系统,的,的数,据,据,,进,进行,抽,抽取,、,、清,理,理,,并,并有,效,效集,成,成,,按,按照,主,主题,进,进行,组,组织,。,。数,据,据仓,库,库按,照,照数,据,据的,覆,覆盖,范,范围,可,可以,分,分为,企,企业,级,级数,据,据仓,库,库和,部,部门,级,级数,据,据仓,库,库(,通,通常,称,称为,数,数据,集,集市,),)。,OLAP,服务器,OLAP,服务器对分析需,要,要的数据进行有,效,效集成,按多维,模,模型予以组织,,以,以便进行多角度,、,、多层次的分析,,,,并发现趋势。,前端工具,前端工具主要包,括,括各种报表工具,、,、查询工具、数,据,据分析工具、数,据,据挖掘工具以及,各,各种基于数据仓,库,库或数据集市的,应,应用开发工具。,联机分析处理(,OLAP,),联机分析处理(,OLAP,)的概念最早是,由,由关系数据库之,父,父,E.F.Codd,于,1993,年提出的。当时,,,,,Codd,认为联机事务处,理,理(,OLTP,)已不能满足终,端,端用户对数据库,查,查询分析的需要,,,,,SQL,对大量数据库进,行,行的简单查询也,不,不能满足用户分,析,析的需求。用户,的,的决策分析需要,对,对关系数据库进,行,行大量计算才能,得,得到结果,而查,询,询的结果并不能,满,满足决策者提出,的,的需求。因此,Codd,提出了多维数据,分,分析的概念即,OLAP,。,联机分析处理(,OLAP,),OLAP,是一种软件技术,,,,它使分析人员,能,能够迅速、一致,、,、交互地从各个,方,方面观察信息,,以,以达到深入理解,数,数据的目的,这,些,些信息是从原始,数,数据直接转换过,来,来的,它们以用,户,户容易理解的方,式,式反映企业的真,实,实情况。,OLAP,大部分策略都是,将关系型的或普,通,通的数据进行多,维,维数据存贮,,以便于进行分,析,析,从而达到联,机,机分析处理的目,的,的。这种多维,DB,也被看作一个超,立,立方体,沿着各,个,个维方向存贮数,据,据。,OLAP,的多维数据概念,维是人们观察问,题,题的特定角度,,例,例如:时间维、,地,地理维、产品维,。,。,假定某某是个百,货,货零售商,有一,些,些因素会影响他,的,的销售业务,如,商,商品、时间、商,店,店。这里,商品,、,、时间和商店都,是,是维。各个商店,的,的集合是一维,,时,时间的集合是一
展开阅读全文