资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第,5,章,CRM,与数据仓库,邵兵家 于同奎,第,5,章,CRM,与数据仓库,5.1,数据仓库概述,5.1.1,数据仓库的产生,5.1.2,数据仓库概念及特征,5.1.3,数据仓库的内容,5.1.3,数据仓库系统的体系结构,5.2,客户关系管理中的数据仓库,5.2.1,客户关系管理需要数据仓库,5.2.2,客户关系管理中数据仓库的作用,客户关系管理数据仓库的系统结构,5.3,客户关系管理数据仓库的实施,5.4,客户关系管理数据仓库试验,5.4.1,客户关系管理数据仓库设计试验,5.4.2,客户关系管理数据仓库使用试验,5.1,数据仓库概述,数据仓库与,CRM,有着难以割舍的密切关系,客户关系管理的很多工作都是以数据仓库为基础展开的。从某种意义上说,数据仓库是客户关系管理的灵魂。利用数据仓库,企业可以对客户行为的分析与预测,从而制定准确的市场策略、发现企业的重点客户和评价市场性能,并通过销售和服务等部门与客户交流,实现企业利润的提高。对于客户量大、市场策略对企业影响较大的企业来说,必须在客户关系管理系统中包含数据仓库。,5.1.1,数据仓库的产生,早期的数据库主要支持联机事务处理,决策支持对数据分析的需求,传统数据库系统不适宜,DSS,事务处理和分析处理的性能特性不同,数据集成问题,数据动态集成问题,历史数据问题,数据的综合问题,操作繁简问题,(,1,)事务处理和分析处理的性能特性不同。,所有联机事务处理强调的是数据更新处理性能和系统的可靠性,并不关心数据查询的方便与快捷。在事务处理环境中,用户的行为特点是数据的存取操作频率高而每次操作处理的时间短。,在分析处理环境中,用户的行为模式与此完全不同,强调的是数据处理和分析的能力。在传统数据库系统基础上的,DSS,应用程序可能需要连续几个小时,从而消耗大量的系统资源。,联机分析和事务处理对系统的要求不同,同一个数据库在理论上难以做到两全,将具有如此不同处理性能的两种应用放在同一个环境中运行显然是不适当的。,(,2,)数据集成问题。,DSS,需要集成的数据。全面而正确的数据是有效的分析和决策的首要前提,相关数据收集得越完整,得到的结果就越可靠。当前绝大多数企业内数据的真正状况是分散而非集成的。,造成这种分散的原因有多种,主要有事务处理应用分散、“蜘蛛网”问题、数据不一致问题、外部数据和非结构化数据。,(,3,),数据动态集成问题。,静态集成的最大缺点在于,如果在数据集成后数据源中数据发生了变化,这些变化将不能反映给决策者,导致决策者使用的是过时的数据。集成数据必须以一定的周期(例如,24,小时)进行刷新,我们称其为动态集成。显然,事务处理系统不具备动态集成的能力。,(,4,),历史数据问题。,事务处理一般只需要当前数据,在数据库中一般也是存储短期数据,切不同数据的保存期限也不一样,即使有一些历史数据保存下来了,也被束之高阁,未得到充分利用。但对于决策分析而言,历史数据是相当重要的,许多分析方法必须一大量的历史数据为依托。没有历史数据的详细分析,是难以把握企业的发展趋势的。,DSS,对数据在空间和时间的广度上都有了更高的要求,而事务处理环境难以满足这些要求。,(,5,)数据的综合问题。,在事务处理系统中积累了大量的细节数据,一般而言,,DSS,并不对这些细节数据进行分析。在分析前,往往需要对细节数据进行不同程度的综合。而事务处理系统不具备这种综合能力,根据规范化理论,这种综合还往往因为是一种数据冗余而加以,限制。,(,6,)操作繁简问题。,业务数据的模式是针对事务处理系统而设计的,数据的格式和描述方式并不适合非计算机专业人员进行业务上的分析和统计。,有人,感,感叹,:,:,20,年前,查,查询,不,不到,数,数据,是,是因,为,为数,据,据太,少,少了,,,,而,今,今天,查,查询,不,不到,数,数据,是,是因,为,为数,据,据太,多,多了,。,。,要提,高,高分,析,析和,决,决策,的,的效,率,率和,有,有效,性,性,,分,分析,型,型处,理,理及,其,其数,据,据必,须,须与,操,操作,型,型处,理,理及,其,其数,据,据相,分,分离,。,。必,须,须把,分,分析,型,型数,据,据从,事,事务,处,处理,环,环境,中,中提,取,取出,来,来,,按,按照,DSS,处理,的,的需,要,要进,行,行重,新,新组,织,织,,建,建立,单,单独,的,的分,析,析处,理,理环,境,境,,数,数据,仓,仓库,正,正是,为,为了,构,构建,这,这种,新,新的,分,分析,处,处理,环,环境,而,而出,现,现的,一,一种,数,数据,存,存储,和,和组,织,织技,术,术。,数据,仓,仓库,的,的数,据,据从,联,联机,的,的事,务,务处,理,理系,统,统、,异,异构,的,的外,部,部数,据,据源,、,、脱,机,机的,历,历史,业,业务,数,数据,中,中得,到,到。,它,它是,一,一个,联,联机,的,的系,统,统,,专,专门,为,为分,析,析统,计,计和,决,决策,支,支持,应,应用,服,服务,,,,通,过,过它,可,可满,足,足决,策,策支,持,持和,联,联机,分,分析,应,应用,所,所要,求,求的,一,一切,。,。,数据,仓,仓库,的,的概,念,念和,特,特征,目前,,,,数,据,据仓,库,库一,词,词尚,没,没有,一,一个,统,统一,的,的定,义,义。,著名,的,的数,据,据仓,库,库专,家,家在其,著,著作,BuildingtheDataWarehouse,一书,中,中给,予,予如,下,下描,述,述:,数据,仓,仓库,(,(,DataWarehouse,)是,一,一个,面,面向,主,主题,的,的(,SubjectOriented,)、,集,集成,的,的(,Integrate,)、,相,相对,稳,稳定,的,的(,Non-Volatile,)、,反,反映,历,历史,变,变化,(,(,TimeVariant,)的,数,数据,集,集合,,,,用,于,于支,持,持管,理,理决,策,策。,数据,仓,仓库,概,概念,的,的两,个,个层,次,次,功能,上,上:,数,数据,仓,仓库,用,用于,支,支持,决,决策,,,,面,向,向分,析,析型,数,数据,处,处理,,,,它,不,不同,于,于企,业,业现,有,有的,操,操作,型,型数,据,据库,;,;,内容,和,和特,征,征上,:,:数,据,据仓,库,库是,对,对多,个,个异,构,构的,数,数据,源,源有,效,效集,成,成,,集,集成,后,后按,照,照主,题,题进,行,行了,重,重组,,,,并,包,包含,历,历史,数,数据,,,,而,且,且存,放,放在,数,数据,仓,仓库,中,中的,数,数据,一,一般,不,不再,修,修改,。,。,数据,仓,仓库,四,四个,特,特点,-,面向,主,主题,传统,的,的数,据,据库,是,是面,向,向应,用,用而,进,进行,数,数据,组,组织,的,的,,其,其抽,象,象程,度,度不,够,够高,,,,没,有,有完,全,全实,现,现数,据,据与,应,应用,的,的分,离,离。,但,但这,种,种方,式,式能,较,较好,地,地将,企,企业,业,业务,活,活动,与,与数,据,据库,模,模式,相,相对,应,应,,利,利于,从,从手,工,工处,理,理向,计,计算,机,机处,理,理过,渡,渡,,因,因而,具,具有,较,较好,的,的可,操,操作,性,性;,数,数据,仓,仓库,是,是面,向,向主,题,题而,进,进行,数,数据,组,组织,的,的。,主,主题,是,是一,个,个在,较,较高,层,层次,上,上对,数,数据,的,的抽,象,象,,在,在逻,辑,辑意,义,义上,,,,它,是,是对,企,企业,中,中某,一,一宏,观,观领,域,域所,涉,涉及,的,的分,析,析对,象,象,,即,即将,数,数据,组,组织,成,成主,题,题域,。,。例,如,如,,在,在银,行,行经,营,营运,作,作中,,,,业,务,务,(,存款,、,、贷,款,款、,汇,汇兑,),、货,币,币、,客,客户,、,、机,构,构、,会,会计,科,科目,是,是其,主,主要,构,构架,或,或方,向,向,,因,因此,在,在银,行,行业,务,务数,据,据仓,库,库中,,,,选,择,择业,务,务、,货,货币,、,、客,户,户、,机,机构,、,、会,计,计科,目,目五,个,个主,题,题,,并,并将,会,会计,科,科目,作,作为,连,连接,其,其他,四,四个,主,主题,的,的交,易,易主,题,题进,行,行处,理,理。,面向主题可,以,以独立于数,据,据处理逻辑,,,,适用于分,析,析型数据环,境,境,适用于,建,建设企业全,局,局数据库;,数,数据仓库中,目,目前仍采用,关,关系数据库,技,技术来实现,,,,其面向主,题,题所作较高,程,程度上的抽,象,象,应强调,其,其逻辑意义,。,。,数据仓库四,个,个特点,-,集成的,面向事务处,理,理的操作型,数,数据库通常,与,与某些特定,的,的应用相关,,,,数据库之,间,间相互独立,,,,并且往往,是,是异构的。,在,数据仓库的,所,所有特性之,中,中,这是最,重,重要的。应,用,用问题的设,计,计人员历经,多,多年制定出,来,来的不同的,设,设计决策有,很,很多很多种,不,不同的表示,方,方法,没有,什,什么应用在,编,编码、命名,习,习惯、实际,属,属性、属性,度,度量等方面,是,是一致的,,各,各个应用问,题,题设计员自,由,由地做出他,或,或她自己的,设,设计决策。,数据仓库中,的,的数据是集,成,成的。而数,据,据仓库中的,数,数据是在对,原,原有分散的,数,数据库数据,抽,抽取、清理,的,的基础上经,过,过系统加工,、,、汇总和整,理,理得到的,,必,必须消除源,数,数据中的不,一,一致性,以,保,保证数据仓,库,库内的信息,是,是关于整个,企,企业的一致,的,的全局信息,。,。在数据仓,库,库建设中,,这,这是最关键,最,最复杂的一,个,个步骤,主,要,要工作有:,一,一是,进行,数,数据的综合,和,和计算;二,是,是,统一源,数,数据中所有,不,不一致和矛,盾,盾的地方,(,如同名异义,、,、异名同义,、,、字长不一,致,致、单位不,一,一致等,),。,数据仓库四,个,个特点,-,相对稳定的,操作型数据,库,库中的数据,通,通常实时更,新,新,数据根,据,据需要及时,发,发生变化。,数,数据仓库的,数,数据主要供,企,企业决策分,析,析之用,所,涉,涉及的数据,操,操作主要是,数,数据查询,,一,一旦某个数,据,据进入数据,仓,仓库以后,,一,一般情况下,将,将被长期保,留,留,也就是,数,数据仓库中,一,一般有大量,的,的查询操作,,,,但修改和,删,删除操作很,少,少,通常只,需,需要定期的,加,加载、刷新,。,。,数据仓库四,个,个特点,-,相对稳定的,数据仓库四,个,个特点,-,反映历史变,化,化,操作型数据,库,库主要关心,当,当前某一个,时,时间段内的,数,数据,而数,据,据仓库中的,数,数据通常包,含,含历史信息,,,,系统记录,了,了企业从过,去,去某一时点,(,如开始应用,数,数据仓库的,时,时点,),到目前的各,个,个阶段的信,息,息,通过这,些,些信息,可,以,以对企业的,发,发展历程和,未,未来趋势做,出,出定量分析,和,和预测。,数据仓库中,的,的数据时间,期,期限要远远,长,长于操作型,系,系统中的数,据,据时间期限,。,。操作型系,统,统的时间期,限,限一般是,6 0,9 0,天,而数据,仓,仓库中数据,的,的时间期限,通,通常是,5,1 0,年。,操作型数据,库,库含有“当,前,前值”的数,据,据,这些数,据,据的准确性,在,在访问时是,有,有效的,同,样,样当前值的,数,数据能被更,新,新。而数据,仓,仓库中的数,据,据仅仅是一,系,系列某一时,刻,刻生成的复,杂,杂的快照。,操作型数据,的,的键码结构,可,可能包含也,可,可能不包含,时,时间元素,,如,如年、月、,日,日等。而数,据,据仓库的键,码,码结构总是,包,包含某时间,元,元素。数据,仓,仓库的数据,码,码键都包含,时,时间项,用,作,作标明数据,的,的历史时期,。,。数据仓库,中,中的数据包,含,含有大量综,合,合数据,很,多,多与时间有,关,关,如按时,间,间段进行综,合,合或隔时间,片,片进行抽样,。,。随着时间,变,变化,数据,仓,仓库需要不,断,断增加新数,据,据、删去旧,数,数据。,数据仓库四,个,个特点,-,反映历史变,化,化,数据仓库本,质,质,数据仓库实,际,际上是一个,“,以大型数据,管,管理信息系,统,统为基础的,、,、附加在这,个,个数据库系,统,统之上的、,存,存储了从企,业,业所有业务,数,数据库中获,取,取的综合数,据,据的、并能,利,利用这些综,合,合数据为用,户,户提供经过,处,处理后的有,用,用信息的应,用,用系统,”,。,如果说传统,数,数据库系统,的,的重点与要,求,求是快速、,准,准确、安全,、,、可靠地将,数,数据存进数,据,据库中的话,,,,那么数据,仓,仓库的重点,与,与要求就是,能,能够准确、,安,安全、可靠,地,地从数据库,中,中取出数据,,,,经过加工,转,转换成有规,律,律信息之后,,,,再供管理,人,人员进行分,析,析使用。,数据仓库所,要,要研究和解,决,决的问题就,是,是从数据库,中,中获取信息,。,。,数据仓库的,内,内容,数据仓库并,没,没有严格的,数,数学理论基,础,础,也没有,成,成熟的基本,模,模式,且更,偏,偏向于工程,,,,具有强烈,的,的工程性。,因,因此,在技,术,术上人们习,惯,惯于从工作,过,过程等方面,来,来分析,并,按,按其关键技,术,术部份分为,数,数据的抽取,、,、存储与管,理,理以及数据,的,的表现等三,个,个基本方面,。,。,数据的抽取,数据的抽取,是,是数据进入,仓,仓库的入口,。,。由于数据,仓,仓库是一个,独,独立的数据,环,环境,它需,要,要通过抽取,过,过程将数据,从,从联机事务,处,处理系统、,外,外部数据源,、,、脱机的数,据,据存储介质,中,中导入到数,据,据仓库。数,据,据抽取在技,术,术上主要涉,及,及互连、复,制,制、增量、,转,转换、调度,和,和监控等方,面,面。数据仓,库,库中的数据,并,并不要求与,联,联机事务处,理,理系统保持,实,实时同步,,因,因此数据抽,取,取可以定时,进,进行,但多,个,个抽取操作,执,执行的时间,、,、相互的顺,序,序、成败对,数,数据仓库中,信,信息的有效,性,性则至关重,要,要。,存储和管理,数据仓库的,真,真正关键是,数,数据的存储,和,和管理。数,据,据仓库的组,织,织管理方式,决,决定了它有,别,别于传统数,据,据库,同时,也,也决定了其,对,对外部数据,的,的表现形式,。,。要决定采,用,用什么产品,和,和技术来建,立,立数据仓库,的,的核心,则,需,需要从数据,仓,仓库的技术,特,特点着手分,析,析。,数据的表现,数据表现实,际,际上相当于,数,数据仓库的,门,门面,其性,能,能主要集中,在,在多维分析,、,、数理统计,和,和数据挖掘,方,方面。而多,维,维分析又是,数,数据仓库的,重,重要表现形,式,式,近几年,来,来由于互联,网,网的发展,,使,使得多维分,析,析领域的工,具,具和产品更,加,加注重提供,基,基于,Web,前端联机分,析,析界面,而,不,不仅仅是在,网,网上发布数,据,据。,数据仓库系,统,统体系结构,数据源,数据源是数,据,据仓库系统,的,的基础,是,整,整个系统的,数,数据源泉。,通,通常包括企,业,业内部信息,和,和外部信息,。,。内部信息,包,包括各种业,务,务处理数据,和,和各类文档,数,数据。外部,信,信息包括各,类,类法律法规,、,、市场信息,和,和竞争对手,的,的信息等等,。,。,数据的存储,与,与管理,数据的存储,与,与管理是整,个,个数据仓库,系,系统的核心,。,。数据仓库,的,的真正关键,是,是数据的存,储,储和管理。,数,数据仓库的,组,组织管理方,式,式决定了它,有,有别于传统,数,数据库,同,时,时也决定了,其,其对外部数,据,据的表现形,式,式。要决定,采,采用什么产,品,品和技术来,建,建立数据仓,库,库的核心,,则,则需要从数,据,据仓库的技,术,术特点着手,分,分析。针对,现,现有各业务,系,系统的数据,,,,进行抽取,、,、清理,并,有,有效集成,,按,按照主题进,行,行组织。数,据,据仓库按照,数,数据的覆盖,范,范围可以分,为,为企业级数,据,据仓库和部,门,门级数据仓,库,库(通常称,为,为数据集市,),)。,OLAP,服务器,OLAP,服务器对分,析,析需要的数,据,据进行有效,集,集成,按多,维,维模型予以,组,组织,以便,进,进行多角度,、,、多层次的,分,分析,并发,现,现趋势。其,具,具体实现可,以,以分为:,ROLAP,、,MOLAP,和,HOLAP,。,ROLAP,基本数据和,聚,聚合数据均,存,存放在,RDBMS,之中;,MOLAP,基本数据和,聚,聚合数据均,存,存放于多维,数,数据库中;,HOLAP,基本数据存,放,放于,RDBMS,之中,聚合,数,数据存放于,多,多维数据库,中,中。,前端工具,前端工具主,要,要包括各种,报,报表工具、,查,查询工具、,数,数据分析工,具,具、数据挖,掘,掘工具以及,各,各种基于数,据,据仓库或数,据,据集市的应,用,用开发工具,。,。其中数据,分,分析工具主,要,要针对,OLAP,服务器,报,表,表工具、数,据,据挖掘工具,主,主要针对数,据,据仓库。,数据仓库概,述,述小结,数据仓库的,产,产生,数据仓库概,念,念及特征,数据仓库的,内,内容,数据仓库系,统,统的体系结,构,构,数据仓库的,项目实施,数据仓库系,统,统是一种解,决,决问题的过,程,程,而不是,一,一个可以买,到,到的现成产,品,品。不同企,业,业会有不同,的,的数据仓库,。,。企业人员,往,往往不懂如,何,何建立和利,用,用数据仓库,,,,发挥其决,策,策支持的作,用,用,而数据,仓,仓库公司人,员,员又不懂业,务,务,不知道,建,建立哪些决,策,策主题,从,数,数据源中抽,取,取哪些数据,。,。这需要双,方,方互相沟通,,,,共同协商,开,开发数据仓,库,库,因此是,一,一个不断往,复,复前进的过,程,程。,数据仓库的,建,建设是一个,系,系统工程,,是,是一个不断,建,建立、发展,、,、完善的过,程,程,通常需,要,要较长的时,间,间。这就要,求,求各企业对,整,整个系统的,建,建设提出一,个,个全面、清,晰,晰的远景规,划,划及技术实,施,施蓝图,将,整,整个项目的,实,实施分成若,干,干个阶段,,以,以“总体规,划,划、分步实,施,施、步步见,效,效”为原则,,,,不仅可迅,速,速从当前投,资,资中获得收,益,益,而且可,以,以在已有的,基,基础上,结,合,合其他已有,的,的业务系统,,,,逐步构建,起,起完整、健,壮,壮的数据仓,库,库系统。,数据仓库的,项目实施,数据仓库提,供,供了有效地,存,存取和管理,大,大量数据的,理,理想环境,,而,而数据仓库,系,系统的建立,是,是一个由数,据,据驱动、以,技,技术支撑并,满,满足应用需,求,求的不断增,长,长和完善的,开,开发过程。,因,因此数据仓,库,库的建立可,以,以从数据、,技,技术和应用,三,三方面展开,。,。,数据仓库的,项目实施,项目计划,项目计划是,指,指定义创建,数,数据仓库的,项,项目目标和,确,确定项目范,围,围,包括对,项,项目计划的,评,评估和流程,的,的调整。数,据,据仓库在构,建,建之初应明,确,确其主题,,主,主题是一个,在,在较高层次,将,将数据归类,的,的标准,每,一,一个主题对,应,应一个宏观,的,的分析领域,,,,针对具体,决,决策需求可,细,细化为多个,主,主题表,具,体,体来说就是,确,确定决策涉,及,及的范围和,所,所要解决的,问,问题。但是,主,主题的确定,必,必须建立在,现,现有联机事,务,务处理(,OLTP,)系统基,础,础上,否,则,则按此主,题,题设计的,数,数据仓库,存,存储结构,将,将成为一,个,个空壳,,缺,缺少可存,储,储的数据,。,。但一味,注,注重,OLTP,数据信息,,,,也将导,致,致迷失数,据,据提取方,向,向,偏离,主,主题。需,要,要在,OLTP,数据和主,题,题之间找,到,到一个,“,平衡点,”,,根据主,题,题的需要,完,完整地收,集,集数据,,这,这样构建,的,的数据仓,库,库才能满,足,足决策和,分,分析的需,要,要。,确定范围,的,的主要任,务,务包括了,解,解方向性,分,分析处理,需,需求,确,定,定信息需,求,求,确定,数,数据覆盖,范,范围。方,向,向性需求,包,包括:决,策,策类型、,决,决策者感,兴,兴趣的问,题,题(或对,象,象)等。,在,在确定范,围,围时应该,重,重视的因,素,素是必须,用,用户驱动,和,和数据驱,动,动相结合,,,,同时可,以,以借鉴国,内,内外已有,的,的成功经,验,验。,业务需求,分,分析,业务需求,分,分析是数,据,据仓库中,一,一个很重,要,要的阶段,,,,好的业,务,务需求分,析,析会使项,目,目成功的,机,机率大大,增,增加。分,析,析阶段主,要,要包括两,个,个方面的,任,任务是深,入,入了解数,据,据源和分,析,析数据仓,库,库系统所,包,包含的主,题,题域及其,相,相互之间,的,的关系。,分,分析阶段,必,必须坚持,用,用户参与,,,,并且与,原,原有系统,开,开发或维,护,护人员进,行,行深入的,沟,沟通。,数据线,数据线的,实,实施可以,分,分为模型,设,设计、物,理,理设计、,数,数据预处,理,理三个步,骤,骤,用以,满,满足对数,据,据的有效,组,组织和管,理,理。,数据线,-,模型设计,需求分析,已,已经确定,了,了用户业,务,务分析所,需,需要的数,据,据。模型,设,设计阶段,将,将确定数,据,据仓库系,统,统将来的,蓝,蓝图。,数据仓库,的,的逻辑设,计,计一般采,用,用星型模,型,型和雪花,模,模型设计,其,其数据模,型,型。包括,选,选择合适,的,的主题,,确,确定事实,表,表、相关,的,的维、属,性,性和粒度,划,划分,设,计,计正确的,表,表结构和,主,主键、外,键,键关系等,。,。,模型设计,主,主要包括,四,四个基本,步,步骤:确,定,定合适的,主,主题、划,分,分粒度层,次,次、设计,维,维表和设,计,计事实表,。,。,数据线,-,模型设计,ER,图,数据线,-,模型设计,三维透视,图,图,数据线,-,模型设计,ER,图中所示,的,的数据模,型,型中有四,个,个相互关,联,联的简单,实,实体。如,果,果数据库,设,设计只需,要,要考虑数,据,据模型的,话,话,可以,推,推断所有,的,的实体都,是,是平等关,系,系。换言,之,之,从数,据,据模型的,设,设计角度,来,来看,所,有,有的实体,之,之间的关,系,系是对等,的,的。,仅仅从数,据,据模型的,角,角度来着,手,手设计数,据,据仓库会,产,产生一种,“,“平面”,效,效应。实,际,际上,由,于,于种种原,因,因,数据,仓,仓库的实,体,体绝不会,是,是相互对,等,等的。一,些,些实体,,要,要求有它,们,们自己的,特,特别处理,。,。,为了明确,为,为什么从,数,数据模型,的,的角度看,一,一个组织,中,中的数据,和,和关系会,发,发生失真,,,,根据在,数,数据仓库,中,中建立实,体,体时将载,入,入数据实,体,体的数据,量,量,我们,来,来考虑数,据,据仓库中,数,数据的一,种,种三维透,视,视。三维,透,透视图表,明,明了这种,三,三维透视,。,。代表供,应,应商、客,户,户、产品,、,、发货的,实,实体被稀,疏,疏地载入,,,,而代表,订,订单的实,体,体则大量,地,地载入。,将,将会有大,量,量的数据,载,载入代表,订,订单实体,的,的表中,,而,而在代表,别,别的实体,的,的表中载,入,入的数据,量,量则相对,较,较少。由,于,于大量的,数,数据要载,入,入订单实,体,体,因此,需,需要一种,不,不同的设,计,计处理方,式,式。,数据线,-,模型设计,用来管理,数,数据仓库,中,中载入某,个,个实体的,大,大量数据,的,的设计结,构,构通常用,“,“星型连,接,接”。,首先确立,主,主题,订,单,单是有大,量,量数据的,重,重要主题,,,,那么“,订,订单”位,于,于星型连,接,接的中央,。,。,在其周围,分,分别是“,产,产品”、,“,“客户”,、,、“供应,商,商”和“,发,发货”实,体,体。这些,实,实体仅仅,会,会产生不,大,大的数据,量,量。,星型连接,中,中央的“,订,订单”被,称,称作是“,事,事实表”,,,,而其周,围,围的其他,实,实体,“,产品”、,“,“客户”,、,、“供应,商,商”和“,发,发货”则,被,被称为“,维,维表”。,事实表包,含,含了“订,单,单”独有,的,的标识数,据,据,也包,含,含了订单,本,本身的独,有,有数据。,事,事实表还,包,包含了指,向,向其周围,的,的表,维表的外,键,键。,数据线,-,模型设计,数据线,-,模型设计,创建和使,用,用星型连,接,接的一个,有,有趣的方,面,面是,在,很,很多情况,下,下,文本,数,数据与数,值,值数据是,分,分离开的,。,。,文本数据,常,常出现在,维,维表中,,数,数值数据,常,常出现在,事,事实表中,,,,这种划,分,分似乎在,所,所有情况,都,都会发生,。,。,数据线,-,模型设计,数据线,-,模型设计,创建和使,用,用星型连,接,接的好处,是,是可以为,决,决策支持,系,系统的处,理,理优化数,据,据。通过,数,数据预连,接,接和建立,有,有选择的,数,数据冗余,,,,设计者,为,为访问和,分,分析过程,大,大大简化,了,了数据,,这,这正是数,据,据仓库所,需,需要的。,如果不是,在,在决策支,持,持系统数,据,据仓库环,境,境中使用,星,星型连接,,,,则会有,很,很多的缺,点,点。在决,策,策支持系,统,统数据仓,库,库环境以,外,外,常有,数,数据更新,,,,而且数,据,据关系的,管,管理要在,秒,秒的一级,上,上进行。,在,在这种情,况,况下星型,连,连接在创,建,建和维护,上,上就是很,麻,麻烦的数,据,据结构。,但,但是由于,数,数据仓库,是,是一个装,载,载,访问环境,,,,它包括,很,很多历史,数,数据,且,有,有大量的,数,数据要管,理,理,因此,,,,星型连,接,接的数据,结,结构是十,分,分理想的,。,。,数据线,-,模型设计,雪花模型,。,雪花模型,是,是对星型,模,模型的扩,展,展,每个,维,维表都可,以,以向外连,接,接到多个,详,详细类别,表,表,。,雪花模型,对,对星型模,型,型的维表,进,进一步层,次,次化,原,有,有的各维,表,表可能被,扩,扩展为小,的,的事实表,,,,形成一,些,些局部的,“,“层次”,区,区域。在,维,维表上连,接,接对事实,表,表进行详,细,细描述的,详,详细类别,表,表,达到,了,了缩小事,实,实表,提,高,高查询效,率,率的目的,。,。,数据线,-,模型设计,数据线,-,模型设计,雪花模型,的,的优点是,:,:通过最,大,大限度的,减,减少数据,存,存储量以,及,及联合较,小,小的维表,来,来改善查,询,询性能。,雪花模型,增,增加了用,户,户必须处,理,理的表数,量,量,增加,了,了某些查,询,询的复杂,性,性,但这,种,种方式可,以,以使系统,进,进一步专,业,业化和实,用,用化,同,时,时降低了,系,系统的通,用,用程度。,数据线,-,物理设计,物理设计,的,的主要任,务,务是定义,支,支持模型,设,设计必需,的,的物理结,构,构。其过,程,程包括以,下,下三个方,面,面:,1,)确定物,理,理存储结,构,构;,2,)确定索,引,引策略;,3,)确定存,储,储分配。,数据线,-,数据处理,(,1,)数据预,处,处理。它,是,是数据仓,库,库设计工,程,程中非常,重,重要的过,程,程,它由,三,三个主要,步,步骤组成,:,:抽取(,Extraction,)、转换,(Transformation),、加载,(Load),,简称,ETL,。抽取过,程,程将会暴,露,露源系统,中,中数据的,质,质量问题,。,。由于数,据,据的质量,严,严重影响,着,着数据仓,库,库的可信,程,程度,因,此,此在数据,预,预处理过,程,程中,需,要,要提高数,据,据质量,,让,让数据仓,库,库使用真,正,正有效的,数,数据。目,前,前有很多,工,工具可以,帮,帮助用户,完,完成数据,抽,抽取、转,换,换和装载,工,工作,但,是,是还有相,当,当一部分,工,工作是要,手,手工编程,来,来完成的,。,。根据元,数,数据库中,的,的主题表,定,定义、数,据,据源定义,、,、数据抽,取,取规则定,义,义对异地,异,异构数据,源,源(包括,各,各平台的,数,数据库、,文,文本文件,、,、,HTML,文件、知,识,识库等),进,进行清理,、,、转换,,对,对数据进,行,行重新组,织,织和加工,,,,装载到,数,数据仓库,的,的目标库,中,中。在组,织,织不同来,源,源的数据,过,过程中,,先,先将数据,转,转换成一,种,种中间模,式,式,再把,它,它移至临,时,时工作区,。,。加工数,据,据是保证,目,目标数据,库,库中数据,的,的完整性,、,、一致性,。,。例如,,有,有两个数,据,据源存储,与,与人员有,关,关的信息,,,,在定义,数,数据组成,的,的人员编,码,码类型时,,,,可能一,个,个是字符,型,型,一个,是,是整型;,在,在定义人,员,员性别这,一,一属性的,类,类型时,,一,一个可能,是,是,char,(,2,),存,储,储的数,据,据值为,“,男,”,和,“,女,”,,而另,一,一个属,性,性类型,为,为,char,(,1,),数,据,据值为,“,F”,和,“,M”,。这两,个,个数据,源,源的值,都,都是正,确,确的,,但,但对于,目,目标数,据,据来说,,,,必须,加,加工为,一,一种统,一,一的方,法,法来表,示,示该属,性,性值,,然,然后交,由,由最终,用,用户进,行,行验证,,,,这样,才,才能保,证,证数据,的,的质量,。,。在数,据,据抽取,过,过程中,,,,必须,在,在最终,用,用户的,密,密切配,合,合下,,才,才能实,现,现数据,的,的真正,统,统一。,(,2,)数据,使,使用。,(,3,)数据,维,维护。,数,数据仓,库,库规模,一,一般都,很,很大,,从,从建立,之,之初就,要,要保证,它,它的可,管,管理性,,,,一个,企,企业可,能,能建立,几,几个数,据,据仓库,或,或数据,集,集市,,但,但他们,可,可共用,一,一个元,数,数据库,对,对其进,行,行管理,。,。首先,从,从元数,据,据库查,询,询所需,元,元数据,,,,然后,进,进行数,据,据仓库,更,更新作,业,业,更,新,新结束,后,后,将,更,更新情,况,况记录,于,于元数,据,据库中,。,。当数,据,据源的,运,运行环,境,境、结,构,构及目,标,标数据,的,的维护,计,计划发,生,生变化,时,时,需,要,要修改,元,元数据,。,。元数,据,据是数,据,据仓库,的,的重要,组,组成部,分,分,元,数,数据的,质,质量决,定,定整个,数,数据仓,库,库的质,量,量。,技术线,技术线,的,的实施,分,分为技,术,术选择,和,和产品,选,选择两,个,个步骤,。,。如何,采,采用合,理,理有效,的,的技术,是,是实现,一,一个好,的,的数据,仓,仓库系,统,统的基,本,本条件,。,。,在数据,仓,仓库建,立,立的过,程,程中会,遇,遇到一,些,些新的,特,特定的,问,问题,,如,如管理,大,大量数,据,据的需,求,求,如,何,何对数,据,据进行,快,快速和,方,方便的,访,访问等,。,。为解,决,决这些,问,问题人,们,们采用,了,了新的,技,技术。,技,技术体,系,系选择,必,必须从,为,为这些,技,技术建,立,立全局,的,的结构,框,框架和,视,视角出,发,发,选,择,择中需,要,要同时,考,考虑三,个,个因素,:,:商业,需,需求、,当,当前的,技,技术环,境,境、计,划,划的策,略,略技术,方,方向。,技术体,系,系确定,以,以后需,要,要选择,实,实现数,据,据仓库,应,应用的,各,各种产,品,品,包,括,括硬件,平,平台、,ETL,工具、,OLAP,服务器,、,、数据,展,展现工,具,具等,,并,并进行,产,产品的,安,安装和,测,测试。,现,现在市,场,场上的,数,数据仓,库,库产品,有,有很多,,,,数据,仓,仓库厂,商,商通常,都,都提出,了,了自己,的,的一系,列,列解决,方,方案,,限,限于篇,幅,幅,在,这,这里不,再,再展开,,,,而主,要,要着眼,于,于数据,仓,仓库实,现,现的一,些,些关键,技,技术,,以,以便对,数,数据仓,库,库的建,立,立有更,深,深层的,理,理解。,应用线,应用线,的,的实施,分,分为应,用,用设计,和,和应用,开,开发两,个,个步骤,。,。数据,仓,仓库的,建,建立最,终,终是为,应,应用服,务,务的,,所,所以需,要,要对应,用,用进行,设,设计和,开,开发,,以,以更好,地,地满足,用,用户的,需,需要。,数据仓,库,库的建,立,立是为,满,满足用,户,户的不,同,同查询,需,需求服,务,务的,,用,用户的,需,需求可,能,能是只,访,访问一,些,些预定,义,义的查,询,询、生,成,成报表,等,等简单,操,操作,,也,也可能,是,是自己,定,定义复,杂,杂的查,询,询,直,接,接分析,数,数据仓,库,库中存,放,放的各,种,种数据,。,。因此,,,,需要,设,设计合,适,适的应,用,用工具,,,,为不,同,同的用,户,户提供,友,友好的,用,用户界,面,面。,应用设,计,计和开,发,发的一,个,个有效,办,办法是,针,针对不,同,同的用,户,户需求,,,,设计,和,和实现,标,标准的,用,用户应,用,用模板,,,,提供,给,给用户,高,高效的,接,接入方,式,式。,应用设,计,计的任,务,务是设,计,计标准,的,的用户,应,应用模,板,板。应,用,用设计,的,的过程,一,一般包,括,括:确,定,定初始,的,的模板,集,集、设,计,计模板,的,的标准,、,、设计,详,详细模,板,板、最,后,后通过,用,用户反,馈,馈进行,改,改进。,应,应用开,发,发是通,过,过应用,设,设计说,明,明书,,按,按照标,准,准的软,件,件开发,流,流程,,实,实现模,板,板的设,计,计。应,用,用开发,的,的一般,过,过程是,选,选择实,现,现的方,法,法,然,后,后进行,模,模板的,实,实现、,测,测试和,数,数据验,证,证,最,后,后是应,用,用模板,的,的维护,。,。,应用是,数,数据仓,库,库建立,的,的最终,目,目的,,对,对于应,用,用提出,的,的要求,,,,数据,仓,仓库建,立,立过程,中,中是必,须,须加以,充,充分考,虑,虑的。,系统运,行,行维护,数据仓,库,库建成,后,后就进,入,入运行,维,维护,,在,在运行,中,中要不,断,断验证,评,评价分,析,析设计,是,是否符,合,合用户,需,需求,,产,产生出,新,新的分,析,析要求,及,及时反,馈,馈回需,求,求分析,,,,进行,系,系统设,计,计的改,进,进。运,行,行维护,分,分为目,标,标数据,维,维护和,元,元数据,维,维护两,方,方面。,目,目标数,据,据维护,是,是根据,元,元数据,库,库所定,义,义的更,新,新频率,、,、更新,数,数据项,等,等更新,计,计划任,务,务来刷,新,新数据,仓,仓库,,以,以反映,数,数据源,的,的变化,,,,且对,时,时间相,关,关性进,行,行处理,。,。更新,操,操作有,两,两种情,况,况,即,在,在仓库,的,的原有,数,数据表,中,中进行,某,某些数,据,据的更,新,新和产,生,生一个,新,新的时,间,间区间,的,的数据,,,,因为,汇,汇总数,据,据与数,据,据仓库,中,中的许,多,多信息,元,元素有,关,关系,,必,必需完,整,整地汇,总,总,这,样,样才能,保,保证全,体,体信息,的,的一致,性,性。,数据仓,库,库实施,总的来,说,说,数,据,据仓库,的,的实施,是,是为了,建,建立一,个,个良好,的,的数据,组,组织和,管,管理环,境,境,以,满,满足决,策,策支持,的,的需要,。,。数据,仓,仓库包,含,含了数,据,据、技,术,术、应,用,用三方,面,面的要,求,求,所,以,以只有,把,把良好,的,的数据,模,模型、,合,合理的,技,技术和,准,准确的,应,应用设,计,计结合,起,起来,,形,形成一,套,套有效,的,的方法,,,,才能,建,建立起,一,一个成,功,功的数,据,据仓库,。,。,数据仓,库,库系统,的,的设计,是,是一个,动,动态反,馈,馈和循,环,环的过,程,程,以,上,上只完,成,成了数,据,据仓库,建,建立的,一,一个生,命,命周期,。,。在实,际,际建立,的,的过程,中,中,一,方,方面数,据,据仓库,的,的数据,内,内容、,结,结构、,粒,粒度和,其,其他物,理,理设计,需,需要根,据,据用户,的,的反馈,信,信息不,断,断地调,整,整完善,;,;另一,方,方面,,应,应用环,境,境发生,重,重大变,化,化或者,新,新技术,出,出现,,都,都有可,能,能导致,用,用户的,应,应用需,求,求发生,重,重大变,化,化,使,现,现有系,统,统不能,满,满足用,户,户要求,,,,需要,重,重新设,计,计系统,,,,开始,一,一个新,的,的生命,周,周期。,因,因此,,数,数据仓,库,库的建,立,立是运,用,用一套,有,有效的,数,数据仓,库,库建立,方,方法不,断,断反复,循,循环的,过,过程。,粒度问,题,题,粒度问,题,题是设,计,计数据,仓,仓库的,一,一个最,重,重要方,面,面。,粒度是,指,指数据,仓,仓库的,数,数据单,位,位中保,存,存数据,的,的细化,或,或综合,程,程度的,级,级别。,细,细化程,度,度越高,,,,粒度,级,级就越,小,小;相,反,反,细,化,化程度,越,越低,,粒,粒度级,就,就越大,。,。,在数据,仓,仓库环,境,境中粒,度,度之所,以,以是主,要,要的设,计,计问题,,,,是因,为,为它深,深,深地影,响,响存放,在,在数据,仓,仓库中,的,的数据,量,量的大,小,小,同,时,时影响,数,数据仓,库,库所能,回,回答的,查,查询类,型,型。在,数,数据仓,库,库中的,数,数据量,大,大小与,查,查询的,详,详细程,度,度之间,要,要作出,权,权衡。,粒度级别,低粒度级,,,,每个活,动,动,(,如一次电,话,话,),被详细记,录,录下来。,高粒度级,。,。数据代,表,表一位顾,客,客一个月,的,的综合信,息,息,每位,顾,顾客一个,月,月只有一,个,个记录。,粒度级别,比,比较,低粒度级,,,,每个活,动,动,(,如一次电,话,话,),被详细记,录,录下来,,数,数据的格,式,式如图所,示,示。到月,底,底每个顾,客,客平均有,2 00,条记录,(,全月中每,个,个电话都,记,记录一次,),,因而总,共,共需要,40 000,个字节。,高粒度级,。,。数据代,表,表一位顾,客,客一个月,的,的综合信,息,息,每位,顾,顾客一个,月,月只有一,个,个记录,,这,这样的记,录,录大约只,需,需,2 00,个字节。,显,显然,如,果,果数据仓,库,库的空间,很,很有限的,话,话,(,数据量总,是,是数据仓,库,库中的首,要,要问题,),,用高粒,度,度级表示,数,数据将比,用,用低粒度,级,级表示数,据,据的效率,要,要高得多,。,。高粒度,级,级不仅只,需,需要少得,多,多的字节,存,存放数据,,,,而且只,需,需要较少,的,的索引项,。,。然而数,据,据量大小,和,和原始空,间,间问题不,是,是仅有的,应,应考虑的,问,问题。为,了,了访问大,量,量数据,,其,其处理能,力,力的大小,同,同样也是,应,应考虑的,一,一个因素,。,。,粒度的权,衡,衡,粒度的双,重,重级别,企业既需,要,要提高存,储,储与访问,数,数据的效,率,率,又需,要,要非常详,细,细地分析,数,数据的能,力,力。当一,个,个企业或,组,组织的数,据,据仓库中,拥,拥有大量,数,数据时,,在,在数据仓,库,库的细节,部,部分考虑,双,双重,(,或多重,),粒度级是,很,很有意义,的,的。,企,业,业,需,需,要,要,多,多,个,个,粒,粒,度,度,级,级,而,而,不,不,是,是,一,一,个,个,粒,粒,度,度,级,级,的,的,需,需,求,求,,,,,是,是,因,因,为,为,粒,粒,度,度,级,级,设,设,计,计,采,采,用,用,双,双,重,重,级,级,别,别,应,应,该,该,是,是,几,几,乎,乎,每,每,个,个,机,机,构,构,默,默,认,认,的,的,选,选,择,择,。,。,数,据,据,仓,仓,库,库,包,包,括,括,两,两,种,种,类,类,型,型,的,的,数,数,据,据,:,:,轻,轻,度,度,综,综,合,合,数,数,据,据,和,和,“,“,真,真,实,实,档,档,案,案,”,”,细,细,节,节,数,数,据,据,。,。,“,真,真,实,实,档,档,案,案,”,”,细,细,节,节,数,数,据,据,。,。,在,在,操,操,作,作,层,层,是,是,大,大,量,量,的,的,细,细,节,节,数,数,据,据,,,,,其,其,中,中,大,大,部,部,分,分,细,细,节,节,是,是,为,为,了,了,满,满,足,足,结,结,帐,帐,系,系,统,统,的,的,需,需,求,求,。,。,多,多,达,达,30,多,天,天,的,的,细,细,节,节,存,存,放,放,在,在,这,这,种,种,操,操,作,作,层,层,中,中,。,。,轻,度,度,综,综,合,合,数,数,据,据,库,库,中,中,的,的,数,数,据,据,量,量,比,比,细,细,节,节,数,数,据,据,库,库,中,中,的,的,数,数,据,据,量,量,少,少,得,得,多,多,。,。,大,部,部,分,分,DSS,处,理,理,是,是,针,针,对,对,被,被,压,压,缩,缩,的,的,、,、,存,存,取,取,效,效,率,率,高,高,的,的,轻,轻,度,度,综,综,合,合,级,级,数,数,据,据,进,进,行,行,的,的,。,。,如,如,果,果,什,什,么,么,时,时,候,候,需,需,要,要,分,分,析,析,更,更,低,低,的,的,细,细,节,节,级,级,(5%,时,间,间,或,或,更,更,少,少,的,的,可,可,能,能,),,,可,可,以,以,到,到,数,数,据,据,的,的,真,真,实,实,档,档,案,案,层,层,。,。,鉴,于,于,费,费,用,用,、,、,效,效,率,率,、,、,访,访,问,问,便,便,利,利,和,和,能,能,够,够,回,回,答,答,任,任,何,何,可,可,以,以,回,回,答,答,的,的,查,查,询,询,的,的,能,能,力,力,,,,,数,数,据,据,双,双,重,重,粒,粒,度,度,级,级,是,是,大,多,多,数,数,机,机,构,构,建,建,造,造,数,数,据,据,仓,仓,库,库,细,细,节,节,级,级,的,的,最,最,好,好,选,选,择,择,。,。,数,据,据,仓,仓,库,库,中,中,的,的,数,数,据,据,组,组,织,织,简,单,单,堆,堆,积,积,。,。,轮,转,转,综,综,合,合,。,。,简,单,单,直,直,接,接,。,。,连,续,续,。,。,简,单,单,堆,堆,积,积,结,结,构,构,数,据,据,仓,仓,库,库,中,中,最,最,简,简,单,单,最,最,常,常,用,用,的,的,数,数,据,据,组,组,织,织,形,形,式,式,也,也,许,许,是,是,简,简,单,单,堆,堆,积,积,结,结,构,构,。,。,从,操,操,作,作,型,型,环,环,境,境,中,中,取,取,出,出,每,每,天,天,的,的,事,事,务,务,处,处,理,理,,,,,然,然,后,后,综,综,合,合,成,成,数,数,据,据,仓,仓,库,库,记,记,录,录,,,,,这,这,个,个,综,综,合,合,可,可,根,根,据,据,顾,顾,客,客,、,、,帐,帐,目,目,或,或,者,者,任,任,何,何,组,组,织,织,到,到,数,数,据,据,仓,仓,库,库,的,的,主,主,题,题,领,领,域,域,来,来,进,进,行,行,。,。,这,这,里,里,的,的,事,事,务,务,处,处,理,理,是,是,以,以,天,天,来,来,进,进,行,行,综,综,合,合,。,。,换,换,句,句,话,话,说,说,,,,,对,对,一,一,个,个,顾,顾,客,客,的,的,一,一,个,个,帐,帐,号,号,的,的,每,每,天,天,的,的,所,所,有,有,活,活,动,动,进,进,行,行,合,合,计,计,,,,,并,并,在,在,一,一,天,天,一,一,天,天,的,的,基,基,础,础,上,上,输,输,入,入,数,数,据,据,仓,仓,库,库,。,。,轮,转,转,综,综,合,合,数,数,据,据,存,存,储,储,轮,转,转,综,综,合,合,数,数,据,据,存,存,储,储,。,。,数,据,据,先,先,用,用,与,与,前,前,面,面,相,相,同,同,的,的,处,处,理,理,方,方,法,法,从,从,操,操,作,作,型,型,环,环,境,境,输,输,入,入,到,到,数,数,据,据,仓,仓,库,库,环,环,境,境,中,中,。,。,然,后,后,定,定,期,期,进,进,行,行,轮,轮,转,转,综,综,合,合,。,。,第,第,一,一,周,周,的,的,七,七,天,天,中,中,的,的,活,活,动,动,被,被,逐,逐,一,一,综,综,合,合,到,到,七,七,个,个,每,每,日,日,相,相,应,应,的,的,位,位,置,置,,,,,到,到,第,第,八,八,天,天,,,,,将,将,七,七,个,个,每,每,日,日,位,位,置,置,的,的,数,数,据,据,加,加,到,到,一,一,起,起,,,,,并,并,放,放,入,入,第,第,一,一,周,周,的,的,数,数,据,据,位,位,置,置,中,中,。,。,然,然,后,后,,,,,第,第,八,八,天,天,的,的,每,每,日,日,总,总,计,计,加,加,到,到,第,第,一,一,个,个,每,每,日,日,数,数,据,据,位,位,置,置,。,。,月,月,底,底,将,将,每,每,周,周,位,位,置,置,的,的,数,数,据,据,加,加,到,到,一,一,起,起,,,,,并,并,放,放,入,入,第,第,一,一,个,个,每,每,月,月,相,相,应,应,的,的,数,数,据,据,位,位,置,置,处,处,,,,,然,然,后,后,每,每,周,周,数,数,据,据,位,位,置,置,清,清,零,零,。,。,到,到,了,了,年,年,底,底,,,,,将,将,每,每,月,月,位,位,置,置,数,数,据,据,加,加,到,到,一,一,起,起,,,,,放,放,入,入,第,第,一,一,个,个,年,年,度,度,相,相,应,应,的,的,数,数,据,据,位,位,置,置,处,处,,,,,然,然,后,后,每,每,月,月,数,数,据,据,位,位,置,置,清,清,零,零,。,。,轮,转,转,综,综,合,合,数,数,据,据,存,存,储,储,简,单,单,堆,堆,积,积,vs,轮,转,转,综,综,合,合,简,单,单,直,直,接,接,文,文,件,件,数,据,
展开阅读全文