资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,数据仓库设计,胡正耀 09105015,一、,数,数据,仓,仓库,系,系统,结,结构,RDBMS,数据,文,文件,其他,综合,数,数据,当前,数,数据,历史,数,数据,元数,据,据,抽取,、,、转,换,换、,装,装载,数据,仓,仓库,OLAP,工,工具,DM,工,工具,查询,工,工具,分析,工,工具,报表,工,工具,抽取.转,换,换.,装,装载,源数,据,据库,DW,管,管理,工,工具,数据,建,建模,工,工具,数据,源,源,二、,建,建立DW,的,的两,种,种方,式,式,1.,自,自顶,向,向下,型,型,“自,顶,顶向,下,下”,的,的开,发,发策,略,略是,指,指对,原,原来,分,分散,存,存储,在,在企,业,业各,处,处的OLTP,数,数据,库,库中,的,的有,用,用数,据,据通,过,过提,取,取、,清,清洁,、,、转,换,换、,聚,聚集,等,等处,理,理步,骤,骤建,原有数据和应用,源,源,抽取、转换、迁,移,移,数据仓库,数据仓库/数据,集,集市,元数据,数,据,集,市,自顶向下的数据,仓,仓库结构,二、建立DW的,两,两种方式,2.自下向上型,“自底向上”模,式,式是从建立各个,部,部门或特定的商,业,业问题的数据集,市,市开始,全局性,数,数据仓库建立在,这,这些数据集市的,基,基础上。“自底,向,向上”模式的特,点,点是初期投资少,,,,见效快,因为,它,它在建立部门数,据,据集市时只需要,较,较少的人做决策,,,,解决的是较小,的,的商业问题。“,自,自底向上”的开,发,发模式可以使一,个,个单位在数据仓,库,库发展初期尽可,能,能少地花费资金,,,,也可以在做出,有,有效的投入之前,评,评估技术的收益,情,情况。,原有数据和应用,源,源,抽取、转换、迁,移,移,数据仓库,数据仓库/数据,集,集市,元数据,数据集市,自下向上的数据,仓,仓库结构,“平行开发”模,式,式是指在一个全,局,局性数据仓库的,数,数据模型的指导,下,下,数据集市的,建,建立和全局性数,据,据仓库的建立同,时,时进行。在“平,行,行开发”模式中,由,由于数据集市的,建,建立是在一个统,一,一的全局数据模,型,型的指导下进行,的,的,可避免各部,门,门在开发各自的,数,数据集市时的盲,目,目性,减少各数,据,据集市之间的数,据,据冗余和不一致,。,。在“平行开发,”,”模式中数据集,市,市的这种相对独,立,立性有利于全局,性,性数据库的建设,。,。一旦全局性数,据,据仓库建立好后,,,,各部门的数据,集,集市将成为全局,数,数据仓库的一个,子,子集#全局数据,仓,仓库将负责为各,部,部门已建成和即,将,将要建的数据集,市,市提供数据。,二、建立DW的,两,两种方式,两种方式的比较,:,:,自顶向下,的,的方法是在单个,项,项目阶段中实现,数,数据仓库,需要,在,在项目开始时完,成,成更多计划和设,计,计工作。这就需,要,要涉及参与数据,仓,仓库实现的每个,工,工作组、部门,或,或业务线中的人,员,员。要使用的数,据,据源、安全性、,数,数据结构、数据,质,质量、数据标准,和,和整个数据模型,的,的有关决策一般,需,需要在真正的实,现,现开始之前就完,成,成,,建设规模往往较,大,大,建设周期长,,,,投资大。,二、建立DW的,两,两种方式,两种方式的比较,:,:,自下向上的,实,实现包含数据仓,库,库的计划和设计,,,,无需等待安置,好,好更大业务范围,的,的数据仓库设计,。,。这并不意味着,不,不会开发更大业,务,务范围的数据仓,库,库设计;随着初,始,始数据仓 库实,现,现的扩展,将逐,渐,渐增加对它的构,建,建。现在,该方,法,法得到了比自顶,向,向下方法更广泛,的,的接受,因为数,据,据仓库的直接结,果,果可以实现,并,可,可以用作扩展更,大,大业务范围实现,的,的证明。,二、建立DW的,两,两种方式,两种方式的比较,:,:,一种折中方案:,每种实现方法都,有,有利弊。在许多,情,情况下,最好的,方,方法可能是某两,种,种的组合。该方,法,法的关键之一就,是,是确定业务范围,的,的架构需要用于,支,支持集成的计划,和,和设计的程度,,因,因为数据仓库是,用,用自底向上的方,法,法进行构建。在,使,使用自底向上或,阶,阶段性数据仓库,项,项目模型来构建,业,业务范围架构中,的,的一系列数据集,市,市时,您可以一,个,个接一个地集成,不,不同业务 主题,领,领域中的数据集,市,市,从而形成设,计,计良好的业务数,据,据仓库。这样的,方,方法可以极好地,适,适用于业务。在,这,这种方法中,可,以,以把数据集市理,解,解为整个数据仓,库,库系统的逻辑子,集,集,换句话说,数,数据仓库就是一,致,致化了的数据集,市,市的集合。这种,方,方案的实施步骤,通,通常分如下几步,:,:(1)从,整,整个企业的角度,定,定义计划和需求(2)构建,完,完整的仓库体系,结,结构(3),使,使数据内容一致,而,而且标准化(4)将数据仓,库,库作为一种超级,数,数据集市来实施,随着数据仓库技,术,术的发展,数,数据仓库的实现,策,策略已从原先的,“,“自顶向下”一,种,种模式发展到了,六,六种模式。,1、“自顶向,下,下”模式,2、“自底向,上,上”模式,3、“平行开,发,发”模式,为了解决用户需,求,求变化的问题,在业界引入,了,了三种模式。,4、“有反馈,的,的自顶向下”模,式,式,5、“有反馈,的,的自底向上”模,式,式,6、“有反馈,的,的平行开发”模,式,式,三、数据仓库构,建,建步骤,数据建模,概念模型设计,逻辑模型设计,物理模型设计,OLAP应用,完善维护系统,应用与维护,确定系,统,统边界,确定主,题,题域,总体分,析,析设计,技术环,境,境设备,三、数,据,据仓库,构,构建步,骤,骤,1)收,集,集和分,析,析业务,需,需求;,2)建,立,立数据,模,模型和,数,数据仓,库,库的物,理,理设计,;,;,3)定,义,义数据,源,源;,4)选,择,择数据,仓,仓库技,术,术和平,台,台;,5)从,操,操作型,数,数据库,中,中提取,、,、转换,和,和净化,数,数据到,数,数据仓,库,库;,6)选,择,择访问,和,和报表,工,工具;,7)选,择,择数据,库,库连接,软,软件;,8)选,择,择数据,分,分析和,数,数据展,示,示软件,;,;,9)更,新,新数据,仓,仓库;,三、数,据,据仓库,建,建立的,基,基本框,架,架,需求分,析,析,运行维,护,护,模型设,计,计,物理设,计,计,技术选,择,择,数据处,理,理,应用设,计,计,应用开,发,发,产品选,择,择,项,目,管,理,四、数,据,据的获,取,取,数据仓,库,库所需,要,要的数,据,据不像,业,业务处,理,理系统,那,那样直,接,接从业,务,务发生,地,地获取,,,,而是,从,从与业,务,务处理,发,发生直,接,接联系,的,的业务,处,处理系,统,统那里,获,获取,,如,如传统,的,的基于C/S,结,结构的,在,在线事,物,物处理,系,系统OLTP,。,。这些,业,业务处,理,理系统,中,中的数,据,据往往,与,与业务,处,处理联,系,系在一,起,起,只,为,为业务,的,的日常,处,处理服,务,务,而,不,不为决,策,策分析,服,服务。,所,所以DW从业,务,务处理,系,系统那,里,里获取,数,数据时,,,,并不,能,能将原,数,数据库,中,中的数,据,据直接,加,加载到DW中,,,,而是,要,要进行,一,一系列,的,的处理,。,。,四、数,据,据的获,取,取,数据进,入,入数据,仓,仓库的,基,基本过,程,程 操,作,作数据,向,向数据,仓,仓库的,移,移动包,括,括以下,五,五个过,程,程:,五、设,计,计模型,的,的选择,数据仓,库,库是多,维,维数据,库,库,它,扩,扩展了,关,关系数,据,据库模,型,型,以,星,星形架,构,构为主,要,要结构,方,方式的,,,,并在,它,它的基,础,础上,,扩,扩展出,理,理论雪,花,花形架,构,构和数,据,据星座,等,等方式,,,,但不,管,管是哪,一,一种架,构,构,维,度,度表、,事,事实表,和,和事实,表,表中的,量,量度都,是,是必不,可,可少的,组,组成要,素,素。,逻辑模,型,型指数,据,据仓库,数,数据的,逻,逻辑表,现,现形式,。,。从最,终,终应用,的,的功能,和,和性能,的,的角度,来,来看,,数,数据仓,库,库的数,据,据逻辑,模,模型也,许,许是整,个,个项目,最,最重要,的,的方面,,,,需要,领,领域专,家,家的参,与,与。从,内,内容上,看,看,涉,及,及的方,面,面有确,立,立主题,域,域,粒,度,度层次,的,的划分,,,,确定,数,数据分,割,割策略,,,,关系,模,模式的,确,确定。,数据仓,库,库的逻,辑,辑设计,模,模型有,:,:第三,范,范式,,星,星型模,式,式,雪,花,花模式,,,,混合,模,模式,五、设,计,计模型,的,的选择,大多数,人,人在设,计,计中央,数,数据仓,库,库的逻,辑,辑模型,时,时,都,按,按照第,三,三范式,来,来设计;而在,进,进行物,理,理实施,时,时,则,由,由于数,据,据库引,擎,擎的限,制,制,不,得,得不对,逻,逻辑模,型,型进行,不,不规范,处,处理(De-Normalize),,以,以提,高,高系统,的,的响应,速,速度,,这,这当然,是,是以增,加,加系统,的,的复杂,度,度、维,护,护工作,量,量、磁,盘,盘使用,比,比率(指原,始,始数据,与,与磁盘,大,大小的,比,比率),并,并降低,系,系统执,行,行动态,查,查询能,力,力为代,价,价的。,动态查询具有较明显的交互性特征,即在一个问题答案的基础上进行进一步的探索,这种交互过程常称为数据挖掘或者知识探索,对于以第一种负载为主的部门数据集市,当数据量不大、报表较固定时可以采用星型模式;,对于中央数据仓库,考虑到系统的可扩展能力、投资成本和易于管理等多种因素,最好采用第三范式。,标准的,关,关系数,据,据表不,能,能满足,数,数据的,分,分析能,力,力,所,以,以对表,进,进行非,标,标准化,处,处理以,形,形成数,据,据仓库,中,中特有,的,的星形,架,架构方,式,式,但,这,这样一,来,来,如,果,果所有,的,的分析,维,维度都,作,作为事,实,实表的,一,一个直,接,接维度,,,,数据,的,的冗余,是,是相当,大,大的。,在,在星形,架,架构的,基,基础上,扩,扩展出,雪,雪花形,架,架构,,实,实质上,是,是在分,析,析查询,的,的性能,和,和数据,仓,仓库的,存,存储容,量,量两个,方,方面进,行,行权衡,的,的结果,。,。,下表比,较,较了两,种,种类型,的,的架构,差,差异。,只,只有明,确,确了这,些,些差异,,,,才能,在,在设计,数,数据仓,库,库时选,择,择最合,适,适的架,构,构方式,。,。,星 形,雪 花 形,行数,多,少,可读性,易,难,表格数量,少,多,搜索维的时间,快,慢,五、设,计,计模型,的,的选择,总结:,对于部,门,门数据,集,集市,,当,当数据,量,量不大,、,、报表,较,较固定,时,时可以,采,采用星,型,型模式;,对于企,业,业级数,据,据仓库,,,,考虑,到,到系统,的,的可扩,展,展能力,、,、投资,成,成本和,易,易于管,理,理等多,种,种因素,,,,最好,采,采用第,三,三范式,。,。,五、设,计,计模型,的,的选择,数据仓,库,库系统,的,的建设,作,作为一,个,个渐进,、,、迭代,的,的过程,,,,其发
展开阅读全文