资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,#,第3章 数据仓库设计,3l,数,数据仓,库,库中数,据,据模型,概,概述,31,1数,据,据模型,的,的概念,Grace,Female,Students,Students&Courses,个体,特性,整体,整体间联系,概念世界,实体,属性,同质总体,异质总体,计算机世界,记录,字段,表文件,数据库,图3-1 现实世界到计算机世界的演化过程,现实世界,逻辑世界,图3-2 数,据,据模型,关,关系,现实世界,概念模型,逻辑模型,物理模型,数据仓库,粒度模型,元数据模型,31,2数,据,据仓库,模,模型构,建,建的原,则,则,1满,足,足不同,用,用户的,需,需求,2兼,顾,顾效率,与,与数据,粒,粒度的,需,需要,3支,持,持需求,的,的变化,4避,免,免对业,务,务运营,系,系统造,成,成影响,5考,虑,虑未来,的,的可扩,展,展性,31,3企,业,业数据,模,模型,图3-3分层,数,数据模,型,型,目标、结构,业务数据分类,概念数据模型,逻辑应用视图,物理数据库设计,抽象,具体,总体,分步,32,概,概念模,型,型设计,32,l企,业,业模型,的,的建立,1E,-,-R模,型,型的概,念,念模型,设,设计过,程,程,图3-4E-R,模,模型的,概,概念模,型,型设计,过,过程,任务和环境评估,需求的收集分析,主题选取,确定主题间关系,容描述主题内,E-R图,对主题,的,的选择,进,进行调,整,整,2E,-,-R模,型,型设计,中,中的一,些,些说明,(1),模,模糊性,:,:无法,表,表述数,据,据仓库,中,中各数,据,据间的,关,关系,,比,比如:,分,分析数,据,据,描,述,述数据,和,和细节,数,数据间,的,的关系,;,;,(2),静,静态性,:,:时间,参,参数的,存,存在及,作,作用无,法,法体现,;,;,(3),局,局限性,:,:无法,揭,揭示数,据,据仓库,中,中数据,的,的导出,关,关系。,为了规,避,避这些,不,不足,,在,在E-R图法,中,中,实,体,体被分,为,为事实,实,实体(Fact Entity),,,,维度,实,实体(DimensionEntity),引,引用实,体,体(QuotationEntity,),),用,图,图3-5中的,图,图形分,别,别表示,:,:,事实实体,维度实体,引用实体,图3-5 E-R图中各实体符号,32,2数,据,据模型,的,的规范,表3-1,数,数据仓,库,库数据,与,与普通,数,数据库,系,系统数,据,据的对,比,比,数据仓库的数据,普通数据库系统的数据,长期框架,短期框架,静态,快速变化(动态),数据一般是汇总的,记录级的访问,特殊查询访问,标准查询访问,定期更新,实时更新,数据驱动,时间驱动,32,3常,见,见的概,念,念模型,1.星,形,形模型,事实表,维度表,维度表,维度表,维度表,维度表,维度表,图3-8 星形模型结构示意图,2.雪,花,花模型,详细类别表,事实表,维度表,维度表,维度表,维度表,维度表,维度表,详细类别表,图3-10雪花模型示例,3.,事,事实星,座,座模型,这种模,型,型用于,更,更为复,杂,杂的情,况,况。它,的,的中心,不,不只一,个,个中心,,,,而是,由,由多个,中,中心组,成,成,即,存,存在多,个,个事实,表,表,而,每,每个事,实,实表拥,有,有自己,的,的一组,维,维度表,,,,这些,维,维度表,又,又有可,能,能共享,一,一个事,实,实表,,形,形成一,个,个交叉,,,,复杂,的,的关系,网,网络。,但,但是这,种,种模型,在,在实践,中,中运用,较,较少。,33,逻,逻辑模,型,型设计,中间层逻辑模型,中间层逻辑模型,中间层逻辑模型,中间层逻辑模型,中间层逻辑模型,图3-11 高层概念模型与逻辑模型的关系,超类型,子类型,初始数据组,连接数据组,二次数据组,类型数据组,图3-12 逻辑模型中四种基本结构,33,l概,念,念模型,到,到逻辑,数,数据模,型,型的转,换,换,下面我,们,们以这,个,个例子,为,为基础,来,来介绍,一,一下概,念,念模型,是,是如何,向,向星形,模,模型转,化,化的。,首,首先,,我,我们了,解,解一下,星,星形模,型,型的设,计,计步骤,:,:,1确,定,定决策,需,需求分,析,析,2从,需,需求中,识,识别出,事,事实,3确,定,定维,4确,定,定数据,汇,汇总的,水,水平,5设,计,计事实,表,表和维,度,度表,6检,验,验设计,方,方案的,有,有效性,(,(DBMS和,分,分析用,户,户工具,),),7设,计,计方案,随,随需求,变,变化而,改,改动,33,2数,据,据表的,规,规范化,与,与分割,前面我,们,们已经,介,介绍过,了,了什么,是,是依赖,,,,下面,把,把数据,表,表规范,化,化过程,简,简单归,纳,纳如下,:,:,除去函,数,数依赖,的,的数据,表,表中的,无,无关的,列,列;,移动可,以,以由某,些,些函数,依,依赖推,导,导出的,函,函数依,赖,赖;,按相同,的,的决定,因,因素重,排,排函数,依,依赖;,对每个,函,函数依,赖,赖组,,用,用决定,因,因素作,为,为主关,键,键字造,表,表;,合并包,含,含其他,表,表的所,有,有列:,选,选择其,中,中一个,独,独立表,的,的主关,键,键字作,为,为合并,后,后表的,主,主关键,字,字;给,不,不作为,新,新表的,主,主关键,字,字的其,他,他主关,键,键字定,义,义唯,33,3维,度,度表的,设,设计,维度表,的,的设计,是,是对事,实,实表的,进,进一步,细,细化。,它,它也要,根,根据逻,辑,辑模型,来,来设计,。,。每个,事,事实表,都,都需要,大,大量的,数,数据来,对,对其属,性,性和细,节,节进行,详,详细说,明,明,而,维,维度表,就,就是将,这,这些详,细,细说明,的,的数据,按,按其逻,辑,辑关系,存,存放的,工,工具。,一,一个维,度,度表拥,有,有很多,属,属性,,这,这些属,性,性可以,是,是文字,,,,离散,值,值和有,规,规定的,限,限制,,在,在分析,过,过程中,可,可以作,为,为信息,的,的行标,题,题。,需要注,意,意的是,,,,在设,计,计事实,表,表和维,度,度表之,间,间的关,系,系时,,尽,尽量让,维,维度表,中,中的数,据,据直接,参,参考事,实,实表中,的,的数据,,,,而不,是,是通过,其,其他维,度,度表间,接,接参考,事,事实表,。,。这样,,,,可以,最,最小化,表,表之间,的,的连接,数,数量,,减,减少系,统,统CPU和I,/,/O通,道,道及存,储,储设备,的,的负担,。,。,33,4事,实,实表的,设,设计,事实表,是,是星形,模,模型的,核,核心。,它,它一般,包,包含两,部,部分:,键,键和详,细,细指标,。,。其中,,,,键又,分,分为主,键,键和外,键,键,它,们,们将各,维,维表组,织,织起来,,,,共同,满,满足用,户,户的查,询,询需求,,,,而详,细,细指标,则,则是记,录,录在事,实,实表中,的,的具体,数,数据,,供,供查询,使,使用。,33,5数,据,据集市,设,设计,独立数据集市,用户,图3-18 独立型数据集市结构,从属型,数,数据集,市,市结构,如,如图3,-,-19,所,所示,从属数据集市,图3-19 从属型数据集市结构,33,物,物理模,型,型设计,定,义,数,据,存,储,结,构,RAID0,数据带状分布在多个磁盘上,无冗余。,高性能,低成本,但磁盘损坏导致整个磁盘整列无法使用。,RAID1,磁盘镜像,数据写入成对的冗余驱动器。,可读性能高,可靠性高,昂贵。,RAID2,数据按位或块交错分布,校验码由额外驱动器存储。,高性能,纠错一位,验错两位,昂贵。,RAID3,数据按位或块交错存储,一个驱动器存储校验数据。,对大块数据性能较高,不支持运行恢复。,RAID4,数据按扇区交错存储,校验数据由专门驱动器存储。,处理多个系统的I/O操作,两个驱动器。,RAID5,数据按扇区交错存储于多个驱动器。,不需专门的校验驱动器,需要两个或三个驱动器,,写入能力弱。,图3-20 RAID 技术,索引策,略,略,20020701001-20020701050,20020701051-20020701100,20020701001-20020701025,20020701026-20020701050,20020701051-20020701070,20020701071-20020701100,20020701001,20020701002,20020701026,20020701027,20020701051,20020701070,20020701071,20020701072,图3-21 B-TREE索引示例,20020701026地址,20020701027地址,地址,指向数据行的指针,数据存,储,储策略,物理模,型,型设计,过,过程中,,,,要注,意,意考虑,数,数据存,储,储。因,为,为,数,据,据仓库,不,不要求,把,把同一,主,主题的,数,数据放,在,在同一,介,介质上,,,,所以,我,我们可,以,以根据,数,数据的,重,重要程,度,度,使,用,用频率,和,和响应,时,时间来,存,存放数,据,据,一,般,般而言,,,,将那,些,些重要,程,程度高,,,,使用,频,频率高,和,和响应,时,时间要,求,求高的,数,数据存,放,放在高,速,速存储,设,设备上,,,,比如,:,:硬盘,,,,而其,它,它的数,据,据则可,以,以放在,低,低速存,储,储设备,上,上,比,如,如磁盘,等,等。,存储分,配,配优化,1设,定,定正确,的,的块大,小,小,2设,置,置适当,的,的块使,用,用参数,3数,据,据迁移,管,管理,4块,使,使用管,理,理,5解,决,决动态,扩,扩展,6采,用,用文件,分,分带技,术,术,数据加,载,载设计,数据仓,库,库要求,的,的一个,重,重要技,术,术就是,能,能高效,地,地载入,数,数据。,有,有两种,方,方式:,通,通过一,个,个语言,接,接口一,次,次载入,一,一条记,录,录或使,用,用一种,工,工具全,体,体批量,地,地装入,。,。注意,,,,在装,载,载数据,时,时,索,引,引也必,须,须随之,装,装入。,若,若数据,装,装载的,容,容量负,荷,荷太大,的,的情况,下,下,可,以,以采用,并,并行装,载,载。它,将,将数据,分,分为几,个,个工作,流,流,这,样,样所需,时,时间就,大,大大降,低,低。此,外,外,还,有,有一种,高,高效装,载,载方法,是,是在装,载,载前先,对,对数据,进,进行缓,冲,冲处理,。,。这种,方,方法一,般,般在数,据,据量大,且,且复杂,程,程度高,的,的情况,下,下使用,。,。,物理模,型,型的设,计,计对数,据,据仓库,性,性能的,影,影响,在物理,模,模型的,设,设计阶,段,段,同,时,时也要,考,考虑数,据,据仓库,性,性能。,为,为了兼,顾,顾数据,仓,仓库性,能,能,我,们,们在这,个,个阶段,应,应从以,下,下几个,方,方面入,手,手:,合理控,制,制数据,规,规范化,程,程度,,主,主要方,法,法有:,表,表的归,并,并,允,许,许数据,冗,冗余;,存储策,略,略,主,要,要有:,服,服务器,的,的数据,分,分散存,储,储,磁,盘,盘级的,存,存储优,化,化;,RAID技术,;,;,科学的,索,索引方,法,法,主,要,要有B,-,-TREE索,引,引,位,图,图索引,等,等;,合理控,制,制数据,粒,粒度;,合理的,数,数据。,34,元,元数据,模,模型,为了让,读,读者能,更,更准确,的,的了解,什,什么是,元,元数据,,,,我们,用,用下例,进,进行说,明,明,它,定,定义了,数,数据仓,库,库中的,一,一个表,,,,如表3-3
展开阅读全文