资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,1,第五讲,数据仓库开发应用过程,5.1,数据仓库开发应用过程,5.2,数据仓库的规划,5.3,数据仓库的概念模型设计,5.4,数据仓库的逻辑模型设计,5.5,数据仓库的物理模型设计,5.6,数据仓库的实施,5.7,数据仓库的应用、支持和增强,练 习,2,数据仓库,开发过程,规划,分析阶段,5.1,数据仓库的螺旋式开发方法,设计,实施阶段,使用,维护阶段,3,5.2,数据仓库的规划,5.2.1,选择数据仓库实现策略,开发策略主要有:,自顶向下:实际应用比较困难,。,自底向上:用于一个数据集市或一个部门的数据仓库开发,,容易获得成功。,两种策略的联合使用,:能够快速地完成数据仓库的开发与应用,而且还可以建立具有长远价值的数据仓库方案。在实际使用中难以操作。,5.2.2,确定数据仓库的开发目标和实现范围,首要目标是确定所需要信息的范围,确定数据仓库在为用户提供决策帮助时,在主题和指标领域需要哪些数据源。,另一个重要目标是确定利用哪些方法和工具访问和导航数据?,其它目标是确定数据仓库内部数据的规模。,从用户的角度分析,从技术的角度分析,4,5.2.3,数据仓库的结构,1.,数据仓库的应用结构,基于业务处理系统的数据仓库,单纯数据仓库,单纯数据集市,数据仓库和数据集市,2.,数据仓库的技术平台结构,单层结构,客户,/,服务器两层结构,(C/S),三层客户,/,服务器,(B/W/S),多层式结构,5,5.2.4,数据仓库使用方案和项目规划预算,1.,实际使用方案还可以将最终用户的决策支持要求与数据仓库的技术要求联系起来,2.,开发方案的预算进行估计,3.,编制数据仓库开发说明书:,说明系统与企业战略目标的关系,系统与企业急需处理的、范围相对有限的开发机会。,业务机会的说明以及任务概况说明、重点支持的职能部门和今后工作的建议。,计划中需要阐明期望取得的有形和无形利益,业务价值计划最好由目标业务主管来完成,规划书中要确定数据仓库的开发目标实现范围、体系结构和使用方案及开发预算。,6,5.3,数据仓库的概念模型设计,概念模型的设计可以分为以下几个阶段:,用户需求调查、模型定义、模型分析和模型设计。,5.3.1,概念模型的需求调查,数据仓库开发的任务书,首先要明确用户的信息需求,了解管理人员在信息需求方面的内容,了解关于信息的来源,组织所使用的系统环境,7,5.3.2,概念模型的定义,1.,数据仓库用户的决策分析,2.,支持决策的数据需求分析,3.,数据需求分析工具,决策分析问题,客户购买商品趋势分析,需求信息类,日期,地点,商品,客户年龄组,客户经济状况,客户信用,需求信息,1,层,需求信息,2,层,需求信息,3,层,需求信息,4,层,需求信息,5,层,年,(4),季,(16),月,(48),国家,(15),省,(60),市,(200),街道,(2100),商店,(20000),商品种类,(7),商品小类,(40),商品,(220),年龄组(,8,),经济类(,10,),信用(,10,),8,4.CRUD,矩阵,实体,功能,客户,销售单,商品,销售代表,供货商,销售单输入,CRUD,CRUD,R,RU,RU,销售单处理,CRUD,CRUD,商品管理,R,R,RU,R,预算系统,R,R,R,RU,R,财务计算,RU,R,RU,R,R,库存控制,R,RU,CRUD,R,后勤,R,RU,R,RU,C,:,Create,产生、,R,:,Read,引用、,U,:,Update,更新,D,:,Delete,删除。,9,5.,企业业务处理系统数据存储表,Oracle,Sysbase,SQL Server,VFP,其它模式,销售单输入,销售单处理,商品管理,预算系统,(Excel),财务计算,库存控制,后勤,外部数据源,商品供应商,市场调查公司,10,5.3.3,概念模型的分析,客户变动信息,商品变动信息,客户号,商品固有信息,客户固有 信息,客户号,供应商号,开户日期,日期,销售数量,日期,商品号,商品,客户,销售,11,概念模型,的,的设计,经济,(,年收入,),100,万以上,10,万以上,1,万以上,1,万以下,地点,国家,省,市,销售,销售数量,销售价格,销售金额,时间,ID,地点,ID,商品,ID,年龄,60,岁以上,40,岁以上,30,岁以上,20,岁以上,20,岁以下,日期,年,月,日,商品,种类,ID,小类,ID,商品,ID,信用,10,万元以上,1,万元以上,1,千元以上,1,千元以下,0,元,12,经济,(,年收入,),100,万以上,10,万以上,1,万以上,地点,国家,省,市,销售,销售,ID,销售数量,销售价格,销售金额,时间,ID,地点,ID,商品,ID,年龄,60,岁以上,40,岁以上,30,岁以上,20,岁以上,20,岁以下,日期,年,月,日,商品,ID,种类,小类,商品,信用,10,万元以上,1,万元以上,1,千元以上,1,千元以下,0,元,商品,ID,生产厂家,进货价格,进货日期,客户,客户,ID,姓名,地址,电话,邮政编码,详细类别,表,表,13,概念模型,文,文档与评,审,审,1.,概念模型,设,设计文档,数据仓库,开,开发需求,分,分析报告,概念模型,分,分析报告,概念模型,概念模型,的,的评审报,告,告。,2.,概念模型,的,的评审,3.,概念模型,的,的评审人,员,员,4.,概念模型,的,的评审内,容,容,数据仓库,开,开发任务,书,书;用户,决,决策分析,信,信息需求,调,调查表;,数,数据仓库,主,主题;,E-R,图、星型,模,模型和雪,花,花模型。,14,5.4,数据仓库,的,的逻辑模,型,型设计,1.,数据仓库,的,的逻辑模,型,型设计任,务,务:,分析主题,域,域,确定,要,要装载到,数,数据仓库,的,的主题;,确定粒度,层,层次划分,;,;,确定数据,分,分割策略,;,;,关系模式,的,的定义和,记,记录系统,定,定义、确,定,定数据抽,取,取模型等,。,。,2.,逻辑模型,最,最终设计,成,成果:,每个主题,的,的逻辑定,义,义,并将,相,相关内容,记,记录在数,据,据仓库的,元,元数据中,粒度划分,数据分割,策,策略,表划分和,数,数据来源,等,等。,15,分析主题,域,域,主题名,公共码键,属性组,商,品,商品号,商品固有信息:商品号,商品名,类型,颜色等,商品采购信息:商品号,供应商号,供应价,供应日期,供应量等,商品库存信息:商品号,库房号,库存量,日期等,销,售,销售单号,销售单固有信息:销售单号,销售地址等,销售信息:客户号,商品号,销售价,销售量、销售时间等,客,户,客户号,客户固有信息:客户号,客户名,性别,年龄,文化程度,住址,电话等,客户经济息:客户号,年收入,家庭总收入等,16,粒度层次,和,和聚集的,确,确定,确定数据,分,分割策略,数据分割,标,标准,1.,数据量,2.,数据分析,处,处理的对,象,象,3.,粒度分割,的,的策略,关系模型,定,定义,17,数据仓库,的,的实体定,义,义,实体的逻,辑,辑分析,实体所有,列,列的具体,特,特征,列名,列的键属性,值来源,/,值域,完整性约束,类型与大小,Customer_Number,主键列、外部键列,来自客户实体的合法客户键列,没有客户键列,数据就不存在,Char(10),Order_Number,主键列、外部键列,来自销售单实体的合法键列,没有销售单键列,数据就不存在,Char(10),Product_Number,主键列、外部键列,来自商品实体的合法键列,没有商品键列,数据就不存在,Char(10),Product_Price,正的金额数,Money(float),18,数据仓库,的,的实体定,义,义,实体,容量,更新频率,Customer,中等容量,有,100,个重点客户,,2000,个跟踪客户,每月对客户情况进行一次分析,更新频率也为每月一次,Product,小容量,,500,种商品,大约有,500,种商品,商品的更新是每月一次,数据更新也照此。,Order_Detail,大容量,其上限是,354,,,000,,,000,,,000,,考虑到各种客户类型与各种商品的组合情况,一般很少达到。,数据每月汇总一次,但是业务处理系统的数据每日需要更新一次,因此更新频率为每日一次。,19,数据仓库,的,的数据抽,取,取模型,F1,数据抽取,规,规则,P2,清理数据,记,记录,F8,数据清理规则,F2KHCG,F5 CQLS_KHCG,F6 CQLS_KHCG,F7 SJCK_KHCG,P4,加载到数据仓库,F3SPQK,F4ZGYJ,P3,数据排序聚集,P1,抽取数据源记录,20,数据仓库,的,的数据抽,取,取模型,2.,数据仓库,的,的数据抽,取,取、转换,与,与加载计,划,划,(,1,)影响数,据,据抽取、,转,转换与加,载,载的因素,数据格式,坏数据,系统的兼,容,容性,数据源的,变,变化,数据抽取,的,的时间,(,2,)数据抽,取,取、转换,与,与加载对,策,策,全库比较,利用程序,日,日志,利用数据,库,库日志,利用时间,戳,戳或利用,位,位图索引,21,数据仓库,的,的数据抽,取,取模型,3.,数据仓库,的,的数据清,理,理转换方,法,法,(1),类型转换,(2),串操作,(3),数学函数,(4),参照完整,性,性,(5),关键字翻,译,译,(6),聚集运算,4.,数据仓库,的,的数据抽,取,取、清理,与,与转换模,型,型,22,数据仓库,的,的数据抽,取,取模型,数据平台,数据库,表名,备注,Windows/SQL Server,XSSJ,KHCG,客户采购商品表,Windows/SQL Server,XSSJ,SPQK,商品情况表,Windows/Access,RSGL,ZGYJ,职工业绩表,数据源抽,取,取对象表,23,数据仓库,的,的数据抽,取,取模型,数据源抽,取,取规则表,表,.,列名,过滤与连接条件,比较值,复合条件,备注,KHCG.CGSL,500,AND,采购商品数量大于,500,SPQK.SPID,AB,OR,商品前两位非,AB,24,数据仓库,的,的数据抽,取,取模型,数据抽取,的,的目标列,与,与源列对,应,应关系表,目标表,.,列,源表,.,列,转换公式,备注,SJCK_KHCG.KHZY,KHCG.KHZY,直接转换,客户职业,SJCK_KHCG.CGRQ,KHCG.CGRQ,将月,/,年,/,日的日期格式转换成年,/,月,/,日格式,客户采购日期,25,数据仓库,的,的数据抽,取,取模型,数据抽取,过,过程的排,序,序、概括,和,和导出情,况,况表,表,.,列名,排序,概括,/,导出,备注,CQLS_KHCG.CGSL,降序,分组,按照采购数量从大到小排序、按照日期进行分组,SJCK_KHCG.CGHZ,概括,对每一客户采购量按照星期分别进行概括处理,计算客户的采购总量,SJCK_KHCG.PJL,导出,对每一客户采购情况按照星期分别进行平均采购量计算,26,数据仓库,的,的数据抽,取,取模型,数据概括,表,表与事实,表,表对应关,系,系,概括表表,.,列名,是否导出,事实表,.,列名,备注,SPGKB.SP_ID,否,SPGYB.SP_ID,商品编号,SPGKB.GYS_ID,否,SPGYB.GYS_ID,供应商编号,SPGKB.SPGYZSL,是,SPGYB.SPGYL,商品供应总量,按照供应商编号对供应数量求和,SPGKB.SPGYZJE,是,SPGYB.SPGYJE,商品供应总金额,按照供应商编号对供应商品的金额进行汇总,27,数据仓库
展开阅读全文