数据仓库的规划

上传人:仙*** 文档编号:244321924 上传时间:2024-10-03 格式:PPT 页数:48 大小:383KB
返回 下载 相关 举报
数据仓库的规划_第1页
第1页 / 共48页
数据仓库的规划_第2页
第2页 / 共48页
数据仓库的规划_第3页
第3页 / 共48页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第,3,章,数据仓库开发应用过程,数据仓库的开发应用像生物一样具有其特有的、完整的生命周期,数据仓库的开发应用周期可以分成:数据仓库规划分析阶段、数据仓库设计实施阶段以及数据仓库的使用维护三个阶段。,这三个阶段是一个不断循环、完善、提高的过程。在一般情况下数据仓库系统不可能在一个循环过程中完成,而是经过多次循环开发,每次循环都会为系统增加新的功能,使数据仓库的应用得到新的提高。,本章学习目标:,(1),了解数据仓库开发应用的特点。,(2),掌握数据仓库的规划、数据仓库的概念模型设计、数据仓库的逻辑模型设计、数据仓库的物理模型设计 和数据仓库的实施。,(3),了解数据仓库的应用、支持和增强。,数据仓库开发应用过程,3.1,数据仓库开发应用过程,3.2,数据仓库的规划,3.3,数据仓库的概念模型设计,3.4,数据仓库的逻辑模型设计,3.5,数据仓库的物理模型设计,3.6,数据仓库的实施,3.7,数据仓库的应用、支持和增强,练 习,3.1,数据仓库开发应用的特点,3.1.1,数据仓库开发应用的阶段性,数据仓库的开发应用过程划分为:,创始阶段,成长阶段,控制阶段,成熟阶段,3.1.2,数据仓库的螺旋式开发方法,设计体系结构,开发概念模型,开发逻辑模型,数据库与元数据设计,数据抽取转换与加载,开发中间件,填充与测试数据仓库,数据仓库应用,数据仓库维护,数据仓库评价,规划与确定需求,规划,分析阶段,数据仓库,开发过程,设计实施,使用维护阶段 阶段,3.2,数据仓库的规划,3.2.1,选择数据仓库实现策略,开发策略主要有:,自顶向下:实际应用比较困难,。,自底向上:用于一个数据集市或一个部门的数据仓库开发,,容易获得成功。,两种策略的联合使用,:能够快速地完成数据仓库的开发与应用,而且还可以建立具有长远价值的数据仓库方案。在实际使用中难以操作。,3.2.2,确定数据仓库的开发目标和实现范围,首要目标是确定所需要信息的范围,确定数据仓库在为用户提供决策帮助时,在主题和指标领域需要哪些数据源。,另一个重要目标是确定利用哪些方法和工具访问和导航数据?,其它目标是确定数据仓库内部数据的规模,从用户的角度分析,从技术的角度分析,3.2.3,数据仓库的结构,1.,数据仓库的应用结构,基于业务处理系统的数据仓库,单纯数据仓库,单纯数据集市,数据仓库和数据集市,2.,数据仓库的技术平台结构,单层结构,客户,/,服务器两层结构,三层客户,/,服务器,多层式结构,3.2.4,数据仓库使用方案和项目规划预算,实际使用方案还可以将最终用户的决策支持要求与数据仓库的技术要求联系起来,开发方案的预算进行估计,编制数据仓库开发说明书:,说明系统与企业战略目标的关系,系统与企业急需处理的、范围相对有限的开发机会。,业务机会的说明以及任务概况说明、重点支持的职能部门和今后工作的建议。,计划中需要阐明期望取得的有形和无形利益,业务价值计划最好由目标业务主管来完成,规划书中要确定数据仓库的开发目标实现范围、体系结构和使用方案及开发预算。,http:/www.lvfangguan.org,3.3,数据仓库的概念模型设计,概念模型的设计可以分为以下几个阶段:用户需求调查、模型定义、模型分析和模型设计。,3.3.1,概念模型的需求调查,数据仓库开发的任务书,首先要明确用户的信息需求,了解管理人员在信息需求方面的内容,了解关于信息的来源,组织所使用的系统环境,3.3.2,概念模型的定义,1.,数据仓库用户的决策分析,2.,支持决策的数据需求分析,3.,数据需求分析工具,决策分析问题,客户购买商品趋势分析,需求信息类,日期,地点,商品,客户年龄组,客户经济状况,客户信用,需求信息,1,层,需求信息,2,层,需求信息,3,层,需求信息,4,层,需求信息,5,层,年,(4),季,(16),月,(48),国家,(15),省,(60),市,(200),街道,(2100),商店,(20000),商品种类,(7),商品小类,(40),商品,(220),年龄组(,8,),经济类(,10,),信用(,10,),3.3.2,概念模型的定义,4.CRUD,矩阵,实体,功能,客户,销售单,商品,销售代表,供货商,销售单输入,CRUD,CRUD,R,RU,RU,销售单处理,CRUD,CRUD,商品管理,R,R,RU,R,预算系统,R,R,R,RU,R,财务计算,RU,R,RU,R,R,库存控制,R,RU,CRUD,R,后勤,R,RU,R,RU,C,:,Create,产生、,R,:,Read,引用、,U,:,Update,更新,D,:,Delete,删除。,3.3.2,概念模型的定义,5.,企业业务处理系统数据存储表,Oracle,Sysbase,SQL Server,VFP,其它模式,销售单输入,销售单处理,商品管理,预算系统,(Excel),财务计算,库存控制,后勤,外部数据源,商品供应商,市场调查公司,3.3.3,概念模型的分析,客户变动信息,商品变动信息,客户号,商品固有信息,客户固有 信息,客户号,供应商号,开户日期,日期,销售数量,日期,商品号,商品,客户,销售,3.3.4,概念模型的设计,经济,(,年收入,),100,万以上,10,万以上,1,万以上,1,万以下,地点,国家,省,市,销售,销售数量,销售价格,销售金额,时间,ID,地点,ID,商品,ID,年龄,60,岁以上,40,岁以上,30,岁以上,20,岁以上,20,岁以下,日期,年,月,日,商品,种类,ID,小类,ID,商品,ID,信用,10,万元以上,1,万元以上,1,千元以上,1,千元以下,0,元,经济,(,年收入,),100,万以上,10,万以上,1,万以上,地点,国家,省,市,销售,销售,ID,销售数量,销售价格,销售金额,时间,ID,地点,ID,商品,ID,年龄,60,岁以上,40,岁以上,30,岁以上,20,岁以上,20,岁以下,日期,年,月,日,商品,ID,种类,小类,商品,信用,10,万元以上,1,万元以上,1,千元以上,1,千元以下,0,元,商品,ID,生产厂家,进货价格,进货日期,客户,客户,ID,姓名,地址,电话,邮政编码,3.3.5,概念模型文档与评审,1.,概念模型设计文档,数据仓库开发需求分析报告,概念模型分析报告,概念模型,概念模型的评审报告。,2.,概念模型的评审,3.,概念模型的评审人员,4.,概念模型的评审内容,数据仓库开发任务书;用户决策分析信息需求调查表;数据仓库主题;,E-R,图、星型模型和雪花模型。,3.4,数据仓库的逻辑模型设计,数据仓库的逻辑模型设计任务:,分析主题域,确定要装载到数据仓库的主题;,确定粒度层次划分;,确定数据分割策略;,关系模式的定义和记录系统定义、确定数据抽取模型等。,逻辑模型最终设计成果:,每个主题的逻辑定义,并将相关内容记录在数据仓库的元数据中,粒度划分,数据分割策略,表划分和数据来源等。,3.4.1,分析主题域,主题名,公共码键,属性组,商,品,商品号,商品固有信息:商品号,商品名,类型,颜色等,商品采购信息:商品号,供应商号,供应价,供应日期,供应量等,商品库存信息:商品号,库房号,库存量,日期等,销,售,销售单号,销售单固有信息:销售单号,销售地址等,销售信息:客户号,商品号,销售价,销售量、销售时间等,客,户,客户号,客户固有信息:客户号,客户名,性别,年龄,文化程度,住址,电话等,客户经济息:客户号,年收入,家庭总收入等,3.4.2,粒度层次和聚集的确定,3.4.3,确定数据分割策略,数据分割标准,1.,数据量,2.,数据分析处理的对象,3.,粒度分割的策略,3.4.4,关系模型定义,3.4.5,数据仓库的实体定义,实体的逻辑分析,实体所有列的具体特征,列名,列的键属性,值来源,/,值域,完整性约束,类型与大小,Customer_Number,主键列、外部键列,来自客户实体的合法客户键列,没有客户键列,数据就不存在,Char(10),Order_Number,主键列、外部键列,来自销售单实体的合法键列,没有销售单键列,数据就不存在,Char(10),Product_Number,主键列、外部键列,来自商品实体的合法键列,没有商品键列,数据就不存在,Char(10),Product_Price,正的金额数,Money(float,),3.4.5,数据仓库的实体定义,实体,容量,更新频率,Customer,中等容量,有,100,个重点客户,,2000,个跟踪客户,每月对客户情况进行一次分析,更新频率也为每月一次,Product,小容量,,500,种商品,大约有,500,种商品,商品的更新是每月一次,数据更新也照此。,Order_Detail,大容量,其上限是,354,,,000,,,000,,,000,,考虑到各种客户类型与各种商品的组合情况,一般很少达到。,数据每月汇总一次,但是业务处理系统的数据每日需要更新一次,因此更新频率为每日一次。,3.4.6,数据仓库的数据抽取模型,F1,数据抽取规则,P2,清理数据记录,F8,数据清理规则,F2KHCG,F5 CQLS_KHCG,F6 CQLS_KHCG,F7 SJCK_KHCG,P4,加载到数据仓库,F3SPQK,F4ZGYJ,P3,数据排序聚集,P1,抽取数据源记录,3.4.6,数据仓库的数据抽取模型,2.,数据仓库的数据抽取、转换与加载计划,(,1,)影响数据抽取、转换与加载的因素,数据格式,坏数据,系统的兼容性,数据源的变化,数据抽取的时间,(,2,)数据抽取、转换与加载对策,全库比较,利用程序日志,利用数据库日志,利用时间戳或利用位图索引,3.4.6,数据仓库的数据抽取模型,3.,数据仓库的数据清理转换方法,(1),类型转换,(2),串操作,(3),数学函数,(4),参照完整性,(5),关键字翻译,(6),聚集运算,4.,数据仓库的数据抽取、清理与转换模型,3.4.6,数据仓库的数据抽取模型,数据平台,数据库,表名,备注,Windows/SQL Server,XSSJ,KHCG,客户采购商品表,Windows/SQL Server,XSSJ,SPQK,商品情况表,Windows/Access,RSGL,ZGYJ,职工业绩表,数据源抽取对象表,3.4.6,数据仓库的数据抽取模型,数据源抽取规则表,表,.,列名,过滤与连接条件,比较值,复合条件,备注,KHCG.CGSL,500,AND,采购商品数量大于,500,SPQK.SPID,AB,OR,商品前两位非,AB,3.4.6,数据仓库的数据抽取模型,数据抽取的目标列与源列对应关系表,目标表,.,列,源表,.,列,转换公式,备注,SJCK_KHCG.KHZY,KHCG.KHZY,直接转换,客户职业,SJCK_KHCG.CGRQ,KHCG.CGRQ,将月,/,年,/,日的日期格式转换成年,/,月,/,日格式,客户采购日期,3.4.6,数据仓库的数据抽取模型,数据抽取过程的排序、概括和导出情况表,表,.,列名,排序,概括,/,导出,备注,CQLS_KHCG.CGSL,降序,分组,按照采购数量从大到小排序、按照日期进行分组,SJCK_KHCG.CGHZ,概括,对每一客户采购量按照星期分别进行概括处理,计算客户的采购总量,SJCK_KHCG.PJL,导出,对每一客户采购情况按照星期分别进行平均采购量计算,3.4.6,数据仓库的数据抽取模型,数据概括表与事实表对应关系,概括表表,.,列名,是否导出,事实表,.,列名,备注,SPGKB.SP_ID,否,SPGYB.SP_ID,商品编号,SPGKB.GYS_ID,否,SPGYB.GYS_ID,供应商编号,SPGKB.SPGYZSL,是,SPGYB.SPGYL,商品供应总量,按照供应商编号对供应数量求和,SPGKB.SPGYZJE,是,SPGYB.SPGYJE,商品供应总金额,按照供应商编号对供应商品的金额进行汇总,3.4.7,数据
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!