数据仓库设计技巧

上传人:313****321 文档编号:253074118 上传时间:2024-11-28 格式:PPTX 页数:44 大小:1.19MB
返回 下载 相关 举报
数据仓库设计技巧_第1页
第1页 / 共44页
数据仓库设计技巧_第2页
第2页 / 共44页
数据仓库设计技巧_第3页
第3页 / 共44页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,商业智能核心技术与应用,数据仓库,设计,数据仓库的基本概念,数据仓库是面向主题的、集成的、稳定的、随时间不断变化的数据库系统。它介于数据源与多维数据库之间,起到承上启下的作用。,数据仓库是通过对来自不同的数据源进行统一处理及管理,通过灵活的展现方法来帮助决策支持。,数据源,数据仓库,决策,数据仓库的设计理念,在设计仓库数据库之初把用户的分析需求纳入考虑范围是十分有必要的。同时,数据仓库的构建必需基于业务数据库,业务数据源的结构也是不得不考虑的问题。因此在设计数据仓库的时候,应该坚持用户驱动与数据驱动相结合的设计理念。,业务数据模型设计的设计范式,1NF,如果一个表中没有重复组(即行与列的交叉点上只有一个值,而不是一组值),且定义了关键字、所有 非关键属性都依赖于关键字,则这个表属于第一范式(常记成,1NF,),2NF,如果一个表属于,1NF,,且不包含部分依赖性,既没有任何属性只依赖于关键字的一部分,则这个表属于第二范式(常记成,2NF,)。,3NF,如果一个表属于,2NF,,且不包含传递依赖性(即没有一个非关键属性依赖于另一个非关键属性,或者说没有一个非关键属性决定另一个非关键属性),则这个表是第三范式(常记成,3NF,)。,业务数据模型设计的,ER,图表示,ER,模型(实体联系模型)简称,ER,图。它是描述概念世界,建立概念模型的实用工具。,ER,图包括三个要素:实体、属性、实体之间的联系,联系归结为三种类型:,一对一联系(,1:1,),设,A,、,B,为两个实体集。若,A,中的每个实体至多和,B,中的一个实体有联系,反过来,,B,中的每个实体至多和,A,中的一个实体有联系,称,A,对,B,或,B,对,A,是,1:1,联系。,一对多联系(,1:n,),如果,A,实体集中的每个实体可以和,B,中的几个实体有联系,而,B,中的每个实体至我和,A,中的一个实体有联系,那么,A,对,B,属于,1:n,联系。,多对多联系(,m:n,),若实体集,A,中的每个实体可与和,B,中的多个实体有联系,反过来,,B,中的每个实体也可以与,A,中的多个实体有联系,称,A,对,B,或,B,对,A,是,m:n,联系。,多对,多联系举例,统计特征,Fat,Lean,Ugly,Wealthy,统计特征,客户,客户统计特征,销售,Fact,客户,统计特征,John,Fat,Richard,Lean,John,Ugly,Richard,Wealthy,客户,John,Richard,Cristian,客户,销售额,John,1.0,Richard,3.0,Cristian,10.0,每个统计特征对销售人员来说是怎么样的呢?,统计特征,销售额,All Demographics,14.0,Fat,1.0,Lean,3.0,Ugly,1.0,Wealthy,3.0,数据仓库模型设计最佳实践,数据仓库模型设计主要分三个阶段:,1,、概念设计,2,、逻辑设计,3,、详细设计,并分别产生三类设计模型,1,、主题域模型,2,、业务数据模型,3,、物理模型,数据仓库模型设计采用迭代式开发,这一点也符合数据仓库系统迭代开发的特点。它具有较好的灵活性和易变性,适应于主题不明确或不确定的需求。,概念设计,数据仓库是面向主题来组织数据,一个数据仓库有若干个主题,而每个主题又有一个数据集合体做支撑,这个数据集合称为主题域。,概念设计的中心工作是在需求分析基础上设计的主题域模型。主体域模型是客观到主观之间的桥梁,是与硬件环境、软件选择无关的数据抽象模型,是为下一步建立业务数据模型、物理模型服务的概念性工具。,主题,域具有两个,特性,1,、独立性,即主题域具有明确的边界与独立的内涵,虽然主题间可以有交叉,但不影响其独立性,。,2,、完备性,即每个主题的分析要求所需的数据均应能在主题域中得到。采用概念数据模型设计就是要设计主题域的数据结构。,数据仓库项目的主题域模型示例,逻辑设计,逻辑设计设,计,计到的知识,点,点包括:,业务数据模,型,型设计的建,模,模对象应包,含,含实体、属,性,性、关键字,和,和联系。,业务数据模,型,型设计应该,遵,遵守规范化,准,准则:即第,三,三范式设计,准,准则。,业务数据模,型,型的,ER,图表示法。,逻辑设计的,中,中心工作是,设,设计业务数,据,据模型,业,务,务数据模型,是,是用具体的,软,软件结构来,实,实现概念数,据,据模型。,目前数据仓,库,库一般是建,立,立在关系数,据,据库基础上,,,,因此数据,仓,仓库的设计,中,中采用的业,务,务数据模型,就,就是关系模,型,型。,业务数据模,型,型设计的建,模,模对象,实体,我们把客观,存,存在并且可,以,以相互区别,的,的事物称为,实,实体。实体,可,可以是实际,事,事物,也可,以,以是抽象事,件,件。,属性,描述实体的,特,特性称为属,性,性。,关键字,如果某个属,性,性值能唯一,地,地标识出实,体,体集中的每,一,一个实体,,可,可以选作关,键,键字。,联系,实体集之间,的,的对应关系,称,称为联系,,它,它反映现实,世,世界事物之,间,间的相互关,联,联。联系分,为,为两种,一,种,种是实体内,部,部各属性之,间,间的联系。,另,另一种是实,体,体之间的联,系,系。,逻辑设计方,法,法,定义实体,主题域,主题,实体,粒度,类型,说明,生皮,分选,物料,物料,物料代码,唯一标识每种物料,维度,物料,分类,物料分类代码,唯一标识每种物料分类,维度,分选,结果,分选,结果,物料代码,*,仓库,*,供应商,*,产地,*,皮种,量度组,逻辑设计方,法,法,定义实体,层,层级,日,月,季,年,物料,物料分类,供应商,逻辑设计方,法,法,定义量度,组,组,主题域,量度组,量度,聚合,计算公式,说明,生皮,分选,分选,结果,分选,结果数量,累加,财务,员工,员工工资,平均,逻辑设计方,法,法,定义关系,主题,实体,采购,分选结果,预算,日期,日,*,*,月,*,季,年,物料,物料,*,*,物料分类,逻辑设计的,关,关键因素,粒度,特例,详细设计,物理模型是,从,从业务数据,模,模型创建而,来,来的,建立,物,物理模型通,过,过扩展业务,数,数据模型,,使,使模型中包,含,含关键字和,物,物理特性。,物理模型设,计,计包括:,设计存储结,构,构,创建实体,设计索引策,略,略,创建索引,设计存储策,略,略,创建分区,设计存储结,构,构,创建实体,创建物理实,体,体,表,视图,约束,创建事实表,只包括主键,、,、外键和度,量,量,事实表,一个,OLAP,模型可以有,多,多个事实表,事实表经常,有,有,millions of rows,事实往往是,数,数字,量度,有些事实可,以,以被累加,,另,另一些不能,最小粒度原,则,则,不欢迎描述,性,性属性(,瘦,瘦高,vs.,矮胖),创建维度表,维度描述事,实,实,逻辑上通过,key,关联,维度表往往,包,包含相当多,的,的属性,典型的属性,是,是文本的、,离,离散的,维度往往含,有,有层次,主键往往是,系,系统产生的,primary key,很可能是共,享,享的,维度表设计,常规维度,主键,代理键(可,选,选),名称,排序键(可,选,选),自定义汇总,公,公式(可选,),),父子维度,父键,一元运算符,(,(可选),数据仓库的,星,星型结构,Employee_Dim,EmployeeKey,EmployeeID,.,.,.,EmployeeKey,Time_Dim,TimeKey,TheDate,.,.,.,TimeKey,Product_Dim,ProductKey,ProductID,ProduceName,ProductBrand,ProductCategory,.,.,.,ProductKey,Customer_Dim,CustomerKey,CustomerID,.,.,.,CustomerKey,Shipper_Dim,ShipperKey,ShipperID,.,.,.,ShipperKey,Sales_Fact,TimeKey,EmployeeKey,ProductKey,CustomerKey,ShipperKey,Units,Price,.,.,.,TimeKey,CustomerKey,ShipperKey,ProductKey,EmployeeKey,多个外键,事实,维度键,数据仓库的,雪,雪花型结构,二级维度表,Sales_Fact,TimeKey,EmployeeKey,ProductKey,CustomerKey,ShipperKey,Units,Price,.,.,.,Product_Brand_Id,ProductBrand,ProductCategoryID,Product_Category_Id,ProductCategory,ProductCategoryID,Product_Dim,ProductKey,ProductName,ProductSize,ProductBrandID,主维,度,度表,雪花,型,型结,构,构的,特,特点,节省,存,存储,空,空间,一定,程,程度,上,上的,范,范式,星型,vs.,雪花,型,型,Whichoneisbetter?,长期,以,以来,的,的争,论,论,两种,观,观点,各,各有,支,支持,者,者,争论,在,在继,续,续,目前,看,看来,,,,大,部,部分,更,更加,倾,倾向,于,于星,型,型,支持,星,星型,维,维度,的,的论,点,点,事实,表,表总,会,会是,很,很大,的,的,,在,在维,度,度表,上,上节,省,省的,空,空间,相,相对,来,来说,是,是很,小,小的,增加,了,了数,据,据模,型,型的,复,复杂,度,度,查询,操,操作,概,概念,上,上更,复,复杂,了,了,从数,据,据仓,库,库到,多,多维,数,数据,库,库的,加,加载,时,时间,会,会更,长,长,因此,,,,只,有,有当,维,维度,表,表极,大,大,,存,存储,空,空间,是,是个,问,问题,时,时,,才,才考,虑,虑雪,花,花型,维,维度,简而,言,言之,,,,最,好,好就,用,用星,型,型维,度,度即,可,可,支持,雪,雪花,型,型维,度,度的,论,论点,从数,据,据仓,库,库到,多,多维,数,数据,库,库的,加,加载,过,过程,中,中,,雪,雪花,型,型维,度,度的,效,效率,更,更高,。,。,雪花,型,型维,度,度描,述,述了,更,更清,晰,晰的,层,层次,概,概念,。,。,只有,当,当最,终,终用,户,户可,能,能直,接,接访,问,问数,据,据仓,库,库时,才,才考,虑,虑星,型,型。,(,(而,这,这是,不,不被,建,建议,的,的),。,。,思考,:,:,PrimaryKey,与,Key,Primary Key,key,Name,Color,Size,Description,1,A001,捷达,银灰,2,B003,宝马,火红,.,3,C010,切诺基,宝石蓝,本身,已,已经,有,有了,Key,的标,识,识以,后,后,,是,是否,还,还需,要,要,PrimaryKey?,技巧,:,:创,建,建数,字,字主,键,键,数字,之,之间,的,的比,较,较永,远,远比,字,字符,比,比较,快,快得,多,多。,物理,存,存储,时,时,,数,数字,简,简单,得,得多,,,,因,为,为它,们,们长,度,度一,样,样。,字,字符,则,则不,同,同。,内存,中,中,,字,字符,占,占的,空,空间,大,大得,多,多。,(4byte,的指,针,针,+,文本,长,长度*,2,(,Unicode)+2,。数,字,字则,仅,仅有,4bytes,支持,变,变化,维,维度,注意,维度,表,表与,事,事实,表,表不,是,是绝,对,对的,同一,个,个表,,,,可,以,以同,时,时是,维,维度,表,表与,事,事实,表,表,同一,个,个表,,,,可,以,以
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业管理 > 营销创新


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!