数据仓库的基本概念

上传人:321****12 文档编号:253027142 上传时间:2024-11-27 格式:PPTX 页数:59 大小:351KB
返回 下载 相关 举报
数据仓库的基本概念_第1页
第1页 / 共59页
数据仓库的基本概念_第2页
第2页 / 共59页
数据仓库的基本概念_第3页
第3页 / 共59页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,课程安排,数据仓库: 18学时数据挖掘: 18学时考 试: 撰写论文,第一章 数据仓库的基本概念,案例讨论:,下图展示了某电信公司的市场部和计划部对业务,A,是否具有市场前景的分析过程和结果。,试讨论为什么两部门分析结果不同。,企业级数据库,市场部,分析程序1,分析结果,1,:,前景很好,计划部,分析程序2,分析结果,2,:,前景不好,第一章:数据仓库的基本概念,1-1 数据仓库的产生与发展,传统的数据库技术作为数据管理手段,主要用于联机事务处理(,OLTP,On-Line Transaction Process,),,数据库中保存的是大量的日常业务数据。,在数据共享、数据与应用程序的独立性、维护数据的一致性与完整性、数据的安全保密性等方面提供了有效的手段。,第一章 数据仓库的基本概念,与分析型应用结合时存在的问题:,决策支持系统为掌握充分的信息,需要访问大量的企业内部数据和外部数据。,传统数据库中的大量数据是事务型数据,即该数据是对每一项工作、管理对象的具体的、细节性的描述。,事务处理型应用与分析决策型应用对数据库系统的性能要求不同。,传统数据库中保存和管理的一般是当前数据,而决策支持系统不仅需要当前的数据,而且还要求有大量的历史数据。,第一章 数据仓库的基本概念,结论:,在事务处理型应用环境中直接构建分析决策型应用是不可行的。,于是:,面向分析决策型应用而组织和存储数据的数据仓库技术应运而生。,第一章 数据仓库的基本概念,时间:,20,世纪,80,年代初,人物:,定义:,数据仓库是面向主题的、集成的、具有时间特征的、稳定的数据集合,用以支持经营管理中的决策制定过程。,A data warehouse is a subject-oriented,integrated, time-variant,and nonvolatile collection of data in support of managements decision making process.,第一章 数据仓库的基本概念,数据仓库的四大特征:,数据是面向主题的,数据是集成的,数据是具有时间特征的,数据是相对稳定的,数据仓库的其它特点:,数据量非常大(10,GB-1000GB),是数据库技术的一种新的应用,使用人员较少,第一章 数据仓库的基本概念,1-2 数据仓库与数据库,操作型数据库 分析型数据仓库,系统目的,支持日常操作 支持管理需求,获取信息,使用人员,办事员、,DBA、,数据库专家 经理、管理人员、分析专家,数据内容,当前数据 历史数据、派生数据,数据特点,细节的 综合的或提炼的,数据组织,面向应用 面向主题,存取类型,添加、修改、查询、删除 查询、聚集,数据稳定性,动态的 相对稳定,第一章 数据仓库的基本概念,续上表:,操作型数据库 分析型数据仓库,需求特点,需求事先可知道 需求事先不知道,操作特点,一个时刻操作一单元 一个时刻操作一集合,数据库设计,基于,E-R,图 基于星型模式、雪花模式,一次操作数据量,一次操作数据量小 一次操作数据量大,存取频率,较高 较低,响应时间,小于3秒 几秒几十分钟,第一章 数据仓库的基本概念,1-3 数据仓库技术的术语,主题,:,(,Subject),主题是一个在较高层次上将数据归类的标准,每一个主题基本对应一个宏观的分析领域。,例:面向主题:产品订货分析,货物发运分析, 新产品开发分析;,面向,应用:财务,销售,供应,人力资源,生产调度.,主题域的特征:独立性,完备性,第一章 数据仓库的基本概念,粒度:,(,Granularity,),粒度是指数,据,据仓库中数,据,据单元的详,细,细程度和级,别,别。,数据越详细,,,,粒度越小,,,,级别越低,,,,回答查询,的,的种类就越,多,多。(数据,堆,堆积,回答,综,综合问题效,率,率低),数据越综合,,,,粒度越大,,,,级别越高,,,,回答查询,的,的种类就越,少,少。,第一章,数,数据仓库的,基,基本概念,维度:,(,Dimension,),维度是指人,们,们观察事物,的,的角度。,例如:当人,们,们关注产品,销,销售情况时,,,,有如下维,度,度:,时间维:随,时,时间变化的,销,销售数据;,地区维:不,同,同地区的销,售,售数据;,客户维:不,同,同客户的销,售,售;,根据观察事,物,物角度的细,节,节程度不同,,,,维又具有,维,维层次。,数据;,渠道维:不,同,同销售渠道,的,的销售数据,;,;,产品维:不,同,同产品的销,售,售数据,例:时间维,:,:日期、周,、,、月份、季,度,度、年等;,地区维:城,市,市、地区、,国,国家等。,第一章,数,数据仓库的,基,基本概念,数据立方体,:,:,数据立方体,是,是指由两个,或,或更多个属,性,性即两个或,更,更多个维来,描,描述或者分,类,类的数据。,在三维的情,况,况下可以用,图,图形来表示,,,,一般称为,数,数据立方体,。,。,实际的数据,仓,仓库的应用,中,中,数据是,多,多维的。,第一章,数,数据仓库的,基,基本概念,联机分析处,理,理:,(,OLAP),联机分析处,理,理是快速、,灵,灵活的多维,数,数据分析工,具,具。,OLAP,的目的是支,持,持分析决策,,,,满足多维,环,环境的查询,和,和报表需求,。,。,数据仓库的,多,多维数据存,储,储结构为,OLAP,的实施提供,了,了理想的多,维,维数据环境,。,。,第一章,数,数据仓库的,基,基本概念,数据集市:,(,DataMart),数据集市是,完,完整的数据,仓,仓库的一个,逻,逻辑子集,,而,而数据仓库,正,正是由其所,有,有的数据集,市,市有机组合,而,而成的。,一般在某个,业,业务部门建,立,立数据集市,,,,或称为部,门,门级数据仓,库,库。,建立数据集,市,市与数据仓,库,库,一般是,采,采用“自顶,向,向下”和“,自,自下而上”,相,相结合的设,计,计思想。,第一章,数,数据仓库的,基,基本概念,第一章,数,数据仓库的,基,基本概念,讨论题:,1、结合陕,西,西科技大学,大,大学学生学,籍,籍管理系统,进,进行数据仓,库,库的主题划,分,分,列举有,哪,哪些主题。,1-4,多,多维数据模,型,型,多维数据模,型,型是进行决,策,策支持数据,建,建模的最好,方,方式,数据,仓,仓库采用多,维,维数据模型,不,不仅能使其,使,使用方便,,而,而且能提高,系,系统的性能,。,。,1-4-1,实体关系模,型,型与多维模,型,型,实体关系模,型,型应用于操,作,作型数据库,系,系统,多维,模,模型应用于,分,分析型数据,仓,仓库系统。,实体关系模,型,型不适用于,以,以查询为主,的,的分析型应,用,用,具体表,现,现在:使用,者,者、界面、,检,检索手段。,第一章,数,数据仓库的,基,基本概念,多维数据模,型,型以直观的,方,方式组织数,据,据,每一个,多,多维数据模,型,型由多个多,维,维数据模式,(,(,Dimensional Data Schema),表示。,每一个多维,数,数据模式都,是,是由一个事,实,实表(,FactTable,),),和一组维表,(,(,DimensionTable,),),组成。,事实表的主,码,码是组合码,,,,维表的主,码,码是简单码,,,,每一张维,表,表中的简单,码,码与事实表,组,组合码中的,一,一个组成部,分,分相对应。,第一章,数,数据仓库的,基,基本概念,企业销售数,据,据的,多维数据模,式,式图,第一章,数,数据仓库的,基,基本概念,时间码,日期,月份,季度,年度,时间码,产品码,地区码,销 售,量,量,销 售,额,额,销售成本,产品码,产品大类,产品细类,产品名称,地区码,国 家,地 区,城 市,时间维表,事 实,表,表,产品维表,地区维表,多维数据模,型,型的优势:,多维数据模,型,型是已知标,准,准化的结构,,,,即包含多,个,个多维数据,模,模式,每一,个,个多维数据,模,模式都对应,一,一张事实表,和,和多张维表,。,。,这种多维结,构,构能支持最,终,终用户不可,预,预知的操作,,,,原因在于,多,多维数据模,型,型的各个维,是,是逻辑等价,的,的。,多维数据模,型,型对决策分,析,析有好的扩,展,展性。,汇总数据的,巨,巨大价值。,第一章,数,数据仓库的,基,基本概念,1-4-2,星型模式,星型模式是,事,事实表与维,表,表通过星型,方,方式连接而,成,成,如下图,:,:,第一章,数,数据仓库的,基,基本概念,产品码(,PK),产品大类,产品细类,产品名称,地区码(,PK),国 家,地 区,城 市,产品维表,地区维表,时间码(,FK),产品码(,FK)(PK),地区码(,FK),销 售,量,量,销 售,额,额,销售成本,事 实,表,表,时间码(,PK),日期,月份,季度,年度,时间维表,第一章,数,数据仓库的,基,基本概念,星型模式的,优,优点:,星型模式结,构,构简单,表,的,的数目少,,建,建模方便。,星型模式支,持,持多维数据,建,建模,支持,使,使用人员从,不,不同的维度,对,对数据进行,分,分析。,星型模式能,较,较好地为数,据,据仓库提供,查,查询支持。,星型模式可,以,以提高查询,速,速度。,第一章,数,数据仓库的,基,基本概念,主码、外码,和,和代理码:,主码(,Primary Key):,主码是表中,的,的一个属性,或,或属性的组,合,合,它能唯,一,一地标识表,中,中的每条记,录,录。,外码(,Foreign Key):,外码是出现,在,在一个表中,,,,同时在另,一,一个表中被,定,定义成主码,的,的属性。,代理码(,SurrogateKey):,所有的主码,和,和外码一般,都,都是采用没,有,有具体含义,的,的代理码,,例,例如,从1,开,开始的自然,数,数编码。,第一章,数,数据仓库的,基,基本概念,事实表:,事实表是星,型,型模式的核,心,心,它是按,维,维进行分析,形,形查询的对,象,象,其中存,储,储的是业务,事,事实,例如,:,:销售量、,销,销售额、销,售,售成本等,。,事实表中的,数,数据一般是,数,数值型,具,有,有可加性。,事实表的主,码,码为外码的,组,组合,唯一,的,的标识各条,事,事实记录,,事,事实表的外,码,码对应各维,表,表的主码。,第一章,数,数据仓库的,基,基本概念,维表:,维表用于指,导,导从不同的,角,角度在事实,表,表中选择数,据,据行。,维表中有一,个,个主码,其,余,余非主码的,列,列为属性,,维,维表中的属,性,性数据通常,是,是字符型数,据,据。,维表具有层,次,次性,维表,的,的层次性可,用,用来分割其,他,他的明细维,表,表,维表层,次,次的级别数,量,量取决于查,询,询的粒度。,第一章,数,数据仓库的,基,基本概念,1-4-3,数据仓库的,总,总线型结构,著名的数据,仓,仓库专家,RalphKinball,认为,数据,仓,仓库的建设,应,应该是一步,步,步完成的,,以,以部门级数,据,据集市的建,设,设为出发点,,,,但必须统,观,观全局,使,数,数据集市成,为,为完整的企,业,业级数据仓,库,库的一个逻,辑,辑子集。,这种建设思,想,想的实现是,以,以一种特定,的,的结构为指,导,导的,称为,数,数据仓库的,总,总线型结构,(,(,DataWarehouseBus Architecture)。,第一章,数,数据仓库的,基,基本概念,统一的维:,统一的维是,指,指:一个维,,,,无论其维,表,表与哪一个,事,事实表相连,接,接,维的含,义,义是完全相,同,同的,。,建立、公布,、,、维护和完,善,善统一的维,是,是全局数据,仓,仓库项目小,组,组一项非常,重,重要的工作,。,。,公布了统一,维,维之后,各,数,数据集市必,须,须严格执行,。,。,第一章,数,数据仓库的,基,基本概念,统一的事实,:,:,统一的事实,的,的定义工作,与,与统一的维,的,的定义工作,同,同时进行,,由,由数据仓库,项,项目:小组,负,负责,工作,量,量相对较少,,,,但要注意,以,以下几点;,统一的计算,口,口径,统一的计量,单,单位,统一的含义,事实表中要,包,包含最详细,的,的事实数据,,,,即粒度最,小,小 的数据,第,一,一,章,章,数,数,据,据,仓,仓,库,库,的,的,基,基,本,本,概,概,念,念,讨,论,论,题,题,:,:,1,、,、,根,根,据,据,学,学,籍,籍,管,管,理,理,系,系,统,统,数,数,据,据,仓,仓,库,库,的,的,建,建,设,设,,,,,确,确,定,定,事,事,实,实,表,表,与,与,维,维,表,表,,,,,列,列,举,举,各,各,个,个,维,维,,,,,并,并,划,划,分,分,维,维,层,层,次,次,。,。,1-5,数,数,据,据仓库,的,的体系,结,结构,1-5-1,体系结,构,构的内,容,容,总体框,架,架,Zachman,框架:,回答问,题,题,数据体,系,系结构-,数,数据仓,库,库的内,容,容是什,么,么?,系统体,系,系结构-,存,存放在,什,什么平,台,台上?,技术体,系,系结构-,如,如何实,现,现?,第一章,数,数,据,据仓库,的,的基本,概,概念,前端工,具,具,数 据,预,预,处理工,具,具,技术体,系,系结构,图,图如下:,第一章,数,数,据,据仓库,的,的基本,概,概念,预,处,理,数,据,数,据,源,数据集,市,市,数据集,市,市,数据集,市,市,总 线,查询,服务,数据,元数据,OLAP,数据挖,掘,掘,其他工,具,具,报表生,成,成器,抽取、,转,转换、,装,装载,可视化,分,析,析,结,果,果,后台,前台,第一章,数,数,据,据仓库,的,的基本,概,概念,1-5-2,相,相关,的,的数据,存,存储,数据源,:,:,数据源,是,是数据,仓,仓库的,原,原始来,源,源,是,数,数据仓,库,库系统,开,开发与,应,应用的,数,数据基,础,础,分,为,为两部,分,分;,企业内,部,部数据,源,源,企业外,部,部数据,源,源,第一章,数,数,据,据仓库,的,的基本,概,概念,主题数,据,据:,主题数,据,据是数,据,据仓库,的,的核心,数,数据,,一,一般以,多,多维数,据,据模型,的,的形式,存,存储在,数,数据仓,库,库中,,直,直接面,向,向分析,型,型用户,的,的访问,。,。,主题数,据,据的存,储,储称为,实,实视图,,,,它与,数,数据库,的,的视图,概,概念不,同,同之处,在,在于:,它,它不是,虚,虚拟的,,,,而是,已,已经过,计,计算,,含,含有大,量,量数据,,,,并存,储,储在数,据,据仓库,中,中的实,实,实在在,的,的表。,第一章,数,数,据,据仓库,的,的基本,概,概念,实视图,的,的好处,:,:,通过建,立,立实视,图,图可以,提,提高系,统,统的响,应,应速度,;,;,由于数,据,据源到,主,主题数,据,据映射,关,关系的,复,复杂性,,,,采用,普,普通视,图,图的方,式,式不可,行,行。,实视图,的,的特点,:,:,时间是,数,数据仓,库,库中几,乎,乎所有,数,数据的,属,属性之,一,一;,数据在,装,装于数,据,据仓库,后,后,基,本,本不发,生,生变化,;,;,实视图,不,不是数,据,据源中,数,数据的,简,简单拷,贝,贝,而,是,是经历,了,了数据,预,预处理,过,过程;,主题,数,数据,分,分为,最,最小,粒,粒度,数,数据,和,和聚,集,集数,据,据。,第一,章,章,数,数,据,据仓,库,库的,基,基本,概,概念,预处,理,理数,据,据:,从数,据,据源,向,向主,题,题数,据,据的,变,变换,,,,就,如,如同,穿,穿越,冰,冰山,的,的过,程,程,,工,工作,量,量大,而,而繁,杂,杂,,预,预处,理,理数,据,据正,是,是这,一,一过,程,程的,中,中间,结,结果,。,。对,于,于数,据,据仓,库,库的,建,建设,而,而言,,,,预,处,处理,数,数据,是,是一,非,非常,重,重要,数,数据,存,存储,环,环节,。,。,预处理,数,数据的,作,作用:,保存大,量,量的细,节,节型业,务,务处理,数,数据,保存净,化,化后的,数,数据,存储代,理,理码的,分,分配,创建并,存,存储统,一,一的事,实,实和统,一,一的维,作为数,据,据仓库,的,的数据,备,备份之,一,一,第一章,数,数,据,据仓库,的,的基本,概,概念,查询服,务,务数据,:,:,在数据,仓,仓库的,主,主题数,据,据中直,接,接得到,所,所需的,信,信息仍,然,然存在,一,一定的,难,难度,,因,因此,,在,在很多,情,情况下,,,,需要,查,查询服,务,务数据,作,作为主,题,题数据,和,和最终,查,查询结,果,果之间,的,的过渡,数,数据。,查询服,务,务分为,:,:,查询服,务,务数据,同,同前台,分,分析工,具,具紧密,联,联系,,临,临时地,存,存储在,分,分析工,具,具中,,以,以便进,一,一步分,析,析查询,;,;,将查询,服,服务数,据,据转存,起,起来,,留,留待以,后,后在进,行,行分析,或,或同其,他,他系统,结,结合起,来,来使用,;,;,将查询,服,服务数,据,据存储,到,到数据,仓,仓库的,主,主题数,据,据中,,典,典型例,子,子是数,据,据挖掘,工,工具同,数,数据仓,库,库结合,应,应用。,第一章,数,数,据,据仓库,的,的基本,概,概念,1-5-3,相,相关,的,的数据,服,服务,后台数,据,据预处,理,理:,数据抽,取,取,(,DataExtraction),数据转,换,换,(,DataTransformation),数据装,载,载,(,DataLoading,),前台数,据,据查询,服,服务:,多种展,现,现形式,的,的数据,查,查询,灵活的,分,分析报,表,表生成,访问安,全,全保障,第一章,数,数,据,据仓库,的,的基本,概,概念,1-5-4,相,相关,的,的数据,管,管理,元数,据,据,元数据,的,的含义,:,:,后台元,数,数据与,过,过程相,关,关,它,指,指导着,抽,抽取、,净,净化和,装,装载的,过,过程;,前台元,数,数据更,具,具有描,述,述性质,,,,它帮,助,助查询,工,工具和,报,报表生,成,成器更,顺,顺利地,工,工作。,它是所,有,有数据,元,元素表,述,述的一,种,种业务,内,内容字,典,典。,第一章,数,数,据,据仓库,的,的基本,概,概念,元数据,的,的内容:,数据源,元,元数据,预处理,数,数据元,数,数据,主题数,据,据元数,据,据,前台查,询,询服务,元,元数据,元数据,的,的工作,流,流程:,元数据,的,的工作,流,流程分,为,为13,个,个步骤,。,。,1-6,数,数,据,据仓库,的,的数据,组,组织,1-6-1,事实表,和,和维表,的,的设计,事实数,据,据和维,数,数据的,区,区分:,数据是,否,否是数,值,值型数,据,据,该数据,是,是作为,查,查询的,条,条件还,是,是查询,的,的结果,事实表,的,的设计,:,:,明确数,据,据集市,及,及相应,的,的数据,源,源,确定事,实,实表的,粒,粒度,确定响,应,应的维,度,度,完成事,实,实表的,设,设计,第一章,数,数,据,据仓库,的,的基本,概,概念,第一章,数,数,据,据仓库,的,的基本,概,概念,维表的,设,设计:,维表中,的,的属性,值,值一般,是,是文本,型,型的、,离,离散的,及,及不具,有,有可加,性,性的。,它,它们将,最,最终成,为,为分析,型,型查询,的,的约束,条,条件,,是,是分析,型,型查询,的,的起点,,,,在形,成,成的分,析,析型报,表,表中,,维,维属性,将,将成为,列,列标题,。,。,维表设计应,注,注意以下两,点,点:,维表中的维,属,属性应该具,体,体明确,体,现,现出维层次,的,的划分,能,够,够成为分析,型,型查询的约,束,束条件。,由于维属性,将,将成为列标,题,题,所以进,行,行维表设计,时,时一定要注,意,意维属性值,的,的可读性。,1-6-2,数据聚集的,设,设计,数据聚集的,含,含义:,所有的数据,仓,仓库都包含,数,数据的聚集,(,Aggregates,),),,,在数据仓库,中,中进行数据,的,的聚集是减,少,少,OLAP,分析需要扫,描,描的数据量,及,及提高查询,效,效率的最重,要,要的方法。,为提高查询,的,的效率,减,少,少分析时需,要,要访问的数,据,据量,需要,对,对数据按分,析,析型查询的,要,要求预先进,行,行计算及汇,总,总,并保存,计,计算及汇总,的,的结果,这,就,就是聚集。,第一章,数,数据仓库的,基,基本概念,数据聚集的,创,创建方法:,确定聚集的,内,内容可分两,个,个步骤完成,:,:,各个维的哪,些,些属性上需,要,要进行数据,的,的聚集;,确定不同维,的,的属性如何,进,进行组合。,聚集数据也,采,采用星型模,式,式进行多维,数,数据建模,,形,形成聚集事,实,实表及相应,的,的维表。设,计,计应注意:,聚集数据应,该,该存储在自,身,身的聚集事,实,实表中,不,能,能同基本事,实,实表存储在,一,一起;,粒度不同的,聚,聚集数据不,能,能存储在同,一,一个聚集事,实,实表中;,对于聚集事,实,实表对应的,相,相关各维,,一,一般也要进,行,行调整。,第一章,数,数据仓库的,基,基本概念,数据聚集的,创,创建方法:,确定聚集的,内,内容可分两,个,个步骤完成,:,:,各个维的哪,些,些属性上需,要,要进行数据,的,的聚集;,确定不同维,的,的属性如何,进,进行组合。,聚集数据也,采,采用星型模,式,式进行多维,数,数据建模,,形,形成聚集事,实,实表及相应,的,的维表。设,计,计应注意:,聚集数据应,该,该存储在自,身,身的聚集事,实,实表中,不,能,能同基本事,实,实表存储在,一,一起;,粒度不同的,聚,聚集数据不,能,能存储在同,一,一个聚集事,实,实表中;,对于聚集事,实,实表对应的,相,相关各维,,一,一般也要进,行,行调整。,第一章,数,数据仓库的,基,基本概念,1-6-3,数据仓库中,的,的索引,在数据仓库,中,中建立索引,提,提高数据访,问,问速度具有,重,重要意义。,传统的数据,库,库索引技术,传统的数据,库,库索引技术,目,目前仍然是,主,主流。,B-,树索引(,B-Tree Index):,指针指向记,录,录的实际地,址,址,适合于,高,高基数列值,索,索引。,位图索引(,Bit-Map Index):,用“位”确,定,定索引列的,值,值,适合于,低,低基数列值,索,索引。,哈希索引(,HashIndex):,行标识与存,储,储位置之间,用,用哈系函数,f,进行转换。,第一章,数,数据仓库的,基,基本概念,事实表的索,引,引,事实表中的,主,主码(组合,码,码)索引一,般,般采用,B-,树索引的方,式,式。非主码,索,索引可根据,具,具体情况而,定,定。,维表的索引,维表中的主,码,码(简单码,),)索引一般,采,采用,B-,树索引的方,式,式。非主码,索,索引一般采,用,用位图索引,。,。,数据仓库索,引,引新技术,投影索引(,ProjectionIndex),位切片索引(,Bit-SlicedIndex),连接索引(,JoinIndex),R-,树索引(,R-Tree Index),第一章,数,数据仓库的,基,基本概念,1-6-4,数据库的物,理,理设计,物理,设,设计,的,的任,务,务就,是,是将,逻,逻辑,模,模型,(,(前,述,述的,多,多维,数,数据,模,模型,),)转,变,变为,实,实际,的,的数,据,据库,存,存储,。,。,物理,设,设计,的,的内,容,容,物理,设,设计,的,的内,容,容包,括,括如,下,下方,面,面:,制定,数,数据,库,库对,象,象的,命,命名,规,规范,建立,数,数据,库,库物,理,理模,型,型,确定,数,数据,库,库索,引,引策,略,略,进行,数,数据,仓,仓库,数,数据,量,量的,估,估计,物理,设,设计,的,的具,体,体实,施,施,第一,章,章,数,数,据,据仓,库,库的,基,基本,概,概念,案例,分,分析,:,:数,据,据仓,库,库的,数,数据,量,量估,计,计,第一,章,章,数,数,据,据仓,库,库的,基,基本,概,概念,时间,维,维表,Time_id,Year,Quarter,Month,Week,地区,维,维表,Geo_id,Country,Province,City,产品,维,维表,Product_id,Pro_class,Pro_subclass,事实,表,表,Time_id,Geo_id,Product_id,Sales,案例,分,分析,:,:数,据,据仓,库,库的,数,数据,量,量估,计,计,上图,假,假定,每,每个,维,维表,具,具有50,个,个条,目,目,,则,则它,们,们的,组,组合,将,将在,事,事实,表,表中,产,产生50*50*50,个,个数,据,据条,目,目,,并,并假,定,定所,有,有表,中,中的,所,所有,属,属性,为,为8,个,个字,节,节长,度,度。,则所,需,需存,储,储空,间,间计,算,算如,下,下:,维表,空,空间,为,为:50*5*8+50*4*8+50*3*8=4800,事,实,实,表,表,空,空,间,间,为,为,:,:50*50*50*4*8=4000000,总,空,空,间,间,为,为,:,:4000000+4800=4004800=3.8,(,(,MB,),),可,以,以,看,看,出,出,,,,,事,事,实,实,表,表,空,空,间,间,比,比,维,维,表,表,空,空,间,间,多,多,得,得,多,多,。,。,第,一,一,章,章,数,数,据,据,仓,仓,库,库,的,的,基,基,本,本,概,概,念,念,1-7,数,数,据,据,仓,仓,库,库,的,的,数,数,据,据,预,预,处,处,理,理,1-7-1,数,据,据,的,的,净,净,化,化,数,据,据,质,质,量,量,与,与,数,数,据,据,净,净,化,化,:,:,高,质,质,量,量,的,的,数,据,据,应,应,该,该,是,是,正,正,确,确,的,的,高,质,质,量,量,的,的,数,据,据,应,应,该,该,是,是,清,清,晰,晰,的,的,高,质,质,量,量,的,的,数,据,据,应,应,该,该,是,是,及,及,时,时,的,的,高,质,质,量,量,的,的,数,据,据,应,应,该,该,是,是,完,完,整,整,的,的,高,质,质,量,量,的,的,数,据,据,应,应,该,该,是,是,一,一,致,致,的,的,高,质,质,量,量,的,的,数,据,据,应,应,该,该,是,是,唯,唯,一,一,的,的,第,一,一,章,章,数,数,据,据,仓,仓,库,库,的,的,基,基,本,本,概,概,念,念,数,据,据,净,净,化,化,的,的,方,方,法,法,:,:,不,正,正,确,确,数,据,据,的,的,净,净,化,化,例:,SQL,判,别,别,校,校,验,验,不,清,清,晰,晰,数,据,据,的,的,净,净,化,化,例:,客,客,户,户,维,维,的,的,拆,拆,分,分,“,“,备,备,注,注,”,”,类,类,数,数,据,据,不,完,完,整,整,数,据,据,的,的,净,净,化,化,例:,缩,缩,小,小,范,范,围,围,补,补,充,充,数,数,据,据,不,一致数,据,据的净,化,化,例:统,一,一转换,不唯一,数据的,净,净化,例:,SQL:DISTINCT,第一章,数,数,据,据仓库,的,的基本,概,概念,1-7-2,数据预,处,处理计,划,划,初步计,划,划,应包括,数,数据抽,取,取,数,据,据转换,数据,装,装载三,部,部分内,容,容。见,下,下页图,详细计,划,划,制定详,细,细计划,与,与实施,数,数据预,处,处理先,从,从主题,数,数据中,的,的维表,开,开始,,然,然后再,处,处理事,实,实表。,就维表,而,而言,,先,先从简,单,单的静,态,态的维,表,表开始,,,,然后,处,处理复,杂,杂的需,要,要动态,更,更新的,维,维表。,第一章,数,数据仓库的,基,基本概念,第一章,数,数据仓库的,基,基本概念,财务数据库,(,RDBMS,),),行业产品代,码,码规,范(,MS Excel),销售管理系,统,统,(,RDBMS,),),历史销售数,据,据,存档(文本,文,文件),收款,数据,价格,数据,产品,分类,客户,数据,时间,数据,订货,数据,数据源:,主题数据:,每张发票,对应一条,收款记录,据发票金,额、数量,计算价格,客户编,码表集,成净化,客户数,据要缓,慢更新,集 成,2000,年以后,数,据,据,1999,年以前,数,据,据,1-7-3,维表的数据,预,预处理,维表的基本,数,数据预处理,可能的数据,转,转换:,1、文件类,型,型的转换,2、数据类,型,型和长度的,变,变换,3、错误的,更,更正,4、消除数,据,据的不一致,性,性,不唯一,性,性,5、修改数,据,据结构与数,据,据内容,6、补充数,据,据达到完整,性,性要求,7、代理码,的,的分配,8、维表的,变,变更处理,第一章,数,数据仓库的,基,基本概念,1-7-4,事实表的数,据,据预处理,事实表的基,本,本数据预处,理,理,可能的数据,转,转换:,1、文件类,型,型的转换,2、数据类,型,型和长度的,变,变换,3、度量单,位,位的统一,4、数据的,净,净化,5、生成最,小,小粒度的数,据,据,6、建立数,据,据聚集,7、非代理,码,码的替换,8、事实表,的,的变更处理,9、数据聚,集,集的更新维,护,护,第一章,数,数据仓库的,基,基本概念,非代理码的,替,替换,事实表中的,代,代理码必须,与,与维表中的,代,代理码绝对,保,保持一致,,即,即:事实表,中,中的外码在,相,相应的维表,中,中一定要存,在,在。,第一章,数,数据仓库的,基,基本概念,时间,产品代码,客户代码,渠道代码,销售量,销售额,销售成本,时间码,产品码,客户码,渠道码,销售量,销售额,销售成本,将时间替换,为,为时间码,将产品代码,替,替换为产品,码,码,将客户代码,替,替换为客户,码,码,将渠道代码,替,替换为渠道,码,码,数据聚集的,更,更新维护,数据聚集在,建,建立之后并,不,不是一成不,变,变的,需要,不,不断的加入,或,或删除。由,于,于要时时刻,刻,刻保持同最,小,小粒度数据,的,的一致性,,因,因此,聚集,事,事实表的更,新,新维护有以,下,下方法:,1、在最小,粒,粒度数据装,载,载入数据仓,库,库之前,完,成,成数据聚集,的,的计算。,2、在最小,粒,粒度数据装,载,载入数据仓,库,库时,同时,完,完成数据聚,集,集的计算及,装,装载。,3、在最小,粒,粒度数据装,载,载入数据仓,库,库之后,再,用,用,SQL,语句完成数,据,据聚集的计,算,算。,增量维护的,形,形式,即:,只,只对新载入,的,的最小粒度,数,数据进行聚,集,集的计算与,更,更新,而不,是,是完全重新,计,计算所有的,聚,聚集。,第一章,数,数据仓库的,基,基本概念,第一章,结,结束,软件推荐:,公司名称,数,数据,仓,仓库管理工,具,具,IBMVisualWarehouse,SASWarehouse Administrator,OracleEnterprise Manager,SybaseWarehouseStudio,SagentSagent Admin,CAPLATINUM ERWin,PLATINUM InfoPump,NCRDatabase Manager,第一章,数,数据仓库的,基,基本概念,演讲完毕,,,,谢谢观,看,看!,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业管理 > 营销创新


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!