资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,*,*,*,数据仓库,数据仓库技术概述,1.1,数据库到数据仓库,1.2,数据仓库的概念和特征,1.3,数据仓库中的数据组织,1.4,数据仓库体系结构,2,传统的数据环境:,以数据库为中心,数据资源组织方式单一。,数据处理不断有新需求,从事务处理,批处理到决策分析等,且不同类型的数据处理有不同的处理特点。,人们认识到:,当数据处理方式发生变化,而数据组织方式并没有改变时,就会出现数据处理方式和数据环境不相适应,从而使得数据处理不能获得理想的结果。,结论:,以单一的数据组织方式进行组织的数据库,不能满足数据处理多样化的要求,数据仓库技术应运而生,。,1.1 从数据库到数据仓库,3,1.1 从数据库到数据仓库,数据处理具有多层次的特点,可分为两大类,:,操作型处理,On-Line Transaction Processing,联机事务处理,系统,(OLTP),也称为面向交易的处理系统,其基本特征是用户的原始数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。这样做的最大优点是可以即时地处理输入的数据,及时地回答。也称为实时系统,(Real time System),。衡量联机,事务处理系统,的一个重要性能指标是系统性能,具体体现为实时响应时间,(Response Time),,即用户在终端上送入数据之后,到计算机对这个请求给出答复所需要的时间。,OLTP,数据库旨在使事务应用程序仅写入所需的数据,以便尽快处理单个事务。,4,1.1 从数据库到数据仓库,分析型处理,用于管理人员的决策分析,经常要访问大量的历史数据,而很少对数据库进行写操作,除非对数据库进行更新或装入时。,两种不同类型的数据处理存在巨大差异,从应用的,对象,到数据的,结构,、,内容,和,用法,都不相同,。,5,1.1 从数据库到数据仓库,(1)事务处理和分析处理的性能特征不同,事务处理环境:,用户的行为特点是数据的存取操作频率高,而每次操作处理的时间短。因此系统可以允许多个用户按分时方式使用系统资源,同时保持较短的响应时间。,分析处理环境:,用户的行为模式与上面完全不同,一个分析处理程序可能要连续运行几个小时,从而消耗大量系统资源。,6,1.1 从数据库到数据仓库,【,例,】,在,OLTP,系统中,事务的吞吐量比率通常使用,TPS,或,TPM,来表示。,TPS,:,Transactions Per Second,,即服务器每秒处理的事务数。,TPM,:,Transactions Per Minute,,,tpm,值在国内外被广泛用于衡量计算机系统的事务处理能力。,在,DSS,中,吞吐量通常用,每小时处理的查询数,QPH,来表示。这些查询数量庞大,在它完成前,占用绝大部分机器资源。,一个,OLTP,系统即使很大,也不过,300,GB,左右,而一个大型,DSS,的规模可以轻易达到,1,TB,。,(,1TB=1000GB),7,1.1 从数据库到数据仓库,(2)数据集成问题,事务处理:,目的在于使业务处理自动化,一般只需要与本部门业务相关的当前数据,而对整个企业范围内的集成应用考虑很少。,分析处理:,需要集成的数据,不仅需要整个企业内部各部门的相关数据,还需要企业外部、竞争对手等的相关数据。,8,1.1 从数据库到数据仓库,当前绝大多数企业内部数据的真正状况是分散而非集成的,主要原因:,事务处理应用的分散,“蜘蛛网”问题,数据不一致问题,9,10,11,12,13,14,15,16,1.1 从数据库到数据仓库,(,3,)历史数据问题,事务处理:,一般只需当前数据。数据库中也只存储短期数据,并且不同数据保存期也不相同。即使有历史数据保存,也不利用。,分析处理:,对决策者而言,历史数据相当重要,许多分析方法必须以大量历史数据为依托,没有对历史数据的详细分析,很难把握企业的发展趋势。,17,1.1 从数据库到数据仓库,(,4,)数据的综合问题,事务处理积累了大量的细节数据,一般,DSS,不对细节数据分析。一是细节数据量大,严重影响分析效率;二是太多的细节数据不利于分析人员将注意力集中在有用信息上。因此,分析处理前经常要综合,而事务处理系统不具备这种综合能力。,18,第一章 数据仓库技术概述,1.1,数据库到数据仓库,1.2,数据仓库的概念和特征,1.3,数据仓库中的数据组织,1.4,数据仓库体系结构,19,1.2 数据仓库的概念和特征,数据仓库系统构造方面的领头设计师,W.H.Inmen,对数据仓库的定义为:,数据仓库是面向主题的、集成的、具有时间特征的、稳定的数据集合,用于支持经营管理中的决策制定过程。,20,1.2 数据仓库的概念和特征,从定义可看出:,DW,是明确为决策支持服务,而,DB,是为事务处理服务。,数据仓库的主要特征:,数据仓库的数据是面向主题的,数据仓库的数据是集成的,数据仓库的数据是不可更新的,数据仓库的数据是随时间不断变化的,下面讨论数据仓库的关键特征:,21,1.2 数据仓库的概念和特征,1.数据仓库的数据是面向主题的,从逻辑意义上讲,主题是企业中某一宏观分析领域所涉及的分析对象。主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。所谓较高层次是相对面向应用的数据组织方式而言的,是指按照主题进行数据组织的方式具有更高的数据抽象级别。,22,1.2 数据仓库的概念和特征,DW,的数据是面向主题的,面向应用的数据经常会随着各种经营环境的改变而发生变化,面向主题的数据则因为比应用具有更高的抽象层次而比较稳定。,但数据的产生都是基于应用而产生,因此数据在进入数据仓库之前,要经过加工和集成,将原始数据结构做一个从面向应用到面向主题的转变。,23,1.2 数据仓库的概念和特征,DW,的数据是面向主题的,【,例,】,一家采用“会员制”经营方式的商场,按业务建立起若干子系统,并按业务处理要求建立各自数据库模式:,采购子系统:,订单,(订单号,供应商号,总金额,日期),订单细则,(订单号,商品号,类别,单价,数量),供应商,(供应商号,供应商名,地址,电话),销售子系统:,顾客,(顾客号,姓名,性别,年龄,文化程度,地址,电话),销售,(员工号,顾客号,商品号,数量,单价,日期),24,1.2 数据仓库的概念和特征,DW,的数据是面向主题的,人事管理子系统:,员工,(员工号,姓名,性别,年龄,文化程度,部门号),部门,(,部门号,部门名称,部门主管,电话),库存管理子系统:,领料单,(领料单号,领料人,商品号,数量,日期),进料单,(进料单号,订单号,进料人,收料人,日期),库存,(商品号,库房号,库存量,日期),库房,(库房号,仓库管理员,地点,库存商品描述),25,1.2 数据仓库的概念和特征,DW,的数据是面向主题的,传统的面向应用进行数据组织方式的特征为:,重点在“数据”和“处理”;,通常要反映一个企业内数据的动态特征;,所生成的各项数据库模式与企业实际的业务处理流程中所涉及的单据及文档,有很好的对应关系;,并没有真正体现数据与数据处理的分离。,26,1.2 数据仓库的概念和特征,DW,的数据是面向主题的,面向应用到面向主题的转变:,面向主题的数据组织方式应分为两个步骤:,抽取主题,确定每个主题所包含的数据内容,27,抽取主题,应该是按照分析的要求来确定主题。,1.,在,OLTP,数据库中进行数据组织时要考虑如何更好地记录下每一笔采购业务的情况,我们用“订单”、“订单细则”以及“供应商”三个数据库模式来描述一笔采购业务所涉及的数据内容,这就是面向应用来进行数据组织的方式;,28,2.,在数据仓库中,对于商品采购的分析活动主要是要了解各供应商的情况,显然“供应商”是采购分析的对象。我们并不需要象“订单”和“订单细则”这样的数据库模式,因为它们包含的是纯操作型的数据;但是仅仅只用,OLTP,数据库的“供应商”中的数据又是不够的,因而要重新组织“供应商”这个主题。,29,确定主题的数据内容,概括各种分析对象,我们抽取了商场的供应商、商品、顾客三个主题。然后确定每个主题所应包含的数据内容。以“商品”主题为例,应该包括两个方面的内容,:,第一,商品固有信息,如商品名称,商品类别以及型号、颜色等描述信息,;,第二,商品的流动信息,如某商品采购信息、商品销售信息及商品库存信息等。,30,1.2 数据仓库的概念和特征,DW,的数据是面向主题的,商品:,商品固有信息:,商品号,商品名,类别,颜色等,商品采购信息:,商品号,供应商号,供应价,供,应日期,供应量等,商品销售信息:,商品号,顾客号,售价,销售日,期,销售量等,商品库存信息:,商品号,库房号,库存量,日期等,31,1.2 数据仓库的概念和特征,DW,的数据是面向主题的,供应商:,供应商固有信息:,供应商号,供应商名,地址,,电话等。,供应商品信息:,供应商号,供应价,供应日期,,供应量等。,顾客:,顾客固有信息:,顾客号,顾客名,性别,年龄,,文化程度,住址,电话等。,顾客购物信息,:,顾客号,商品号,售价,购买日,期,购买量等。,32,比照商场原有数据库的数据模式,我们可以看到,:,首先,在从面向应用到面向主题的转变过程中,丢弃了与分析活动关系不大的信息。,其次,在原有的数据库模式中,关于商品的信息分散在各子系统中,。,33,面向主题的数据组织方式是根据分析要求将数据组织成一个完备的分析领域,即主题域。主题域应该具有:,1.,独立性,它必须具有独立内涵。,2.,完备性,就是要求对任何一个对商品的分析处理要求,我们应该能在“商品”这一主题内找到该分析处理所要求的内容。,不同主题之间也有重叠的内容,但只是逻辑上的重叠,细节级上的重叠。,供应商,顾 客,商 品,34,主题是一个在较高层次上对数据的抽象,这使得面向主题的数据组织可以独立于数据的处理逻辑,因而可以在这种数据环境上方便地开发新的分析型应用;同时这种独立性也是建设企业全局数据库所要求的,所以面向主题不仅是适用于分析型数据环境的数据组织方式,同时也是适用于建设企业全局数据库的组织。,35,1.2 数据仓库的概念和特征,DW,的数据是面向主题的,主题的实现:,一个主题可划分成多个表,基于一个主题的所有表都有一个公共码,作为主码的一部分,将各表统一起来,体现它们是属于一个主题。,例如实现商品主题:,36,1.2 数据仓库的概念和特征,DW,的数据是面向主题的,主题:,商品,公共码键:,商品号,商品表,(,商品号,,商品名,类型,颜色,,),采购表1,(,商品号,,供应商号,供应日期,供应价,),采购表2,(,商品号,,时间段,采购总量,),:,采购表,n,(,商品号,,时间段,采购总量,),描述的是商品的固有信息,描述的是商品的采购细节信息,时间段不等的采购综合表,37,1.2 数据仓库的概念和特征,DW,的数据是面向主题的,销售表1,(,商品号,,顾客号,销售日期,售价,,销售量,),销售表2,(,商品号,,时间段,销售总量,),:,销售表,n,(,商品号,,时间段,销售总量,),库存表1,(,商品号,,库房号,库存量,日期,),库存表2,(,商品号,,库房号,库存量,月份,),:,库存表,n,(,,),38,1.2 数据仓库的概念和特征,2.数据仓库的数据是集成的,通常,构造数据仓库是将多个异种数据源,(如关系,DB、,一般文件和联机事务处理记录),集成在一起,使用数据清理和数据集成技术,确保命名约定、编码结构、属性度量等的一致性。,主要做两个工作,统一源数据中所有矛盾之处,进行数据综合和计算,39,1.2 数据仓库的概念和特征,3.数据仓库的数据是稳定的,数据仓库的数据反映的是一段相当长时间内的历史数据,是不同时点的数据库快照的集合,以及基于这些快照进行统计、综合和重组的导出数据,而不是联机处理的数据。,OLTP,数据库中的数据经过抽取(,Extracting,)、清洗(,Cleaning,)、转换(,Transformation,)后装载(
展开阅读全文