资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,UNIT four,数据仓库技术,1,学完本讲后,你应该能够了解:,数据仓库中没有联机更新,因而数据仓库比数据库需要一系列更简单的技术;但数据仓库有很多特殊的技术上的需求;,数据仓库的专用DBMS与通用DBMS的区别;,多维DBMS和数据仓库之间的互补关系;,数据仓库环境中的元数据与操作型环境中的元数据所扮演的角色不同;,为了理解和解释一段时期内的信息,数据仓库需要一个全新的上下文维,数据仓库的高效刷新方法:”数据复制”和”变化数据捕捉”,本 讲 主 要 目 标,2,一数据仓库的技术需求,二数据仓库专用DBMS,三多维DBMS和数据仓库,四数据仓库环境中的元数据,五上下文维和上下文信息,六.建立数据仓库,七.数据仓库的数据刷新,内容提纲,3,数据仓库的,技术需求,4,数据仓库的技术需求,数据仓库与数据库技术需求不同的原因:,数据仓库中没有联机数据更新,比数据库的技术需求更简单,数据仓库中的数据量非常大,要考虑大量和不同数据的存储和查询的技术,和,效率,数据仓库的数据来源于现有的系统,而现有的各个系统可能使用不同的技术,不同来源数据的集成,、,转换和传送,5,数据仓库的技术需求,数据仓库的技术需求,管理大量数据,管理各种各样介质上的数据,方便的索引和监视数据,大量接口技术,允许程序员将数据直接放在物理存储设备上,数据的并行存储和访问,数据仓库的元数据控制,高效地装入数据仓库,有效地使用索引,以压缩方式存储数据,支持复合键码,有效地管理变长数据,有选择地关闭锁管理,单独索引处理,从大容量存储器迅速恢复,6,数据仓库的技术需求,管理大量数据,分四个方面,基本的管理技术,效率,存储的费用,处理的费用,7,数据仓库的技术需求,管理各种各样介质上的数据,考虑,访问速度,和,存储费用,一个满载的数据仓库应该放在多种存储介质上:,8,数据仓库的技术需求,方便的索引和监视数据,成功的数据仓库必须能方便和有效地检索数据,成功的数据仓库的数据必须能被随意地监视,监视数据仓库的数据的理由:,决定是否应数据重组,决定索引是否建立得恰当,决定是否有太多数据溢出,决定数据的统计成分,决定剩余的可用空间,9,数据仓库的技术需求,大量接口技术,能够用各种不同的技术,获得,和,传送数据,接口不仅要,高效,还要,便于使用,能够在,批模式下运行,10,数据仓库的技术需求,允许程序员将数据直接放在物理存储设备上,为了对数据进行高效地访问和更新,程序员需要在物理的块/页的一级上对数据的存放进行特殊的控制,11,数据仓库的技术需求,数据的并行存储和访问,当数据被并行存储和管理时,性能会提高很多,12,数据仓库的技术需求,数据仓库的元数据控制,数据仓库的用户应该能够对元数据进行准确和实时的访问,典型的元数据,数据仓库表的结构,数据仓库表的属性,数据仓库的源数据(记录系统),从记录系统到数据仓库的映射,数据模型的规格说明,抽取日志,访问数据的公用例行程序,13,数据仓库的技术需求,数据仓库要有多种语言接口,数据仓库需要有非常丰富的语言接口,数据仓库接口语言需要,能够一次访问一组数据,能够一次访问一条记录,特别要保证,为了满足某个访问要求,能够支持一个或多个索引,能够插入,、,删除,、,更新数据,14,数据仓库的技术需求,高效地装入数据仓库,在装入数据的同时,索引也要高效地装入,15,数据仓库的技术需求,有效地使用索引,数据仓库技术不仅必须能够方便地支持新索引的创建和装入,而且要能够高效地访问这些索引,高效访问索引的方法,位映象的方法,多级索引,将部分或全部索引装入内存,当被索引的数据的次序允许压缩时,对索引项进行压缩,创建选择索引或范围索引,16,数据仓库的技术需求,以压缩方式存储数据,数据仓库中的数据很少更新,数据压缩的管理很简单,解压缩的开销是CPU开销,不是I/O资源的开销,17,数据仓库的技术需求,支持复合键码,复合键码在数据仓库中随处可见,18,数据仓库的技术需求,有效地管理变长数据,在数据仓库中,变长数据很稳定,没有数据库中变长数据的固有性能问题,19,数据仓库的技术需求,有选择地关闭锁管理,应用加锁管理程序的后果之一是它消耗了相当的资源,即使数据不被更新也是一样,20,数据仓库的技术需求,单独索引处理,当只通过查看一下索引就可以满足某些请求时,由于用不着查看数据的最初数据源而会更加有效,21,数据仓库的技术需求,从大容量存储器迅速恢复,指能够从非直接存取存储设备快速地恢复数据仓库表.当可以从二级存储设备上恢复时,就可以节约大量开支,22,数据仓库专用,DBMS,23,数据仓库专用DBMS,数据仓库专用数据库管理系统,-是特别为数据仓库和决策支持而优化设计的管理系统.,与通用DBMS的区别,专用DBMS的处理类型为装入和访问,而通用DBMS必须适合于记录级的数据更新,专用DBMS不需要自由空间,而通用DBMS对数据在块级上的管理要包括一些附加空间,专用DBMS可以使用更完善的索引结构,而通用DBMS限制有限数量的索引,专用DBMS物理上优化数据是为了便于访问和分析,而通用DBMS优化数据是为了事务的访问,24,数据仓库专用DBMS,是否应该改变DBMS技术?是,当今可用的DBMS技术,当数据仓库首次载入数据时并不合适,数据仓库已经变得非常之大,以至于应该提出新的技术方法,数据仓库的利用已经提高许多,也改变了许多,使得现在的数据仓库的DBMS技术已经不适用了,25,数据仓库专用DBMS,是否应该考虑找一种新的DBMS技术?,新的DBMS技术是否满足可预知的需求?,从旧的DBMS向新的DBMS的转换应该怎样去做?,转换的程序应该怎样改变?,26,多维DBMS和,数据仓库,27,多维DBMS和数据仓库,多维DBMS(有时也叫”数据集市”),多维DBMS提供一种信息系统结构,使得对数据的访问非常灵活,可以以多种方法对数据进行分片,、,分割,动态地考察汇总数据和细节数据的关系,多维DBMS不仅提供了灵活性,还可以对终端用户进行管理,多维DBMS和数据仓库有互补关系,28,多维DBMS和数据仓库,多维DBMS数据集市的关系型基础,优,能支持大量数据,能支持数据的动态连接,已被证实是有效的技术,如果对数据的使用模型不清楚的话,关系型结构与其他任何结构一样好,劣,性能上不是最好的,不能单独对访问处理进行优化,29,多维DBMS和数据仓库,多维DBMS数据集市的“立方体”基础,优,对于DSS处理性能上是优化的,能够对数据的快速访问进行优化,如果已知数据访问的模式,则数据的结构可以优化,能够很轻松地”切片和分块”,可以用多种方法检测,劣,几乎不能处理像标准的关系模型那么多的数据,不支持通用的更新处理,装入的时间很长,如果对路径的访问不被数据设计所支持的话,这种结构就显得不灵活,对数据的动态连接的支持是有问题的,30,数据仓库中的,元数据,31,数据仓库中的元数据,数据仓库中的元数据包括两大部分:,有关集成的信息,数据仓库字典,32,数据仓库中的元数据,数据仓库中元数据特点,服务于DSS专业人员,而不仅仅是IT人员,33,数据仓库中的元数据,数据仓库中元数据特点,涉及到从操作型环境到数据仓库环境的映射,34,数据仓库中的元数据,数据仓库中元数据特点,数据会存在一段很长的时间,35,上下文维和,上下文信息,36,上下文维和上下文信息,数据仓库中需要上下文维,数据仓库的一个重要特征是能够对一段时间的信息进行存储和管理,为了理解和解释一段时间内的信息,需要信息发生的背景,三个级别的上下文信息,简单上下文信息,复杂上下文信息,外部上下文信息,37,上下文维和上下文信息,简单上下文信息,与数据本身的基本结构有关,包括,数据的结构,数据的编码,数据的命名约定,描述数据的度量,数据的多少,数据增长速度,数据的哪一部分增长,数据是怎样被使用的,简单上下文以往是用字典,目录,系统监视器等管理的,38,上下文维和上下文信息,复杂上下文信息,描述的是和简单上下文相同的数据,但从不同的侧面描,述,其强调下面几点,产品定义,市场领域,定价,包装,组织结构,分发,复杂上下文信息非常有用但基本,但非常难以捉摸,它令人难以捉摸是因为它是想当然的,并存在于背景环境中,39,上下文维和上下文信息,外部上下文信息,是公司以外的,但在理解随时间变化的信息方面起重要作用的信息,实例包括,经济预测,通货膨胀,金融,税务,经济增长,政治信息,竞争信息,技术进展,40,上下文维和上下文信息,捕获和管理上下文信息,复杂上下文信息和外部上下文信息是非结构化的,上下文信息变化很快,以往管理上下文信息的方法的缺点,信息的管理针对信息系统的开发者,而不是最终用户,对上下文管理的意图是被动的,对上下文管理的意图在很多情况下会从开发计划中删除掉,对上下文管理的意图仅局限于简单上下文,41,建立数据仓库,42,建立数据仓库,建立数据仓库的任务就是将数据源中的数据整理后按照数据仓库的结构,放入数据仓库的物理存储介质中,数据仓库的建立分为三个子任务:,抽取数据(extracting data),转换数据(transforming data),加载数据(transporting/loading data),因此,建立数据仓库的过程也称为ETT过程或ETL过程,43,建立数据仓库,ETT过程,Extract source data,Transform/clean data,Index and summarize,Load data into WH,Detect changes,Refresh data,Programs,Tools,ETT,Operationalsystems,Warehouse,Browser:,http:/,Hollywood,X,+,Customers:,a recorof,as,X,+,Customers:,Browser:,http:/,Hollywood,Browser:,http:/,Hollywood,X,+,Gateways,44,数据仓库的,数据刷新,45,数据仓库的数据刷新,数据仓库的数据定期刷新是一项巨大的开销,数据刷新的方法,直接读取老的传统的数据库,-开销非常大,在传统环境中捕捉正在修改的数据,数据复制,-改变发生时数据被捕获,设置一个”触发器”来捕获数据的更新活动,变化数据捕获,-将发生了的改变从在联机更新时生成的日志中提取出来,46,学完本讲后,你应该能够了解:,数据仓库中没有联机更新,因而数据仓库比数据库需要一系列更简单的技术;但数据仓库有很多特殊的技术上的需求;,数据仓库的专用DBMS与通用DBMS的区别;,多维DBMS和数据仓库之间的互补关系;,数据仓库环境中的元数据与操作型环境中的元数据所扮演的角色不同;,为了理解和解释一段时期内的信息,数据仓库需要一个全新的上下文维,数据仓库的高效刷新方法:”数据复制”和”变化数据捕捉”,本 讲 主 要 目 标,47,演讲完毕,谢谢观看!,内容总结,UNIT four数据仓库技术。数据仓库中没有联机更新,因而数据仓库比数据库需要一系列更简单的技术。数据仓库中没有联机更新,因而数据仓库比数据库需要一系列更简单的技术。但数据仓库有很多特殊的技术上的需求。为了理解和解释一段时期内的信息,数据仓库需要一个全新的上下文维。为了理解和解释一段时期内的信息,数据仓库需要一个全新的上下文维。成功的数据仓库的数据必须能被随意地监视。数据仓库的用户应该能够对元数据进行准确和实时的访问。能够插入、删除、更新数据。在装入数据的同时,索引也要高效地装入。创建选择索引或范围索引。数据仓库中的数据很少更新,数据压缩的管理很简单。解压缩的开销是CPU开销,不
展开阅读全文