第6章 数据仓库技术简介

上传人:gu****n 文档编号:243138708 上传时间:2024-09-16 格式:PPT 页数:72 大小:1.60MB
返回 下载 相关 举报
第6章 数据仓库技术简介_第1页
第1页 / 共72页
第6章 数据仓库技术简介_第2页
第2页 / 共72页
第6章 数据仓库技术简介_第3页
第3页 / 共72页
点击查看更多>>
资源描述
, , , , , ,*,数据库原理与应用教程,第,6,章 数据仓库技术简介,6,数据仓库技术简介,6.1,数据仓库的概念及特点,6.2,数据仓库体系结构,6.3,数据仓库的相关技术,6.4,数据仓库的建立,数据仓库是近年来兴起的一种新的数据库应用。在各大数据库厂商纷纷宣布产品支持数据仓库并提出一整套用以建立和使用数据仓库的产品时,业界掀起了数据仓库热。比如,INFORMIXGONGSIDE,公司的数据仓库解决方案;,ORACLE,公司的数据仓库解决方案;,Sybase,公司的交互式数据仓库解决方案等等。这同时也引起了学术界的极大兴趣,国际上许多重要的学术会议,如超大型数据库国际会议(,VLDB,),数据工程国际会议(,Data Engineering,)等,都出现了专门研究数据仓库(,Data Warehousing,,简记为,DW,)、联机分析处理(,On-Line Analytical Processing,简记为,OLAP,)、数据挖掘(,Data Mining,简记为,DM,)的论文。对我国许多企业而言,在建立或发展自己的信息系统常常困扰于这样的问题:为什么要在原有的数据库上建立数据仓库?数据仓库能否代替传统的数据库?怎样建立数据仓库?等等。,第,6,章,数据仓库技术简介,第,6,章,数据仓库技术简介,从数据库到数据仓库 传统的数据库技术是以单一的数据资源,即数据库为中心,进行事务处理、批处理、决策分析等各种数据处理工作,主要的划分为两大类:操作型处理和分析型处理,(,或信息型处理,),。 操作型处理也叫事务处理,是指对数据库联机的日常操作,通常是对一个或一组纪录的查询和修改,主要为企业的特定应用服务的,注重响应时间,数据的安全性和完整性;分析型处理则用于管理人员的决策分析,经常要访问大量的历史数据。而传统数据库系统优于企业的日常事务处理工作,而难于实现对数据分析处理要求,已经无法满足数据处理多样化的要求。操作型处理和分析型处理的分离成为必然。,第,6,章,数据仓库技术简介,1,从数据库到数据仓库 近年来,随着数据库技术的应用和发展,人们尝试对,DB,中的数据进行再加工,形成一个综合的,面向分析的环境,以更好支持决策分析,从而形成了数据仓库技术,(Data Warehousing,,简称,DW),以及数据仓库系统。,数据仓库系统包括: 数据仓库技术; 联机分析处理技术,(On-Line Analytical Processing,,简称,OLAP),; 数据挖掘技术,(Data Mining,,简称,DM),; ,1,、什么是数据仓库 业界公认的数据仓库概念创始人,W.H.Inmon,在,建立数据仓库,一书中对数据仓库的定义是:数据仓库就是面向主题的、集成的、不可更新的,(,稳定性,),、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。,数据仓库是进行联机分析处理和数据挖掘的基础,它从数据分析的角度将联机事务中的数据经过清理、转换并加载到数据仓库中,,这些数据在数据仓库中被合理的组织和维护,以满足联机分析处理和数据挖掘的要求。,6.1,数据仓库的概念及特点,6.1,数据仓库的概念及特点,面向主题,集成的数据,数据不可更新,数据随时间不断变化,使用数据仓库是为了更好的支持制定决策,面向主题,数据仓库中的数据面向主题,与传统数据库面向应用相对应。,主题是一个在较高层次上将数据归类的标准,每一个主题对应一个宏观的分析领域,,是针对某一决策问题而设置的。,面向主题的数据组织方式就是完整、统一地刻画各个分析对象所涉及的企业的各项数据以及数据之间的联系。,在关系数据库中,每个主题由一组相关的关系表或逻辑视图来具体实现。主题中的所有表都通过一个公共键联系起来,数据可以存储在不同的介质上,而且相同的数据可以既有综合级又有细节级。,集成的数据,数据仓库的集成特性是指在数据进入数据仓库之前,必须经过数据加工和集成,这是建立数据仓库的关键步骤,首先要统一原始数据中的矛盾之处,还要将原始数据结构做一个从面向应用向面向主题的转变。,数据仓库中存储的数据是从原来分散的各个子系统中提取出来的,但并不是原有数据的简单拷贝,而是经过统一、综合这样的过程。原因:,源数据不适合分析处理,在进入数据仓库之前必须经过综合、清理等过程,抛弃分析处理不需要的数据项,增加一些可能涉及的外部数据。,数据仓库每个主题所对应的源数据在原分散数据库中有许多重复或不一致的地方,因而必须对数据进行统一,消除不一致和错误的地方,以保证数据的质量。,数据不可更新,数据仓库的稳定性是指数据仓库反映的是历史数据的内,而不是日常事务处理产生的数据,数据经加工和集成进入数据仓库后是极少或根本不修改的;,从数据的使用方式上看,数据仓库的数据不可更新是指当数据被存放到数据仓库之后,最终用户只能进行查询、分析操作,而不能修改其中存储的数据。,数据随时间不断变化,数据仓库是不同时间的数据集合,它要求数据仓库中的数据保存时限能满足进行决策分析的需要,而且数据仓库中的数据都要标明该数据的历史时期。,数据仓库的数据不可更新,但并不是说,数据从进入数据仓库以后就永远不变。,从数据的内容上看,数据仓库存储的是企业当前的和历史的数据。因而每隔一段固定的时间间隔后,操作型数据库系统产生的数据需要经过抽取、转换过程以后集成到数据仓库中。,数据仓库,数据仓库最根本的特点是物理地存放数据,而且这些数据并不是最新的、专有的,而是来源于其它数据库的。数据仓库的建立并不是要取代数据库,它要建立在一个较全面和完善的信息应用的基础上,用于支持高层决策分析,而事务处理数据库在企业的信息环境中承担的是日常操作性的任务。数据仓库是数据库技术的一种新的应用,而且到目前为止,数据仓库还是用关系数据库管理系统来管理其中的数据。,数据仓库的产生,2,、数据仓库的产生 计算机系统的功能从数值计算扩展到数据管理距今已有三十多年了。最初的数据管理形式主要是文件系统,少量的以数据片段之间增加一些关联和语义而构成层次型或网状数据库,但数据的访问必须依赖于特定的程序,数据的存取方式是固定的、死板的。关系数据库的出现开创了数据管理的一个新时代。 关系数据库在访问逻辑和应用上的方便,,SQL,的使用加上近些年来计算机硬件的处理能力呈数量级的递增,关系数据库最终成为联机事务处理系统的主宰。,数据仓库的产生,联机分析处理就是从数据库中获取信息、利用信息。因此,著名的数据仓库专家,Ralph Kimball,写道:,我们花了二十多年的时间将数据放入数据库,如今是该将它们拿出来的时候了。,获得有用的信息的困难:,所有联机事务处理强调的是密集的数据更新处理性能和系统的可靠性,并不关心数据查询的方便与快捷。联机分析和事务处理对系统的要求不同,同一个数据库在理论上都难以做到两全。,业务数据往往存放于分散的异构环境中,不易统一查询访问,而且还有大量的历史数据处于脱机状态,形同虚设。,业务数据的模式针对事务处理系统而设计,数据的格式和描述方式并不适合非计算机专业人员进行业务上的分析和查询。,数据仓库与数据库的关系,3,、数据库与数据仓库的关系,90,年代初提出数据仓概念。数据仓库就是一个作为决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库所要研究和解决的问题就是从数据库中获取信息的问题。 数据仓库的兴起实际是数据管理的一种回归,是螺旋式的上升。数据仓库的概念一经出现,就首先被用于金融、电信、保险等主要传统数据处理密集型行业。国外许多大型的数据仓库在,1996-1997,年建立。,什么样的行业最需要和可能建立数据仓库呢?有两个基本条件:,第一,该行业有较为成熟的联机事务处理系统,它为数据仓库提供客观条件;,第二,该行业面临市场竞争的压力,它为数据仓库的建立提供外在的动力。,数据仓库与数据库的关系,传统数据库系统承担了企业的日常事务处理工作,但难于实现对数据分析处理要求,数据仓库在企业的信息环境中承担实现对数据分析处理要求,两者在组织信息系统发挥着不同的作用。传统数据库系统的重点与要求是快速、准确、安全、可靠地将数据存进数据库,数据仓库的重点与要求就是能够准确、安全、可靠地从数据库中取出数据,经过加工转换成有规律信息之后,再供管理人员进行分析使用。,数据仓库与数据库的关系,据库与数据仓库的区别,对比内容,数据库,数据仓库,数据内容,当前值,历史的、存档的、归纳的、计算的数据,数据目标,面向业务操作程序、重复处理,面向主题域、管理决策分析应用,数据特性,动态变化、按字段更新,静态、不能直接更新、只定时添加,数据结构,高度结构化、复杂、适合操作计算,简单、适合分析,使用频率,高,中到低,数据访问量,每个事务只访问少量记录,有的事务可能要访问大量记录,对响应时间要求,以秒为单位计量,以秒、分钟,甚至小时为计量单位,操作型数据与分析型数据的区别,原始数据,/,操作型数据,导出数据,/ DSS,数据,面向应用,支持日常操作,面向主题,支持管理需求,数据详细,处理细节问题,综合性强,或经过提炼,存取的瞬间是准确值,代表过去的数据,可更新,不可更新,重复运行,启发式运行,事务处理驱动,分析处理驱动,非冗余性,时常有冗余,处理需求事先可知,系统可按预计的工作量进行优化,处理需求事先不知道,对性能要求高,对性能要求宽松,用户不必理解数据库,只是输入数据即可,用户需要理解数据库,以从数据中得出有意义的结论,数据仓库的重要概念,数据仓库中的几个重要概念:,1,、元数据:数据仓库中还有一部分重要数据是元数据,(Metadata),。元数据是“关于数据的数据”,如传统数据库中的数据字典就是一种元数据。在数据仓库环境中,主要有两种元数据:,第一种是为了从操作型环境向数据仓库环境转换而建立的元数据,它包含了所有源数据项名、属性及其在数据仓库中的转换;,第二种元数据在数据仓库中是用来与终端用户的多维商业模型,/,前端工具之间建立映射,此种元数据称为,DSS,元数据,常用来开发更先进的决策支持工具。,数据仓库的重要概念,数据仓库中的几个重要概念:,2,、,ETL,(,Extract Transformation Load,抽取、转换、装载):用户从数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。,3,、粒度:粒度是数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。,4,、分割:是指将数据分散到各自的物理单元中,存在某种相关性的数据组织在一起,以便能分别独立处理,以提高数据处理的效率。分割的标准可以根据实际情况来定,通常可选择按日期、地域或业务领域来进行分割。,6.2,数据仓库的体系结构,数据仓库内容按照功能分为以下几部分:,1,、元数据,元,(Meta),数据是数据仓库的核心,是关于数据的数据,是关于数据和信息资源的描述信息。它通过对数据的内容,质量,条件和其他特征进行描述和说明,帮助人们有效地定位、评论、比较、获取和使用相关数据。,6.2,数据仓库的体系结构,数据仓库内容按照功能分为以下几部分。,2,、源数据,源数据指分布在不同的应用系统中,存储在不同的平台和不同的数据库中的大量的数据信息,是数据仓库系统的基础,是整个系统的数据源泉。通常包括内部信息和外部信息。内部信息包括存放于数据库系统中的各种业务处理数据和各类文档数据,外部信息包括各类法律法规、市场信息和社会信息等。,6.2,数据仓库的体系结构,3,、数据变换工具,为了优化数据仓库的分析性能,源数据必须经过变换以最适宜的方式进入数据仓库。变换主要包括提炼、转换。数据提炼主要指数据的抽取,并对抽取数据删去不需要的运行信息,检查数据的完整性和相容性等;数据转换指统一数据编码和数据结构、给数据加上时间标志、根据需要对数据集进行各种运算以及语义转换等。数据变换工具为数据库和数据仓库之间架起了一座桥梁,使源数据得到了增值和统一,最大限度地满足了数据仓库高层次决策分析的需要。,6.2,数据仓库的体系结构,4,、数据仓库,源数据经过变换进入数据仓库。数据仓库以多维方式来组织数据和显示数据。属性维和时间维是数据仓库反映现实世界动态变化的基础,他们的数据组织方式是整个数据仓库技术的关键。,6.2,数据仓库的体系结构,5,、数据分析工具,数据仓库系统的目标是提供决策支持,它不仅需要一般的统计分析工具,更需要功能强大的分析和挖掘工具,是数据仓库系统的重要组成部分。分析工具主要实现对数据仓库中的数据进行分析和综合。挖掘工具负责从大量的数据中发现数据的关系,找到可能忽略的信息,预测趋势和行为。,数据仓库既是一种结构和富有哲理性的方法,也是一种技术。数据和信息从不同的数据源提取出来,然后把这些数据转换成公共的数据模型并且和仓库中已有的数据集成在一起。当用户向仓库进行查询时,需要的信息已经准备好了,数据冲突、表达不一致等问题已经得到了解决。这使得决策查询更容易、更有效。,6.3,数据仓库体系结构,数据仓库体系结构,1,、数据源层:是整个数据仓库系统的基础,含数据源和数据获取系统两各内容。,、数据源:为数据仓库提供源数据,(sourcedata),,他是数据仓库的基础,位于数据仓库构架的最底层,包括各个业务处理子系统的信息,如各种业务系统数据库,联机事物处理系统,(OLTP),的操作型,(operational),数据,外部数据源等都可以作为数据仓库的数据源。,、数据获取:数据仓库如何高效管理数据是区别与面向操作数据库的主要标准。实用工具获取数据,完成按照主题管理数据,聚合数据存放于多维数据库中是数据仓库的核心。,数据抽取,(extraction),、转换,(transformation),、装载,(load),和刷新,(refresh),工具的功能是从数据源中抽取数据对数据进行检验和整理,并根据数据仓库的设计要求,对数据进行重新组织和加工,装载到数据仓库的目标数据库中,并且可以周期性地刷新数据仓库以反映源的变化以及将数据仓库中的数据作转储。,数据仓库体系结构,2,、数据存储与管理层:是整个数据仓库系统的核心,含数据仓库和数据监控与管理系统两个内容。,、数据仓库或数据集市,(datamarts),,是数据仓库系统的目标数据库,(targetdatabase),,存储经检验、整理、加工和重新组织后的数据。它可以是关系数据库,(ROLAP),或多维数据,(MOLAP),。,元数据库,(metadatarepository),用于存储数据模型和元数据,元数据描述了数据仓库中的源数据和目标数据本身的信息,并定义了源数据到目标数据的转换过程。,、数据仓库监控,(monitoring),和管理,(administration),系统:对数据仓库的运行提供监控和管理手段,包括系统资源的使用情况、用户操作的合法性、安全管理、存储管理等多方面的内容。,数据仓库体系结构,3,、,OLAP,服务器,是功能强大的多用户的数据操纵引擎,对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:,ROLAP,(关系型联机分析处理)、,MOLAP,(多维联机分析处理)和,HOLAP,(混合型联机分析处理)。,ROLAP,基本数据和聚合数据均存放在,RDBMS,之中;,MOLAP,基本数据和聚合数据均存放于多维数据库中;,HOLAP,基本数据存放于,RDBMS,之中,聚合数据存放于多维数据库中。,数据仓库体系结构,4,、前端展示层,数据展示相当于数据仓库的门面,主要包括各种报表工具、查询工具、多维分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对,OLAP,服务器,报表工具、数据挖掘工具主要针对数据仓库,近几年来由于互联网的发展,使得分析领域的工具和产品更加注重提供基于,Web,前端联机分析界面,而不仅仅是在网上发布数据,数据仓库的分类,按照数据仓库的规模与应用层面来区分,数据仓库大致可分为下列几种:,标准数据仓库。,数据集市。,多层数据仓库。,联合式数据仓库。,标准数据仓库,是企业最常使用的数据仓库,它依据管理决策的需求而将数据加以整理分析,再将其转换到数据仓库之中。,这类数据仓库是以整个企业为着眼点而建构出来的,,其数据都与整个企业的数据有关,,用户可以从中得到整个组织运作的统计分析信息。,数据集市,针对某一主题或是某个部门而构建的数据仓库,,规模会比标准数据仓库小,且只存储与部门或主题相关的数据,是数据体系结构中的部门级数据仓库。,通常用于为单位的职能部门提供信息。,例如,为是销售部门、库存和发货部门、财务部门、高级管理部门等提供有用信息。,还可用于将数据仓库数据分段以反映按地理划分的业务,其中每个地区都是相对自治的。,数据集市,数据集市除具有数据仓库的基本特征之外,还具有如下特点:,(1),规模小,灵活,可以按照多种方式组织。,(2),独立数据集市的构建比较快。,(3),不同的数据集市可以分布在不同的物理平台上,也可以逻辑的分布在同一物理平台。,(4),数据集市提供了分布式数据仓库的思想。,数据集市与数据仓库的不同,对比内容,数据仓库,数据集市,范围,企业级,部门级,主题,企业主题,部门或特殊的分析主题,数据粒度,最细的粒度,较粗的粒度,历史数据,大量的历史数据,适度的历史数据,优化,处理海量数据、数据探索,便于访问和分析、快速查询,多层数据仓库,是标准数据仓库与数据集市的组合应用方式在整个架构之中,有一个最上层的数据仓库提供者,它将数据提供给下层的数据集市。,数据仓库,销售,数据集市,市场,数据集市,商店,数据集市,用户,用户,用户,6.3,数据仓库相关技术,1,数据的抽取技术,数据仓库的数据来源复杂而多样,如有网络传输、文件传递、数据库表、网页等形式,由于数据最终要整合成一体,所以数据源接入时就需要对数据源进行规范化,并对其进行转换、去重、一致化、标准化等处理。保证了进入数据仓库的数据的质量,从根本上对数据源进行把关和筛选。,数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面。,数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。,6.3,数据仓库相关技术,2,数据集成技术,数据集成是整个数据仓库系统的核心,它涉及到数据建模、,ETL,、数据质量管理、元数据管理、数据编码与数据字典等技术。,数据仓库中通常存储海量的历史数据,向用户提供快速准确的数据查询与计算分析功能,所以需对数据存储的结构进行合理的建模,以支持高效的查询分析;由于历史数据往往横跨多个年份,数据的统计口径、含义、属性等通常会发生变化,为了使数据可以在时间序列上进行比较分析,需要对数据结构进行特殊设计。,6.3,数据仓库相关技术,3,数据存储与管理技术,数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库的特性,同时也决定了其对外部数据表现形式。数据仓库存储的数据复杂且数量庞大,要满足的数据服务需求也是多样的,因此数据仓库的存储与管理技术有以下几个方面:,对大量数据的存储。数据仓库的数据量比传统事务处理大得多,且随时间的推移而累积。目前主要采用关系数据库系统,关系数据库支持数据分割技术,能够将一个大的数据库表分散在多个物理存储设备中,进一步增强了系统管理大数据量的扩展能力。,6.3,数据仓库相关技术,对复杂查询的处理。,在传统联机事务处理应用中,用户访问系统的特点是短小而密集;而在数据仓库系统中,用户访问系统的特点是庞大而稀疏,每一个查询和统计都很复杂,但访问的频率并不是很高,系统需要多处理机系统并行处理这一个复杂的查询请求服务,因此,并行处理技术在数据仓库中比以往更加重要。,6.3,数据仓库相关技术,决策支持查询的优化。关系数据库而言,针对决策支持的优化涉及数据库系统的索引机制、查询优化器、连接策略、数据排序和采样等诸多部分。,6.3,数据仓库相关技术,4 OLAP,分析技术,联机分析,(OLAP),是一种数据动态分析模型,它允许用户通过一种多维结构来访问数据仓库中经过聚合和组织整理的数据。,OLAP,最基本的概念其实只有三个:多维分析、数据钻取、立方体运算。,首先,动态的多维角度分析数据即多维分析。,OLAP,将数据分为两种特征,一种为度量数据,用来说明事实,比如进出口金额、销售量等;还有一种为维度数据,用来说明事实的特征和属性,比如进出口商品、产销国等。前者为观察的对象,后者为观察的视角。,6.3,数据仓库相关技术,4 OLAP,分析技术,其次,对数据进行钻取,以获得更精确的信息,实现从宏观到微观的分析。比如海关进出口数据中产销国分为大洲、国家两个层次,洲包含国家,在分析各大洲产品进出口情况时希望更进一步分析各国家进出口情况,就需要钻取操作,进一步细化的数据带来更精确的认识。,最后,创建数据立方体,可以想象将维度数据放在坐标轴上,度量数据位于几个坐标决定的点,这样就形成一个数据立方体。,OLAP,通常包括的功能还有数据旋转(变换观察维组合顺序)、数据切片(过滤无关数据,对指定数据进行重点观察),以及对数据进行跨行列运算(如行列差额、同比环比等运算)。,星型架构,维度表只与事实表关联,维度表彼此之间没有任何联系。每个维度表都有一个且只有一个列作为主码,该主码连接到事实数据表中的一个列上。,雪花型架构,将一个维度表分解为多个表,每个表都连接到主维度表。,6.2,联机分析处理,联机分析处理(,OLAP,)是专门为支持复杂的分析操作而设计的,,侧重于决策人员和高层管理人员的决策支持,可以快速、灵活地进行大数据量的复杂查询,以一种直观易懂的形式将查询结果提供给决策人员。,以数据库或数据仓库为基础,其最终的数据来源来自底层的数据库系统。,多维度数据分析示例,联机分析处理的基本分析功能,上卷,:在数据立方体中执行聚集操作,通过在维层次中上升或消除某个或某些维来观察更概况的数据,下钻,:通过在维层次中下降或引入某个或某些维来更细致的观察数据。,切片,:在给定的数据立方体的一个维上进行的选择操作,结果是得到了一个二维的平面数据。,切块,:在给定的数据立方体的两个或多个维上进行的选择操作,结果得到了一个子立方体。,转轴,:改变维的方向,将一个三维立方体转变为一系列二维平面。,OLAP,与,OLTP,的区别,OLTP,面向的是操作人员和底层管理人员,,OLAP,面向的是决策人员和高层管理人员;,OLTP,是对基本数据的查询和增、删、改操作处理,它以数据库为基础,,OLAP,更适合以数据仓库为基础的数据分析处理。,OLAP,所依赖的历史的、导出的及经综合提炼的数据均来自,OLTP,所依赖的底层数据库。,OLAP,数据较之,OLTP,数据要多一步数据多维化或综合处理的操作。,上卷操作示意图,城市上升到地区,下钻操作示意图,季度下降到月,切片操作示意图,时间,1,季度,切块操作示意图,(地区,“,江苏,”,or,“,浙江,”,),And,(时间,“,第一季度,”,or,“,第二季度,”,),And,(商品类型,“,家电,”,or,“,食品,”,),转轴操作示意图,转轴,5,前端展现,数据仓库的数据以及分析结果需要用一种灵活的方式展现出来,其中包括报表、查询、数据导出、多维分析、数据可视化、数据挖掘工具等方式,前三种都是较为常见的方式,多维分析在,OLAP,技术部分做了介绍。其中数据可视化就是将数据用颜色或图形的方式展现出来,使用户更为直观的观察数据。数据挖掘强调的不仅仅是验证人们对数据特性的假设,而且它更要主动地寻找并发现蕴藏在数据之中的规律,是人工智能中的一支,它主要使用数学工具和算法对海量数据进行挖掘和处理,发现隐藏在数据背后的事物之间的关系和发展规律,从而达到对未来趋势进行预测、指导人们进行决策的目的。,6.3,数据仓库相关技术,6.4,数据仓库的建立,数据仓库理论中的一个核心理念就是:事务型数据和决策支持型数据的处理性能不同,数据仓库技术将决策支持型数据处理从事务型数据处理中分离出来,数据按照一定的周期,从事务型数据库中导入决策支持型数据库,既“数据仓库”。数据仓库是按“主题”来组织数据的。,6.4,数据仓库的建立,1,设计思路,第一,数据仓库可能要用到很多类型的数据源,历史数据可能很“老”,数据库可能变得非常大。,第二,数据仓库相对于,OLTP,(联机事务处理)来说,主要考虑业务驱动,(business-driven),的而不是技术驱动的,(IT-driven),,需要和最终用户不断地交流,建立的过程采用螺旋式方法,开发过程按生存周期方式工作,反复不断发展丰富数据仓库功能。,设计要点:,数据仓库中应该包含细节数据(清理过的)。,用户能看到的任何数据都应该在元数据中有对应的描述。,考虑当数据量迅速增长到一台服务器放不下时,数据仓库中的数据在各个服务器中如何分配,按主题、地理位置还是时间?这些策略对整个数据仓库的性能影响很大。,当选用数据仓库设计工具时应注意:工具支持的元数据格式是否与数据仓库支持的元数据格式相容?不同工具的元数据格式之间能否自由转换?,最终用户对数据仓库的使用方式对数据仓库的性能影响很大,在设计数据仓库模型时为了提高性能应将用户对数据仓库的使用方式考虑在内。,6.4,数据仓库的建立,2,实现步骤,建立数据仓库的步骤:,收集和分析业务需求。,建立数据模型和数据仓库的物理设计。,定义数据源。,选择数据仓库技术和平台。,从操作型数据库中抽取、净化、和转换数据到数据仓库。,选择访问和报表工具。,选择数据库连接软件。,选择数据分析和数据展示软件。,6.4,数据仓库的建立,2,实现步骤,更新数据仓库。,其中:数据抽取、清理、转换和移植含以下功能:,数据转换工具要能从各种不同的数据源中读取数据。,支持平面文件、索引文件、和,legacyDBMS,。,能以不同类型数据源为输入整合数据。,具有规范的数据访问接口。,最好具有从数据字典中读取数据的能力。,工具生成的代码必须是在开发环境中可维护的。,能只抽取满足指定条件的数据,和源数据的指定部分。,能在抽取中进行数据类型转换和字符集转换。,能在抽取的过程中计算生成衍生字段。,能让数据仓库管理系统自动调用以定期进行数据抽取工作,或能将结果生成平面文件。,必须对软件供应商的生命力和产品支持能力进行仔细评估。,6.4,数据仓库的建立,3,数据仓库系统开发方法,传统的软件开发方法是生命周期法,虽然生命周期法是一个经典的软件开发方法,但它对于数据仓库系统,特别是基于数据仓库的决策支持系统并不合适。原因如下:第一,数据仓库的目标是面向主题,考虑到主题世界的不确定性,数据仓库设计师必须能在没有详细定义系统内每个画面和数据元素的情况下进行数据仓库的开发。传统的生命周期法要求业务决策者能与数据仓库设计师一起讨论并最终列出业务决策者所需要的决策信息,这在实际中并不可能。第二,数据仓库的设计不必要构造一个系统来满足用户的各种业务需要(有时要求甚至是相互矛盾的),企业级系统专门用于处理企业级策略。而生命周期法假定用户团体有一致的系统要求,这在决策系统中十分罕见。第三,由于数据仓库中数据来源有多种信息系统,因此对系统的数据要有一定的限制制约。,6.4,数据仓库的建立,3,数据仓库系统开发方法,传统的软件开发方法是生命周期法,虽然生命周期法是一个经典的软件开发方法,但它对于数据仓库系统,特别是基于数据仓库的决策支持系统并不合适。原因如下:第一,数据仓库的目标是面向主题,考虑到主题世界的不确定性,数据仓库设计师必须能在没有详细定义系统内每个画面和数据元素的情况下进行数据仓库的开发。传统的生命周期法要求业务决策者能与数据仓库设计师一起讨论并最终列出业务决策者所需要的决策信息,这在实际中并不可能。第二,数据仓库的设计不必要构造一个系统来满足用户的各种业务需要(有时要求甚至是相互矛盾的),企业级系统专门用于处理企业级策略。而生命周期法假定用户团体有一致的系统要求,这在决策系统中十分罕见。第三,由于数据仓库中数据来源有多种信息系统,因此对系统的数据要有一定的限制制约。,6.4,数据仓库的建立,螺旋式开发方法,图,4-4,螺旋模型示意图,下一个螺旋,概念设计,需求分析,逻辑设计,详细设计,与编码,实现与测试,总结与复审,6.5,统计,数据仓库建设,统计部门作为国民经济的信息采集与管理部门,担负着为各级政府、企事业单位及社会公众提供优质服务的责任。统计行业的各个部门拥有大量的统计指标数据,而且统计种类非常繁多,如人口普查数据、工农业普查数据、电信科技数据、环境与发展数据、机械数据等等,大到国民经济指标,小到每户的教育程度,涉及国家经济和人民生活的方方面面。随着社会经济的发展,有关的数据、信息资料会越来越多,数据量也会越来越大,相应的报表制作、信息和数据分析也非常复杂,仅仅利用数据库技术来处理这些数据间的关系往往很有限,也较难支持进行深入的数据分析和数据挖掘,因此建立统计数据仓库就成为现代统计建设的重要环节。,6.5,统计,数据仓库建设,1,统计数据管理现状分析,、指标多、数据量大,统计业务涉及到各行各业和众多企业,各级统计局除了能将这些数据汇总成为统计报表、统计年鉴、市情手册或经济卡片外,缺乏对专业统计数据进行深层次分析、综合、提炼、挖掘和展现的工具,很难对丰富的统计资源进行二次开发和利用,辅助决策的有效信息更少。,、数据格式多,统计业务部门相对独立, 统计数据来源于各专业,数据处理以完成专业的任务为主。如果要将这些不同部门或不同时期的数据集中起来加以综合利用,就可能出现数据不齐全、不一致或重复现象。,、数据来源多,存放分散,统计数据不仅来源于统计局内部各业务部门,还来源于直报企业和其他相关部门,但这些统计数据一般分别存放在各个统计专业数据库中,而且大多只保存近期数据,缺乏集中存放和管理不同专业、不同时期统计数据的有效手段,因此不利于统计数据的进一步加工利用。,、数据源复杂,数据库多,由于我国统计系统规模庞大、关系复杂、层次多, 各基层数据填报单位各自开发满足自身需要的数据库,难以形成数据的综合分析与利用。,6.5,统计,数据仓库建设,数据仓库的面向主题特性、集成特性、稳定性、不同时间的数据集合特性满足了统计信息系统的需求,因此建立统计数据仓库成为统计信息化得必然选择:,、,对分布在不同地点的数据或信息进行操作(包括内部的、外部的或远程的数据及信息);,、,对不同时间的数据和信息进行操作(包括历史的、当前的和未来的各种信息);,、对不同类型和模式的数据或信息进行操作(包括结构化、半结构化和非结构化的信息类型及文本、数字、声音、图形图像、视频、动画、地图等数据格式)。,6.5,统计,数据仓库建设,2,统计数据仓库涉及的基本内容,统计数据仓库是基于现有的统计数据库上进行建设开发的,它着眼于有效地抽取、综合、集成和挖掘已有数据资源,提供最有价值的信息,为政府和社会服务。,建设统计数据仓库必然涉及:体系结构的规划和设计、源数据的抽取和装载、目标数据的组织和管理、统计分析预测、统计信息查询等。,6.5,统计,数据仓库建设,2.1,统计数据仓库体系结构的规划和设计,从技术上来看,统计数据仓库体系结构基本可用四层结构来表达,四个层面分别是:源数据、数据模型、前端应用和系统管理。,源数据:数据仓库是对数据源的整合,将分散于各专业的数据组合成一个整体,摸索出它们的规律和特点,搭建一个通用的数据管理平台,使历史数据成为有效的、可延续的、再利用的活档案。统计数据源含现有不同层次的统计数据库,如县级、地市级、省级的数据库,如各种专题数据库、部门数据库、普查数据库等,由于数据源层次多、关系复杂,因此要在充分分析的基础上建立相关元数据库用以描述统计源的信息和接口规范。,数据仓库模型:规划符合中国统计工作的数据仓库模型,该模型能适应统计数据源的变化,适应源数据的抽取和装载。数据仓库是面向主题的,通常可以根据不同主题不分专业建立数据模型。,数据仓库前端的应用系统:包括统计分析预测、随机查询、图形化分析和完善的报表功能等。构建决策支持系统,充分体现建设数据仓库的意义。,数据仓库的管理系统:完成系统参数管理、过程监控、日志管理、前端应用监控、系统元数据管理等。,6.5,统计,数据仓库建设,2.2,数据的抽取、清洗、集成及装载,分析统计数据的特点:指标繁多、数据量大、数据格式多、存放分散、数据关系复杂、数据库多乱、历史周期长、横向分析多,利用数据仓库对这些数据进行统一运作,集中管理,把原来相对分散的数据按照不同的主题管理起来。,数据仓库系统中的元数据来自于历年存储在不同地点、不同系统中的数据库,因此数据的抽取、清洗、集成要充分考虑源数据库环境和平台。数据抽取还包括审核历年的指标,抽取与指标相关的有效数据以及集成来自不同数据库的与主题相关的数据。最后,通过网络利用数据加载转换工具将提炼出的有效数据格式转换成目标格式并加载至目标数据库。,6.5,统计,数据仓库建设,2.3,目标数据的组织和管理,目标数据的工作主要包括:根据建立数据仓库和用户信息的需要,按照确定的主题、粒度和指标范围组织和分割数据;建立数据视图、索引或数据模型,优化系统配置,提高查询和分析处理性能。对于重要的综合统计数据,要按照指标的口径范围和行政区划的变化进行调整。,组织与管理的数据范围包括:常规统计数据(统计年报、季报、月报数据)、各种普查数据、抽样调查和专项调查数据、相关单位提供数据、外部公布数据摘录、地理信息数据及其他数据。,需要有一种软件系统在后台大型服务器或小型机上集中统一存储管理来自不同专业的不同时期的数据信息,前台软件快速灵活解决随机动态的统计分析查询要求。,6.5,统计,数据仓库建设,2.4,统计分析预测,统计预测主要包括:多维分析、数据挖掘、经济计量分析、数理统计分析等数学模型(经济计量分析包括时间序列、线性分析等分析方法)。,数据挖掘包括:决策树、人工神经元网络、粗糙集、贝叶斯和关联规则等方法。,数理统计分析包括:回归分析、方差分析、相关分析、判别分析、聚类分析等。,数据的联机分析、报表、查询是数据仓库系统的关键所在,是用户步入联机分析的窗口,它必须具备可视性强、操作简便、智能性强等特点,能很好地支持,Web,方式。,6.4,数据仓库的建立,本章结束,谢谢,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 小学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!