资源描述
单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2020-10-22,#,单击此处编辑母版标题样式,第,3,讲,数据仓库中的数据及组织,1,第3讲 1,数据仓库产生的原因,数据处理的类型,操作型处理(OLTP):数据的收集、整理、存储、,查询和增、删、改操作,。,分析型处理(OLAP):数据的再加工,往往要访问大量的历史数据,进行,复杂的统计分析,。,2,数据仓库产生的原因数据处理的类型2,数据仓库的四个基本特征:,数据仓库的数据是,面向主题,的(Subject Oriented);,数据仓库的数据时,集成,的(Integrate);,数据仓库的数据,不可更新,(Non-Volatile);,数据仓库的数据时,随时间不断变化,(Time Variant)的。,数据仓库的基本概念,3,数据仓库的四个基本特征:数据仓库的基本概念3,数据仓库的体系结构,4,数据仓库的体系结构4,数据库和数据仓库,两层体系结构(DB-DW),并,不能涵盖企业所有的数据处理要求,。,某些应用既,不是纯粹,的联机事务处理,又,不是,高层决策分析。,什么是ODS,5,数据库和数据仓库两层体系结构(DB-DW)并不能涵盖企业所有,ODS的定义及特点,定义:是用于支持企业,日常的全局应用,的数据集合。,ODS中的数据具有4各基本特征:面向主题的、集成的、,可更新的,、数据是,当前,或,接近当前,的。,ODS中只存放,当前,或,接近当前,的数据,并且可以进行,联机修改,,包括增、删、改等操作。,6,ODS的定义及特点定义:是用于支持企业日常的全局应用的数据集,DW与ODS,面向不同的用户、不同的需求,,都有其,不可替代的作用,,彼此间不是相互包含的,同时两者又可以相互结合、相互补充。,DB,DB,DB,ODS,DW,应用,操作型环境,分析型环境,三层体系结构,7,DW与ODS面向不同的用户、不同的需求,都有其不可替代的作用,3.1 数据仓库中的数据组织,3.2 数据仓库中数据的追加,3.3 数据仓库中的元数据,8,3.1 数据仓库中的数据组织8,数据仓库中存储两类数据:,业务数据和元数据,3.1数据仓库中的数据组织,9,数据仓库中存储两类数据:3.1数据仓库中的数据组织9,数据仓库的体系结构,10,数据仓库的体系结构10,数据仓库中存储的数据,3.1数据仓库中的数据组织,后备数据,后备数据,后备数据,高度综合级,轻度综合级,当前细节级,早期细节级,元,数,据,11,数据仓库中存储的数据3.1数据仓库中的数据组织后备数据后备数,源数据经过抽取、转换后,首先进入,当前细节级,,再根据具体需要进行进一步的综合,从而进入,轻度综合级,乃至,高度综合级,。,老化的数据进入,早期细节级,。,3.1数据仓库中的数据组织,12,源数据经过抽取、转换后,首先进入当前细节级,再根据具体需要进,数据组织的实例,3.1数据仓库中的数据组织,数,据,仓,库,层,后备数据,后备数据,后备数据,高度综合级,轻度综合级,当前细节级,早期细节级,2015,每“月”,电话呼叫情况信息,2015,每“天”,电话呼叫情况信息,2015每个电话呼叫情况信息,20102014,电话呼叫明细情况信息,13,数据组织的实例3.1数据仓库中的数据组织数后备数据后备数据后,1)数据粒度,数据粒度是数据仓库的重要概念。存在两种形式,,形式一:,粒度是对数据仓库中数据的综合程度高低的一个,度量,。,粒度越小,细节程度越高,综合程度越低。,14,1)数据粒度数据粒度是数据仓库的重要概念。存在两种形式,14,不同的情况组织数据的粒度会不同。,如:,电信通话,细节数据:记录,每一次,通话情况。,轻度综合数据:记录顾客,每天,的通话情况。,高度综合数据:记录顾客,每月,的通话情况。,1)数据粒度,15,不同的情况组织数据的粒度会不同。1)数据粒度15,超市购物,细节数据:记录顾客,每一次,购物细节。,轻度综合数据:记录每个顾客,每次的购物金额,,或每种商品,每一天的销售数据,。,高度综合数据:记录每个顾客,每月或每年,的购物金额,或每种商品,每月或每年,的销售数据。,1)数据粒度,16,超市购物1)数据粒度16,1)数据粒度,数据粒度的确定是业务分析、硬件、软件的一个折中。,在数据仓库中,多重粒度,是必不可少的,17,1)数据粒度数据粒度的确定是业务分析、硬件、软件的一个折中。,1)数据粒度,数据粒度是数据仓库的重要概念。存在两种形式,,形式二:,样本数据库,其粒度是根据,采样率,的高低来划分的。,盖洛普民意测验是一种观点的民意测验,其特点是用简单的随机取样法并且试图把偏差度保持在最低。,18,1)数据粒度数据粒度是数据仓库的重要概念。存在两种形式,18,2)数据分割,数据分割是数据仓库中的另一个重要概念。,它是指将数据分布到各自的物理单元中,以便能分别独立处理,,提高数据分析效率,。,数据分割后的,数据单元称为分片,。,19,2)数据分割数据分割是数据仓库中的另一个重要概念。19,MySQL,MySQL,MySQL,MySQL,MySQL,MySQL,MySQL,MySQL,MySQL,MySQL,MySQL,MySQL,MySQL,20,MySQLMySQLMySQLMySQLMySQLMySQL,2)数据分割,数据分割的标准可以根据实际情况来确定,通常选择:按日期、地域、业务领域等来进行。,21,2)数据分割数据分割的标准可以根据实际情况来确定,通常选择:,2)数据分割,数据分割的方法,垂直分割:垂直分割就是把一个表垂直分成两部分。,水平分割:水平分割就是把表按行分成两部分。,22,2)数据分割数据分割的方法22,App,ID,MEMBE_ID,INFO,1,pavarotti17,11,pavarotti17,MySQL,ID,MEMBE_ID,INFO,4,test1234,5,test1234,ID,MEMBE_ID,INFO,3,abcd,9,abcd,20,abcd,MySQL,MySQL,CobarProxy,App,App,App,App,App,App,App,2)数据分割,23,AppIDMEMBE_IDINFO1pavarotti17,2)数据分割,一个简单的分割例子。,24,2)数据分割一个简单的分割例子。24,3.1 数据仓库中的数据组织,3.2 数据仓库中数据的追加,3.3 数据仓库中的元数据,25,3.1 数据仓库中的数据组织25,3.2数据仓库中数据的追加,当数据仓库的数据初装完成以后,再向数据仓库输入(导入)数据的过程称为,数据追加,。,如何能够确切地感知究竟哪些数据是在上一次追加过程以后新生成的,这项工作称为,变化数据的捕捉,。,26,3.2数据仓库中数据的追加当数据仓库的数据初装完成以后,再向,需要对源数据库的数据模式加以修改,加上,时标字段,。,对新插入或更新的数据记录,在记录中加更新时的时标。,1)时标法,27,需要对源数据库的数据模式加以修改,加上时标字段。1)时标法2,由应用生成的文件,用来记录应用所改变的数据内容。,在要被抽取的源表上建立插入、修改、删除3个,触发器,,每当源表中的数据发生变化,相应的触发器将变化的数据写入一个增量日志表。,2)DELTA文件,28,由应用生成的文件,用来记录应用所改变的数据内容。2)DELT,在上次抽取数据库数据到数据仓库之后及本次将抽取数据库数据之前,对数据库分别做一次快照,然后比较两幅快照的不同。,缺点,:需要占用大量资源,影响系统性能。,3)前后快照文件的方法,29,在上次抽取数据库数据到数据仓库之后及本次将抽取数据库数据之前,通过分析数据库自身的日志来判断变化的数据。,优点:,提取的变化数据只局限于日志文件,不需扫描整个数据库。,4)日志文件,30,通过分析数据库自身的日志来判断变化的数据。4)日志文件30,3.1 数据仓库中的数据组织,3.2 数据仓库中数据的追加,3.3 数据仓库中的元数据,31,3.1 数据仓库中的数据组织31,3.3数据仓库中的元数据,传统数据库中为了说明数据引入了数据字典的概念。,数据字典是描述数据的数据。,32,3.3数据仓库中的元数据传统数据库中为了说明数据引入了数据字,3.3.1元数据的定义,元数据:,是用来描述数据的数据。它描述和定位数据组件、它们的来源及它们在数据仓库进程中的活动;关于数据和操作的相关描述(输入、计算和输出)。,33,3.3.1元数据的定义元数据:是用来描述数据的数据。它描述和,3.3.1元数据的定义,其主要目标,是提供数据资源的全面指南,使得数据仓库管理员和开发人员可以方便地了解数据仓库中,有什么数据,?,数据在什么地方,?它们来源于哪里,以及数据仓库系统中是,如何利用,这些数据?如何管理这些数据?,34,3.3.1元数据的定义其主要目标是提供数据资源的全面指南,使,与元数据产生、存储有关的工具:,数据抽取工具:完成ETL操作。,前端展现工具:实现把关系表映射成与业务相关的事实表和维表来支持多维业务视图,进行多维分析。,建模工具:提供更高层次的、与特定业务相关的语义。,元数据存储工具:用于将元数据存储在专门的数据库中。,3.3.1元数据的定义,35,与元数据产生、存储有关的工具:3.3.1元数据的定义35,3.3.2元数据的分类,元数据可以按多种方式分类:,按用户分类,按功能分类,36,3.3.2元数据的分类元数据可以按多种方式分类:36,1)按使用元数据的用户分类,按使用元数据的用户分类:,技术元数据:是关于数据仓库系统,技术细节,的描述数据,是数据仓库开发人员和管理人员需要使用的重要信息。主要包括数据仓库结构的描述等。,业务元数据:从,业务角度,描述数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层定义,使得不懂计算机技术的业务人员也能够理解数据仓库中的数据。,37,1)按使用元数据的用户分类按使用元数据的用户分类:37,3.按功能分类,按功能分类:,数据源元数据,ETL规则元数据,ODS元数据和DW元数据,报表元数据,接口数据文件格式元数据,商业元数据,1)按使用元数据的用户分类,38,3.按功能分类按功能分类:1)按使用元数据的用户分类38,3.3.3元数据管理的标准化,元数据在数据仓库系统中占有十分重要的地位,但是目前工业界的各种数据仓库管理和分析工具却常常使用不同的元数据标准,使得元数据管理、不同系统之间的迁移、数据交换变得困难。,迫切需要建立一种统一的标准,使得不同数据仓库和商务智能系统之间可以相互交换元数据。,从而产生了基于元数据联盟(Meta Data Coalition,MDC)和OMG组织的相关元数据标准。,39,3.3.3元数据管理的标准化元数据在数据仓库系统中占有十分重,1)MDC的OIM标准,背景,MDC成立于1995年。,致力于建立于厂商无关、不依赖于具体技术的企业元数据管理标准的非营利技术联盟。有150多个会员。,提出了开放信息模型(Open Information Model,OIM)。,1999年7月接受微软的建议,将OIM作为元数据标准。,40,1)MDC的OIM标准背景40,1)MDC的OIM标准,OIM标准的目的,通过公共的元数据信息来支持不同工具和系统之间数据的共享和重用。,它涉及信息系统的各个阶段。,采用UML描述。,41,1)MDC的OIM标准OIM标准的目的41,2)OMG组织的CWM标准,背景,对象管理组织(英文Object Management Group,缩写为OMG),是一个国际协会,开始的目的是为分布式面向对象系统建立标准,现在致力于建立对程序、系统 和 业务流程的建模标准,以及基于模型的标准。,有500多个会员。,提出了公共仓库元模型(Common Warehouse Metamodel,CWM)。,42,2)OMG组织的CWM标准背景42,2)OMG组织的CWM标准,CWM标准的目的,异构环境下,帮助不同的数据仓库工具、平台和元数据知识库进行元数据交换。,43,2)OMG组织的CW
展开阅读全文