大数据仓库教程培训课件(ppt 59页)

上传人:Za****n* 文档编号:161067157 上传时间:2022-10-12 格式:PPTX 页数:59 大小:1.86MB
返回 下载 相关 举报
大数据仓库教程培训课件(ppt 59页)_第1页
第1页 / 共59页
大数据仓库教程培训课件(ppt 59页)_第2页
第2页 / 共59页
大数据仓库教程培训课件(ppt 59页)_第3页
第3页 / 共59页
点击查看更多>>
资源描述
1数据仓库数据仓库Data WarehouseData Warehouse2事务型处理事务型处理n事务型处理:即操作型处理,是指对数据库的联机操作事务型处理:即操作型处理,是指对数据库的联机操作处理处理OLTP。事务型处理是用来协助企业对响应事件或。事务型处理是用来协助企业对响应事件或事务的日常商务活动进行处理。它是事件驱动、面向应事务的日常商务活动进行处理。它是事件驱动、面向应用的,通常是对一个或一组记录的增、删、改以及简单用的,通常是对一个或一组记录的增、删、改以及简单查询等(大量、简单、重复和例行性)。查询等(大量、简单、重复和例行性)。n在事务型处理环境中,数据库要求能支持日常事务中的在事务型处理环境中,数据库要求能支持日常事务中的大量事务,用户对数据的存取操作频率高而每次操作处大量事务,用户对数据的存取操作频率高而每次操作处理的时间短。理的时间短。3分析型处理分析型处理n分析型处理:用于管理分析型处理:用于管理人员的决策分析,例如人员的决策分析,例如DSSDSS、EISEIS和多维分析等。和多维分析等。它帮助决策者分析数据它帮助决策者分析数据以察看趋向、判断问题。以察看趋向、判断问题。n分析型处理经常要访问分析型处理经常要访问大量的历史数据,支持大量的历史数据,支持复杂的查询。复杂的查询。n分析型处理过程中经常分析型处理过程中经常用到外部数据,这部分用到外部数据,这部分数据不是由事务型处理数据不是由事务型处理系统产生的,而是来自系统产生的,而是来自于其他外部数据源。于其他外部数据源。4事务型处理数据和分析型处理数据的区别事务型处理数据和分析型处理数据的区别特性OLTPOLAP特征面向用户功能DB 设计数据汇总视图工作单位存取关注操作访问记录数用户数DB规模优先度量操作处理事务办事员、DBA、数据库专业人员日常操作基于E-R,面向应用当前的;确保最新原始的,高度详细详细,一般关系短的、简单事务读/写数据进入主关键字上索引/散列数十个数千100MB到GB高性能,高可用性事务吞吐量信息处理分析知识工人(如经理、主管、分析员)长期信息需求,决策支持星形/雪花,面向主题历史的;跨时间维护汇总的,统一的汇总的,多维的复杂查询大多为读信息输出大量扫描数百万数百100GB到TB高灵活性,端点用户自治查询吞吐量,响应时间5数据库系统的局限性数据库系统的局限性n数据库适于存储高度结构化的日数据库适于存储高度结构化的日常事务细节数据,而决策型数据常事务细节数据,而决策型数据多为历史性、汇总性或计算性数多为历史性、汇总性或计算性数据,多表现为静态数据,不需直据,多表现为静态数据,不需直接更新,但可周期性刷新。接更新,但可周期性刷新。n决策分析型数据是多维性,分析决策分析型数据是多维性,分析内容复杂。内容复杂。n在事务处理环境中,决策者可能在事务处理环境中,决策者可能并不关心具体的细节信息,在决并不关心具体的细节信息,在决策分析环境中,如果这些细节数策分析环境中,如果这些细节数据量太大一方面会严重影响分析据量太大一方面会严重影响分析效率,另一方面这些细节数据会效率,另一方面这些细节数据会分散决策者的注意力。分散决策者的注意力。DB2OracleSQLServerExcelspreadsheetXMLdocumentInternetSSLclientapplicationsBrowsersData managementlayerApplicationlayerWebservers6数据库系统的局限性(续)数据库系统的局限性(续)n当事务型处理环境和分析型处理环境在同一个数据库系统中,当事务型处理环境和分析型处理环境在同一个数据库系统中,事务型处理对数据的存取操作频率高,操作处理的时间短,事务型处理对数据的存取操作频率高,操作处理的时间短,而分析型处理可能需要连续运行几个小时,从而消耗大量的而分析型处理可能需要连续运行几个小时,从而消耗大量的系统资源。系统资源。n决策型分析数据的数据量大,这些数据有来自企业内部的,决策型分析数据的数据量大,这些数据有来自企业内部的,也有来自企业外部的。来自企业外部的数据又可能来自不同也有来自企业外部的。来自企业外部的数据又可能来自不同的数据库系统,在分析时如果直接对这些数据操作会造成分的数据库系统,在分析时如果直接对这些数据操作会造成分析的混乱。对于外部数据中的一些非结构化数据,数据库系析的混乱。对于外部数据中的一些非结构化数据,数据库系统常常是无能为力统常常是无能为力。7多库系统的限制多库系统的限制n可用性:源站点或通信网络故障将导致系统瘫痪可用性:源站点或通信网络故障将导致系统瘫痪,源站点不能源站点不能通过网络在线联入多库系统。通过网络在线联入多库系统。n响应速度:全局查询多级转换和通信传输响应速度:全局查询多级转换和通信传输,延迟和低层效率影延迟和低层效率影响响应速度。响响应速度。n系统性能:总体性能取决于源站点中性能最低的系统系统性能:总体性能取决于源站点中性能最低的系统,影响系影响系统性能的发挥统性能的发挥;n系统开销:每次查询要启动多个局部系统系统开销:每次查询要启动多个局部系统,通信和运行开销大。通信和运行开销大。8实施数据仓库的条件实施数据仓库的条件n数据积累已达到一定规模n面临激烈的市场竞争n在IT方面的资金能得到保障 9数据仓库的发展数据仓库的发展n自从自从NCR公司为公司为Wal Mart建立了第一个数据仓库。建立了第一个数据仓库。n1996年,加拿大的年,加拿大的IDC公司调查了公司调查了62家实现了数据仓库的欧美家实现了数据仓库的欧美企业,结果表明:数据仓库为企业提供了巨大的收益。企业,结果表明:数据仓库为企业提供了巨大的收益。n早期的数据仓库大都采用当时流行的客户早期的数据仓库大都采用当时流行的客户/服务器结构。近年来服务器结构。近年来分布式对象技术飞速发展,整个数据仓库体系结构从功能上划分分布式对象技术飞速发展,整个数据仓库体系结构从功能上划分为若干个分布式对象,这些分布式对象不仅可以直接用于建立数为若干个分布式对象,这些分布式对象不仅可以直接用于建立数据仓库,还可以在应用程序中向用户提供调用的接口。据仓库,还可以在应用程序中向用户提供调用的接口。nIBM的实验室在数据仓库方面已经进行了的实验室在数据仓库方面已经进行了10多年的研究,并将多年的研究,并将研究成果发展成为商用产品。研究成果发展成为商用产品。n其他数据库厂商在数据仓库领域也纷纷提出了各自的解决方案。其他数据库厂商在数据仓库领域也纷纷提出了各自的解决方案。10数据仓库数据仓库(Data Warehouse)(Data Warehouse)n数据仓库用来保存从多个数据库或其它信息源选取的数据数据仓库用来保存从多个数据库或其它信息源选取的数据,并为并为上层应用提供统一上层应用提供统一 用户接口,完成数据查询和分析。支持整个用户接口,完成数据查询和分析。支持整个企业范围的主要业务来建立的,主要特点是,包含大量面向整个企业范围的主要业务来建立的,主要特点是,包含大量面向整个企业的综合信息及导出信息。企业的综合信息及导出信息。n数据仓库是作为数据仓库是作为DSS服务基础的分析型服务基础的分析型DB,用来存放大容量的用来存放大容量的只读数据,为制定决策提供所需要的信息。只读数据,为制定决策提供所需要的信息。n数据仓库是与操作型系统相分离的、基于标准企业模型集成的、数据仓库是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的、面向主题及不可更新的数据集合。带有时间属性的、面向主题及不可更新的数据集合。n以以1992年年W H Inmon出版出版Building the Data Warehouse为标志,数据仓库发展速度很快。为标志,数据仓库发展速度很快。W H Inmon被誉为数据仓库被誉为数据仓库之父。之父。nW H Inmon对数据仓库所下的定义:数据仓库是面向主题的、对数据仓库所下的定义:数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程。过程。11面向主题面向主题n数据仓库中的数据是按照各种主题来组织的。主题在数据仓数据仓库中的数据是按照各种主题来组织的。主题在数据仓库中的物理实现是一系列的相关表,这不同于面向应用环境。库中的物理实现是一系列的相关表,这不同于面向应用环境。如保险公司按照应用组织可能是汽车保险、生命保险、伤亡如保险公司按照应用组织可能是汽车保险、生命保险、伤亡保险,而数据仓库是按照客户、政策、保险金和索赔来组织保险,而数据仓库是按照客户、政策、保险金和索赔来组织数据。数据。n面向主题的数据组织方式可在较高层次上对分析对象的数据面向主题的数据组织方式可在较高层次上对分析对象的数据给出完整、一致的描述,能完整、统一的刻画各个分析对象给出完整、一致的描述,能完整、统一的刻画各个分析对象所涉及的企业的各项数据以及数据之间的联系,从而适应企所涉及的企业的各项数据以及数据之间的联系,从而适应企业各个部门的业务活动特点和企业数据的动态特征,从根本业各个部门的业务活动特点和企业数据的动态特征,从根本上实现数据与应用的分离。上实现数据与应用的分离。12集成性集成性n数据仓库中的数据是从原数据仓库中的数据是从原有分散的源数据库中提取有分散的源数据库中提取出来的,其每一个主题所出来的,其每一个主题所对应的源数据在原有的数对应的源数据在原有的数据库中有许多冗余和不一据库中有许多冗余和不一致,且与不同的应用逻辑致,且与不同的应用逻辑相关。为了创建一个有效相关。为了创建一个有效的主题域,必须将这些来的主题域,必须将这些来自不同数据源的数据集成自不同数据源的数据集成起来,使之遵循统一的编起来,使之遵循统一的编码规则。码规则。13稳定性稳定性n数据仓库内的数据有很长的时间跨度,通常是数据仓库内的数据有很长的时间跨度,通常是5-10年。年。n数据仓库中的数据反映的是一段时间内历史数据的内容,是不同数据仓库中的数据反映的是一段时间内历史数据的内容,是不同时点的数据库快照的集合,以及基于撰写快照进行统计、综合和时点的数据库快照的集合,以及基于撰写快照进行统计、综合和重组的导出数据。主要供企业高层决策分析之用,所涉及的数据重组的导出数据。主要供企业高层决策分析之用,所涉及的数据操作主要是查询,一般情况下并不进行修改操作操作主要是查询,一般情况下并不进行修改操作.n数据仓库中的数据是不可实时更新的,仅当超过规定的存储期限,数据仓库中的数据是不可实时更新的,仅当超过规定的存储期限,才将其从数据仓库中删除,提取新的数据经集成后输入数据仓库。才将其从数据仓库中删除,提取新的数据经集成后输入数据仓库。14时变性时变性n时变性:许多商业分析要求对发展趋势做出预测,对发展趋时变性:许多商业分析要求对发展趋势做出预测,对发展趋势的分析需要访问历史数据。因此数据仓库必须不断捕捉势的分析需要访问历史数据。因此数据仓库必须不断捕捉OLTPOLTP数据库中变化的数据,生成数据库的快照,经集成后增数据库中变化的数据,生成数据库的快照,经集成后增加到数据仓库中去;另外数据仓库还需要随时间的变化删去加到数据仓库中去;另外数据仓库还需要随时间的变化删去过期的、对分析没有帮助的数据,并且还需要按规定的时间过期的、对分析没有帮助的数据,并且还需要按规定的时间段增加综合数据。段增加综合数据。15支持管理决策支持管理决策n数据仓库支持数据仓库支持OLAPOLAP(联机分析处理)、数据挖掘和决策(联机分析处理)、数据挖掘和决策分析。分析。OLAPOLAP从数据仓库中的综合数据出发,提供面向分从数据仓库中的综合数据出发,提供面向分析的多维模型,并使用多维分析的方法从多个角度、多析的多维模型,并使用多维分析的方法从多个角度、多个层次对多维数据进行分析,使决策者能够以更加自然个层次对多维数据进行分析,使决策者能够以更加自然的方式来分析数据。数据挖掘则以数据仓库和多维数据的方式来分析数据。数据挖掘则以数据仓库和多维数据库中的数据为基础,发现数据中的潜在模式和进行预测。库中的数据为基础,发现数据中的潜在模式和进行预测。因此,数据仓库的功能是支持管理层进行科学决策,而因此,数据仓库的功能是支持管理层进行科学决策,而不是事务处理。不是事务处理。16BIBI系统系统VSVS决策盲点决策盲点n某大型国有企业老总当他查看近十年企业的生产和运营数据时,某大型国有企业老总当他查看近十年企业的生产和运营数据时,手边得到了各种各样不同的数据报表。这些数据报表大致可以手边得到了各种各样不同的数据报表。这些数据报表大致可以分成两种类型:一种是两年前、即分成两种类型:一种是两年前、即ERP上线之前的,这是一些上线之前的,这是一些简单、杂乱而又枯燥的数字;另一种是有了简单、杂乱而又枯燥的数字;另一种是有了ERP以后的,数据以后的,数据变得清楚而有条理起来,同时还有来自变得清楚而有条理起来,同时还有来自ERP、CRM、SCM以以及计费业务等不同应用的数据和各种分析报告。在仔细查看这及计费业务等不同应用的数据和各种分析报告。在仔细查看这些报表之后,这位国企老总惊讶地发现,不同的系统可以得出些报表之后,这位国企老总惊讶地发现,不同的系统可以得出截然相反的两种结论。例如某一产品,它的动态成本反映在截然相反的两种结论。例如某一产品,它的动态成本反映在ERP系统和系统和CRM、SCM系统里面相差很大,如果引用系统里面相差很大,如果引用ERP和和CRM里面的数据,它就是一款很成功、销量很好的产品,但里面的数据,它就是一款很成功、销量很好的产品,但在在SCM里面来看,它的采购和物流成本过高,导致了这款看里面来看,它的采购和物流成本过高,导致了这款看起来很成功的产品实际上是一笔赔钱的买卖。起来很成功的产品实际上是一笔赔钱的买卖。17BIBI系统系统VSVS决策盲点决策盲点(续续)n其实从这些来自不同系统的数据基础产生不同的判断很正常,其实从这些来自不同系统的数据基础产生不同的判断很正常,因为这些系统并不会去周密地因为这些系统并不会去周密地“思考思考”在自己在自己“职责职责”之外的之外的事情。这样就给企业的领导提交了相当多顾此失彼的分析报告,事情。这样就给企业的领导提交了相当多顾此失彼的分析报告,结果就是导致了许多市场决策上的混乱和失误。结果就是导致了许多市场决策上的混乱和失误。n把企业的内部数据和外部数据把企业的内部数据和外部数据(企业内部数据就是指上述企业内部数据就是指上述通过业务系统通过业务系统SCM、ERP、CRM等收集到的数据,这等收集到的数据,这些数据可能在不同的硬件、数据库、网络环境中,为不些数据可能在不同的硬件、数据库、网络环境中,为不同的业务部门服务。外部数据是市场信息和外部竞争对同的业务部门服务。外部数据是市场信息和外部竞争对手的信息手的信息)。进行有效的集成,形成直观的、易于理解的。进行有效的集成,形成直观的、易于理解的信息,再进行分析和思考,为企业的各层决策及分析人信息,再进行分析和思考,为企业的各层决策及分析人员使用。员使用。18数据仓库的技术要求数据仓库的技术要求n复杂分析的高性能体现:涉及大量数据的聚集、综合等,在进行复杂查询时经常会使用多表的联接、累计、分类、排序等操作。n对提取出来的数据进行集成:数据仓库中的数据是从多个应用领域中提取出来的,在不同的应用领域和不同的数据库系统中都有不同的结构和形式,所以如何对数据进行集成也是构建数据仓库的一个重要方面。n对进行高层决策的最终用户的界面支持:提供各种分析应用工具。19数据仓库系统的结构数据仓库系统的结构 数据质量控制 数据重新组织 E II 解 决 方 案 数据质量控制 数据重新组织 E II 解 决 方 案 数据质量控制 数据重新组织 E II 解 决 方 案 企 业 信 息 集成(E II)数 据 展 现 数 据 管 理 数 据 获 取 数 据 迁 移 数 据 清 洗 数 据 仓 库 元 数 据 管 理 数 据 集 市 管 理 安 全 性、分 析 管 理 最 终 用 户 数据质量控制 数据重新组织 E T L 解 决 方 案 数据抽取、迁移、加载 周 数 据 加 载 日 常 数 据 增 加 日 周 期 E T L 周 日 周 期 数 据 源 E T L 数 据 存 储 管 理 业 务 模 型 数 据 展 现 利 润 成 本 分析 资 产 分 析 营 销 分 析 投 资 组 合 分析 平 衡 记 分 卡/K P I 解 决 的 业 务 问 题 利 润 成 本 分 析 资 产 分 析 营 销 分 析 投 资 组 合 分 析 平 衡 计 分 卡 数 据 分 析 采 购 系 统 生 产 系 统 销 售 系 统 财 务 系 统 采 购 系 统 生 产 系 统 销 售 系 统 财 务 系 统 数 据 仓 库 企业数模 型 R D M D D B D W 即 席 查 询 In tra n e t/In te rn e t 产 品 报 告 数 据 挖 掘 O L A P 分 析 随 即 查 询 报 表 例 外 分 析 数 据 挖 掘 决 策 人 员 管 理 人 员 分 析 人 员 业 务 人 员 实 时 增 量 虚 拟 数 据 仓 库 实 时 增 量 虚 拟 数 据 仓 库 实 时 增 量 实 时 增 量 虚 拟 数 据 仓 库 访 问 工 具 O D S 元 数 据 管 理(业 务 元 数 据、技 术 元 数 据 等)20数据仓库系统的结构数据仓库系统的结构(2)21数据仓库系统的结构数据仓库系统的结构(3)22数据仓库流程数据仓库流程23Tivoli Storage ManagerFile EditViewHelpToolsBackForwardStopHomeSearchRefreshxHistoryMailPrintAddress:http:/my_InternetCustomize Home PageEditLogoutx!get forecast200001500010000 50002Q003Q004Q001Q01Centralnextprior?Corporate NewsCompetitor News07/02/2001 19:29:20WebSphere Portal ServerContent ManagerFederatedSearchKPIsDB2DB2DB2virtual tablesReports&ContentIBMIBMRedBrickIBM IBM 信息分析框架信息分析框架24数据仓库系统的组成(数据仓库系统的组成(1 1)n源数据:数据仓库中的数据来源于多个数据源,源数据:数据仓库中的数据来源于多个数据源,它不仅可以是企业内部的关系型数据库,还包括它不仅可以是企业内部的关系型数据库,还包括非传统数据,如文件、非传统数据,如文件、HTML文档等。文档等。n数据仓库管理系统:数据仓库管理系统:n元数据库及元数据管理部件:元数据库用来存储由定义元数据库及元数据管理部件:元数据库用来存储由定义部件生成的关于源数据、目标数据、提取规则、转换规部件生成的关于源数据、目标数据、提取规则、转换规则以及源数据与数据仓库之间的映射信息等。则以及源数据与数据仓库之间的映射信息等。n数据转换部件:该部件把数据从源数据中提取出来,依数据转换部件:该部件把数据从源数据中提取出来,依定义部件的规则将不同数据格式的源数据转换成数据仓定义部件的规则将不同数据格式的源数据转换成数据仓库的数据格式并装载进数据仓库。库的数据格式并装载进数据仓库。n数据集成部件:该部件根据定义部件的规则、统一各源数据集成部件:该部件根据定义部件的规则、统一各源数据的编码规则,并净化数据,根据元数据中定义的数数据的编码规则,并净化数据,根据元数据中定义的数据组织形式对数据进行汇总、聚合计算。据组织形式对数据进行汇总、聚合计算。n数据仓库管理部件:它主要用于维护数据仓库中的数据,数据仓库管理部件:它主要用于维护数据仓库中的数据,备份、恢复数据以及管理数据的安全权限问题。备份、恢复数据以及管理数据的安全权限问题。25数据仓库系统的组成(数据仓库系统的组成(2 2)n数据仓库前端工具集数据仓库前端工具集n查询查询/报表工具:以图形化方式和报表方式显示数据,报表工具:以图形化方式和报表方式显示数据,帮助了解数据的结构、关系以及动态性。帮助了解数据的结构、关系以及动态性。nOLAP工具:通过对信息的多种可能的观察形式进行快工具:通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,便于用户对数据进行深入速、一致和交互性的存取,便于用户对数据进行深入的分析和观察。的分析和观察。n数据挖掘工具:从大量数据中挖掘出具有规律性的知数据挖掘工具:从大量数据中挖掘出具有规律性的知识,以及数据之间的内在联系。识,以及数据之间的内在联系。n前端开发工具:提供用户编程接口,便于在现有系统前端开发工具:提供用户编程接口,便于在现有系统的基础上进行二次开发,增强系统的伸缩性。的基础上进行二次开发,增强系统的伸缩性。n数据仓库数据仓库:在数据仓库系统中,数据仓库是一个在数据仓库系统中,数据仓库是一个数据存储集合,它的存储形式通常有多维数据库,数据存储集合,它的存储形式通常有多维数据库,关系型数据库及其他存储方式。关系型数据库及其他存储方式。26数据转换n统一数据编码:数据仓库中的数据从各个数据源提取出来统一数据编码:数据仓库中的数据从各个数据源提取出来的,尽管经过转换后数据格式已经统一,但数据的编码、的,尽管经过转换后数据格式已经统一,但数据的编码、描述在各个源系统中都有很大的区别。为了改进数据仓库描述在各个源系统中都有很大的区别。为了改进数据仓库中数据质量,提高数据仓库中数据的可用性,必须统一数中数据质量,提高数据仓库中数据的可用性,必须统一数据编码。本系统中编码转换主要包括:据编码。本系统中编码转换主要包括:n日期格式转换:大多数业务环境中有许多不同的日期和时日期格式转换:大多数业务环境中有许多不同的日期和时间类型,所以,几乎每个数据仓库的实现都必须将日期和间类型,所以,几乎每个数据仓库的实现都必须将日期和时间变换成标准的数据格式。数据仓库必须用单一的模式时间变换成标准的数据格式。数据仓库必须用单一的模式规定日期和时间信息。规定日期和时间信息。n测量单位的转换:数据仓库中对于数值型字段应保持一致测量单位的转换:数据仓库中对于数值型字段应保持一致的单位。在元数据库中创建表的单位。在元数据库中创建表Units和和UnitTypes来表示各来表示各种单位的换算关系。表种单位的换算关系。表UnitTypes记录了数据仓库系统中记录了数据仓库系统中的单位类型,初始元数据库中共分六种单位类型:时间单的单位类型,初始元数据库中共分六种单位类型:时间单位、货币单位、重量单位、长度单位、面积单位、体积单位、货币单位、重量单位、长度单位、面积单位、体积单位。在表位。在表Units中记录了单位名、单位类型以及同类型单位中记录了单位名、单位类型以及同类型单位之间的相互转换关系。之间的相互转换关系。27转换器的设计与实现转换器的设计与实现n转换器的功能:数据结构转换和数据类型转换。转换器的功能:数据结构转换和数据类型转换。n从数据源中提取数据并转换格式的过程:先将各类数据从数据源中提取数据并转换格式的过程:先将各类数据库系统中不同格式的数据转换成文本文件,然后再利用库系统中不同格式的数据转换成文本文件,然后再利用批拷贝命令将数据导入目标系统中。以使数据仓库获得批拷贝命令将数据导入目标系统中。以使数据仓库获得新的数据提供决策分析使用。新的数据提供决策分析使用。n数据准备区的使用:首先从源数据中提取数据,转换成数据准备区的使用:首先从源数据中提取数据,转换成数据仓库所要求的格式后存储在数据仓库的一个称为数数据仓库所要求的格式后存储在数据仓库的一个称为数据准备区的缓冲区中。在该区域中,可以暂时存储原始据准备区的缓冲区中。在该区域中,可以暂时存储原始数据,然后由集成器对数据进行清理、集成后再装载到数据,然后由集成器对数据进行清理、集成后再装载到数据仓库中。数据仓库中。源数据数据准备区数据仓库28数据净化数据净化n当数据从源数据库中提取到数据准备区后,必须先进行数当数据从源数据库中提取到数据准备区后,必须先进行数据净化才可以装载到数据仓库中去。数据净化主要指对数据净化才可以装载到数据仓库中去。数据净化主要指对数据字段的有效值检验。有效值的检验通常包括:范围检验、据字段的有效值检验。有效值的检验通常包括:范围检验、枚举字段取值和相关检验。范围检验要求数据保证落在预枚举字段取值和相关检验。范围检验要求数据保证落在预期的范围之内,通常对数据范围和日期范围进行检验,如期的范围之内,通常对数据范围和日期范围进行检验,如对任何在指定范围之外的日期的发票都应删除。枚举字段对任何在指定范围之外的日期的发票都应删除。枚举字段取值指对一个记录在该字段的取值,若不在指定的值中,取值指对一个记录在该字段的取值,若不在指定的值中,则应该删除。相关检验要求将一个字段中的值与另外一个则应该删除。相关检验要求将一个字段中的值与另外一个字段中的值进行相关检验,即在数据库中某个字段应与另字段中的值进行相关检验,即在数据库中某个字段应与另一个字段形成外键约束。一个字段形成外键约束。29监控器捕捉数据变化的途径监控器捕捉数据变化的途径n数据仓库提供的是离线数据数据仓库提供的是离线数据,与源数据存在时间差。与源数据存在时间差。n时标方法:指在数据库中的数据设一个时标,如果新插入或更时标方法:指在数据库中的数据设一个时标,如果新插入或更新一个数据记录,在记录中插入新的时标或加上更新时的时标,新一个数据记录,在记录中插入新的时标或加上更新时的时标,然后根据时标判断哪些数据是变化的,并把变化的数据追加到然后根据时标判断哪些数据是变化的,并把变化的数据追加到数据仓库中去。数据仓库中去。nDELTA文件:该文件是由应用产生的,并记录了应用所改变文件:该文件是由应用产生的,并记录了应用所改变的所有内容。利用的所有内容。利用DELTA文件记录数据的变化,不需要扫描文件记录数据的变化,不需要扫描整个数据库,所以效率较高,但生成的整个数据库,所以效率较高,但生成的DELTA文件的应用并文件的应用并不普遍。不普遍。n映象文件:在上次提取数据库数据到数据仓库之后及本次提取映象文件:在上次提取数据库数据到数据仓库之后及本次提取数据库数据之前,对数据库分别作一次快照,然后通过比较两数据库数据之前,对数据库分别作一次快照,然后通过比较两幅快照的不同来确定要追加的数据。这种方法需要占用大量的幅快照的不同来确定要追加的数据。这种方法需要占用大量的系统资源,对系统的性能影响比较大。系统资源,对系统的性能影响比较大。n日志文件:由于日志文件是数据库的固有机制,所以它对系统日志文件:由于日志文件是数据库的固有机制,所以它对系统性能的影响比较小,另外它还有性能的影响比较小,另外它还有DELTA文件的优点,提取数文件的优点,提取数据只局限于日志文件而不用扫描整个数据库。所以日志文件是据只局限于日志文件而不用扫描整个数据库。所以日志文件是最可行的一种方法。最可行的一种方法。30信息集成服务信息集成服务Copyright IBM Corporation31IBM的解决方案的解决方案32元数据n数据仓库的所有数据都要通过元数据来管理和控制。元数据仓库的所有数据都要通过元数据来管理和控制。元数据描述关于源数据的说明,包括源数据的来源、源数数据描述关于源数据的说明,包括源数据的来源、源数据的名称、源数据的定义、源数据的创建时间等对源数据的名称、源数据的定义、源数据的创建时间等对源数据进行管理所需要的信息。据进行管理所需要的信息。n源数据的来源说明源数据是从哪个系统、哪个历史数据、源数据的来源说明源数据是从哪个系统、哪个历史数据、哪个办公数据、哪个哪个办公数据、哪个WebWeb页、哪个外部系统抽取而来。页、哪个外部系统抽取而来。源数据说明源数据在数据仓库的作用、用途、数据类型源数据说明源数据在数据仓库的作用、用途、数据类型和长度等。和长度等。33元数据元数据(2)n元数据:是用来描述数据的数据。它描述和定位数据组件、元数据:是用来描述数据的数据。它描述和定位数据组件、它们的起源及它们在数据仓库进程中的活动;关于数据和它们的起源及它们在数据仓库进程中的活动;关于数据和操作的相关描述操作的相关描述(输入、计算和输出输入、计算和输出)。元数据可用文件存。元数据可用文件存在元数据库中。元数据反映数据仓库中的数据项是从哪个在元数据库中。元数据反映数据仓库中的数据项是从哪个特定的数据源填充的,经过哪些转换、集成过程。特定的数据源填充的,经过哪些转换、集成过程。n要有效的管理数据仓库,必须设计一个描述能力强、内容要有效的管理数据仓库,必须设计一个描述能力强、内容完善的元数据。完善的元数据。34元数据管理器元数据管理器n客户端登录:负责接收客户端登录信息并进行用户权限检查。客户端登录:负责接收客户端登录信息并进行用户权限检查。n元数据管理器的用户接口:以接口形式向用户提供对元数据元数据管理器的用户接口:以接口形式向用户提供对元数据 增、删、改、查的服务,包括:源数据信息、数据仓库信息、增、删、改、查的服务,包括:源数据信息、数据仓库信息、星型模型信息、维信息、维表字段信息、事实表字段信息、星型模型信息、维信息、维表字段信息、事实表字段信息、映射事实表字段信息、映射维表字段信息、链接事实表与维映射事实表字段信息、映射维表字段信息、链接事实表与维表字段的信息。表字段的信息。n元数据的存储:元数据管理器中的元数据存储程序负责接收元数据的存储:元数据管理器中的元数据存储程序负责接收由接口程序传递来的关于对元数据进行增加、修改和删除等由接口程序传递来的关于对元数据进行增加、修改和删除等信息,并根据所提供的参数执行存储过程,将元数据的有关信息,并根据所提供的参数执行存储过程,将元数据的有关信息保存于服务器端的元数据库中。信息保存于服务器端的元数据库中。35元数据管理器的设计与实现元数据管理器的设计与实现n元数据的作用元数据的作用:定义数据仓库的作用定义数据仓库的作用,指明数据仓库中信指明数据仓库中信息的内容和位置息的内容和位置,刻画数据的抽取和转换规则刻画数据的抽取和转换规则,存储与数存储与数据仓库主题有关的各种商业信息。据仓库主题有关的各种商业信息。n在客户端提供图形化界面工具。例如,用户想在多维模在客户端提供图形化界面工具。例如,用户想在多维模型中加入一维或者在某一维中加入维元素,不仅可以通型中加入一维或者在某一维中加入维元素,不仅可以通过图形化界面工具完成而且可以在用户自已编写的应用过图形化界面工具完成而且可以在用户自已编写的应用程序中调用应用程序接口函数,修改后的结果将记入元程序中调用应用程序接口函数,修改后的结果将记入元数据库中。然后系统将根据元数据库中的新内容进行数数据库中。然后系统将根据元数据库中的新内容进行数据的追加。据的追加。36操作数据存储操作数据存储Business data warehouse业务系统(业务系统(Operational systems)数据集市(数据集市(Data marts)操作数据存储(操作数据存储(Operational data store)元数据(元数据(MetaData)37数据仓库中的数据组织数据仓库中的数据组织高度综合级高度综合级轻度综合级轻度综合级当前综合级当前综合级早期细节级早期细节级多级数据多级数据38数据仓库的数据模型数据仓库的数据模型 星型图模型星型图模型 物理数据模型物理数据模型概念模型概念模型逻辑模型逻辑模型物理模型物理模型面向用户的需求面向用户的需求细细 化层化层次次更详细的更详细的技术细节技术细节信息包图信息包图39数据仓库建模和设计数据仓库建模和设计nProcess of building an abstract model for the data,which is stored in the data and represents the data warehouse content.40概念模型概念模型n由于大多数商务数据是多维的,由于大多数商务数据是多维的,但传统的数据模型表示三维以但传统的数据模型表示三维以上的数据有一定困难。概念模上的数据有一定困难。概念模型简化了这个过程并且允许用型简化了这个过程并且允许用户与开发者和其他用户建立联户与开发者和其他用户建立联系:系:n确定系统边界:决策类型、需确定系统边界:决策类型、需要的信息、原始信息要的信息、原始信息n确定主题域及其内容:主题域确定主题域及其内容:主题域的公共键码、联系、属性组的公共键码、联系、属性组n确定维度:如时间维、销售位确定维度:如时间维、销售位置维、产品维、组别维等置维、产品维、组别维等n确定类别:相应维的详细类别确定类别:相应维的详细类别n确定指标和事实:用于进行分确定指标和事实:用于进行分析的数值化信息析的数值化信息41实例实例例例试画出销售分析的概念模型。试画出销售分析的概念模型。解:首先根据销售分析的实际需求,确定信息包的维度、类别和解:首先根据销售分析的实际需求,确定信息包的维度、类别和指标与事实:指标与事实:(1)维度:包括日期维、销售地点维、销售产品维、年龄组别维、)维度:包括日期维、销售地点维、销售产品维、年龄组别维、性别维等。性别维等。(2)类别:确定各维的详细类别,如:日期维包括年()类别:确定各维的详细类别,如:日期维包括年(10)、)、季度(季度(40)、月()、月(120)等类别,括号中的数字分别指出各类)等类别,括号中的数字分别指出各类别的数量;销售地点维包括国家(别的数量;销售地点维包括国家(15)、区域()、区域(45)、城市)、城市(280)、区()、区(880)、商店()、商店(2000)等类别,括号中的数字)等类别,括号中的数字同样分别指出各类别的数量;类似地,可以确定销售产品、年同样分别指出各类别的数量;类似地,可以确定销售产品、年龄组别维、性别维等的详细类别。龄组别维、性别维等的详细类别。(3)度量和事实:确定用于进行分析的数值化信息,包括预测销)度量和事实:确定用于进行分析的数值化信息,包括预测销售量、实际销售量和预测偏差等。售量、实际销售量和预测偏差等。42销售分析的概念模型销售分析的概念模型日期日期销售地点销售地点销售产品销售产品年龄组别年龄组别性别性别年(10)国家(15)产品类(6)年龄组(8)性别组(2)季度(40)区域(45)产品组(48)月(120)城市(280)产品(240)区(880)商店(2000)度量和事实度量和事实:预测销售量、实际销售量、预测偏差预测销售量、实际销售量、预测偏差信息包:信息包:销售分析销售分析维度维度类别类别43概念模型图实例概念模型图实例44逻辑模型逻辑模型n星型图:数据仓库的数据模型星型图:数据仓库的数据模型的第二层是向最终的数据结构的第二层是向最终的数据结构添加某些细节的星型图模型。添加某些细节的星型图模型。与传统的关系模型相比,星型与传统的关系模型相比,星型图模型简化了用户分析所需的图模型简化了用户分析所需的关系,从支持决策的角度去定关系,从支持决策的角度去定义数据实体,更适合大量复杂义数据实体,更适合大量复杂查询。查询。n星形图包括了三种逻辑实体:星形图包括了三种逻辑实体:指标、维度和详细类别指标、维度和详细类别n维表的本质是多维分析空间在维表的本质是多维分析空间在某个角度上的投影,多个维表某个角度上的投影,多个维表共同建立一个多维分析空间。共同建立一个多维分析空间。45sales数据仓库的雪花模式数据仓库的雪花模式 46Information Modelling of Sales Information Demand Unique IdentifierAttribute Strong Entity Type 1-n Relationship 0-n Relationship Derived AttributeWeak Entity Type47DW Layer and the Mapping to Information Model Data Warehouse Layer(logical layer)Information Model(conceptual layer)MapInformation Objects To Database fields-Rename Objects to User friendly names-Calculate fields-Define object display attributes-Convert currencies etc.48星型模型例子星型模型例子49物理数据模型物理数据模型n物理数据模型:数据模型的第三层,它是星型图模型在数据仓库中物理数据模型:数据模型的第三层,它是星型图模型在数据仓库中的实现,如物理的存取方式、数据存储结构等。的实现,如物理的存取方式、数据存储结构等。n在物理设计时,常常要按数据的重要程度、使用频率以及对响应时在物理设计时,常常要按数据的重要程度、使用频率以及对响应时间的要求进行分类,并将不同类的数据分别存储在不同的存储设备间的要求进行分类,并将不同类的数据分别存储在不同的存储设备中。重要程度高、经常存取并对响应时间高的数据就存放在高速存中。重要程度高、经常存取并对响应时间高的数据就存放在高速存储设备上,如硬盘;存取频率低或对存取响应时间要求低的数据则储设备上,如硬盘;存取频率低或对存取响应时间要求低的数据则可以放在低速存储设备上。可以放在低速存储设备上。50粒度粒度n粒度:对数据仓库中的数据综合程度高低的一个度粒度:对数据仓库中的数据综合程度高低的一个度量,它既影响数据仓库中的数据量的多少,也影响量,它既影响数据仓库中的数据量的多少,也影响数据仓库所能回答询问的种类。数据仓库所能回答询问的种类。n粒度越小,综合程度越低,回答查询的种类越多;粒度越小,综合程度越低,回答查询的种类越多;粒度越高,综合程度越高,查询的效率也越高。粒度越高,综合程度越高,查询的效率也越高。n在数据仓库中可将小粒度的数据存储在低速存储器在数据仓库中可将小粒度的数据存储在低速存储器上;大粒度的数据存储在高速存储器上。上;大粒度的数据存储在高速存储器上。51维度维度n维度:是一个物理特性(如时间、地点、产品等),它是表达维度:是一个物理特性(如时间、地点、产品等),它是表达数据仓库中信息的一个基本途径,可作为标识数据的索引。通数据仓库中信息的一个基本途径,可作为标识数据的索引。通常的报表只包含有行和列两维,但在数据仓库中所存储的数据常的报表只包含有行和列两维,但在数据仓库中所存储的数据大多是用多维(三维或三维以上)视图表示的。大多是用多维(三维或三维以上)视图表示的。n例如:例如:n一个销售系统中的数据可分为时间维、产品维和地理位置维等;一个销售系统中的数据可分为时间维、产品维和地理位置维等;n一个财务系统中的数据可分为时间维、支出维和收入维等;一个财务系统中的数据可分为时间维、支出维和收入维等;n一个企业决策支持系统中的数据可分为成本开支维、销售收入维、一个企业决策支持系统中的数据可分为成本开支维、销售收入维、利润维、股票价值维等。利润维、股票价值维等。52聚合聚合n在数据仓库技术中,每一维可包括多个层次,这些层次反过来在数据仓库技术中,每一维可包括多个层次,这些层次反过来可以向用户提供某一层次的数据。例如,在地理位置维中,由可以向用户提供某一层次的数据。例如,在地理位置维中,由所有的街区组成了地区,由所有的地区组成了城市等。聚合就所有的街区组成了地区,由所有的地区组成了城市等。聚合就是指在维的不同层次内移动数据,从而构成维内不同层次的数是指在维的不同层次内移动数据,从而构成维内不同层次的数据集,使用户不仅能够在一个维度内观察数据,而且能够在维据集,使用户不仅能够在一个维度内观察数据,而且能够在维度内的不同层次上观察数据。度内的不同层次上观察数据。n聚合和汇总不同聚合和汇总不同53分解与合成分解与合成n分解与合成是在一个维度内进一步细分数据或将数分解与合成是在一个维度内进一步细分数据或将数据按照另一标准组合的过程。例如,当以地理位置据按照另一标准组合的过程。例如,当以地理位置维观察数据时,用户可以首先以国家(如中国)为维观察数据时,用户可以首先以国家(如中国)为单位观察数据,然后可以选择观察某一个地区(如单位观察数据,然后可以选择观察某一个地区(如华东地区)的数据,接下来可以选择观察某一个省华东地区)的数据,接下来可以选择观察某一个省或城市(如上海)的数据,这就是数据分解的过程。或城市(如上海)的数据,这就是数据分解的过程。而合成则是分解的逆过程,例如用户开始以省市为而合成则是分解的逆过程,例如用户开始以省市为观察对象,接着再以地区、国家等为观察对象,就观察对象,接着再以地区、国家等为观察对象,就是一个数据合成的过程。是一个数据合成的过程。54数据仓库的数据组织数据仓库的数据组织n为了提高分析和决策的效率和有效性,分析型处理及其数据必须与为了提高分析和决策的效率和有效性,分析型处理及其数据必须与事务型处理及其数据相分离,把分析型处理所需要的数据从事务型事务型处理及其数据相分离,把分析型处理所需要的数据从事务型处理环境中提取出来,按照分析型处理的要求进行重新组织,建立处理环境中提取出来,按照分析型处理的要求进行重新组织,建立单独的分析处理环境。数据仓库正是构建这种新的分析处理环境而单独的分析处理环境。数据仓库正是构建这种新的分析处理环境而出现的一种数据存储和组织技术。出现的一种数据存储和组织技术。n数据仓库的数据组织结构不同于一般的数据库系统,需要将从原有数据仓库的数据组织结构不同于一般的数据库系统,需要将从原有的业务数据库中获得的基本数据和综合数据分成一些不同的级别。的业务数据库中获得的基本数据和综合数据分成一些不同的级别。在数据仓库中,数据按照粒度从小到大可分为四个级别:早期细节在数据仓库中,数据按照粒度从小到大可分为四个级别:早期细节级、当前细节级、轻度细节级和高度细节级。从事务型处理环境中级、当前细节级、轻度细节级和高度细节级。从事务型处理环境中提取的源数据经过综合后,首先进入当前细节级,并根据需要进行提取的源数据经过综合后,首先进入当前细节级,并根据需要进行进一步的综合进入轻度综合级或高度综合级,老化的数据将进入早进一步的综合进入轻度综合级或高度综合级,老化的数据将进入早期细节级。期细节级。55数据仓库的数据组织方数据仓库的数据组织方式式n虚拟存储方式:数据仓库数据的虚拟存储方式是指在数据仓虚拟存储方式:数据仓库数据的虚拟存储方式是指在数据仓库中实际上并没有具体的数据存储,数据仓库中的数据仍然库中实际上并没有具体的数据存储,数据仓库中的数据仍然存储在源数据库中,只是根据用户的多维分析需求而形成多存储在源数据库中,只是根据用户的多维分析需求而形成多维视图,临时在源数据库中找出并提取所需要的数据,完成维视图,临时在源数据库中找出并提取所需要的数据,完成多维分析。这种组织方式比较简单、花费少、使用灵活,但多维分析。这种组织方式比较简单、花费少、使用灵活,但同时它也存在一个致命的弱点:即只有当源数据库的组织比同时它也存在一个致命的弱点:即只有当源数据库的组织比较规范、数据完备并没有冗余,同时又比较接近多维数据模较规范、数据完备并没有冗余,同时又比较接近多维数据模型时,虚拟数据仓库的多维语义层才容易定义。型时,虚拟数据仓库的多维语义层才容易定义。56数据集市数据集市n数据仓库是企业级的,数据仓库是企业级的,能为整个企业各部门能为整个企业各部门的运行提供决策支持的运行提供决策支持手段。而数据集市手段。而数据集市(Data Mart)是部)是部门级别的,一般只能门级别的,一般只能为某个局部范围内的为某个局部范围内的管理人员服务,也称管理人员服务,也称为部门级的数据仓库。为部门级的数据仓库。n数据集市有两种:独数据集市有两种:独立的数据集市和从属立的数据集市和从属的数据集市。的数据集市。57数据集市(数据集市(2)n数据集市不是数据仓库数据集市不是数据仓库n数据集市并非小的数据仓库数据集市并非小的数据仓库n多个数据集市集合并不构成数据仓库多个数据集市集合并不构成数据仓库58元数据模型元数据模型n关于源数据的元数据:它是现有的操作型业务系统的数据源的描述关于源数据的元数据:它是现有的操作型业务系统的数据源的描述信息,是对不同平台上的数据源的物理结构和含义的描述。包括:信息,是对不同平台上的数据源的物理结构和含义的描述。包括:数据源中所有物理数据结构;所有数据项的业务定义;每个数据项数据源中所有物理数据结构;所有数据项的业务定义;每个数据项更新的频率,以及由谁或哪个过程更新的说明;每个数据项的有效更新的频率,以及由谁或哪个过程更新的说明;每个数据项的有效值;其它系统中具有相同业务含义的数据项的清单。值;其它系统中具有相同业务含义的数据项的清单。n关于数据仓库多维模型的元数据关于数据仓库多维模型的元数据n标准维:由一张维表构成,标准的星型模型采用这种维和事实表构成的。标准维:由一张维表构成,标准的星型模型采用这种维和事实表构成的。维表中的一个字段或多个字段构成了维的层次。维表中的一个字段或多个字段构成了维的层次。n雪花维:由相互关联的多个维表构成,每个维表中的字段构成了维的层雪花维:由相互关联的多个维表构成,每个维表中的字段构成了维的层次。通过多个维表的连接最大限度地减少了数据存储量,增加了模型的次。通过多个维表的连接最大限度地减少了数据存储量,增加了模型的灵活性,但也使得查询变得复杂化。灵活性,但也使得查询变得复杂化。n时间维:用来描述事实数据的时间属性。它通常只与源数据库中某个表时间维:用来描述事实数据的时间属性。它通常只与源数据库中某个表的日期型字段相对应,所以时间维的层次不可以由维表的字段来表示。的日期型字段相对应,所以时间维的层次不可以由维表的字段来表示。时间维的层次由高到低分别为时间维的层次由高到低分别为Year、Quarter、Month、Day、Hour、Minute、Second,用户可以任意选择几种构成时间维的层次。,用户可以任意选择几种构成时间维的层次。59推荐资料(推荐资料(IBM红皮书)红皮书)nGetting Started with DataWarehousenManaging Multidimensional Data MartsnBI Tutorial Introduction to the Data Warehouse Center
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!