数据仓库概述[1]课件

上传人:痛*** 文档编号:241226155 上传时间:2024-06-10 格式:PPT 页数:68 大小:1.87MB
返回 下载 相关 举报
数据仓库概述[1]课件_第1页
第1页 / 共68页
数据仓库概述[1]课件_第2页
第2页 / 共68页
数据仓库概述[1]课件_第3页
第3页 / 共68页
点击查看更多>>
资源描述
PPTPPT文档演模板文档演模板 Office Office PPTPPT数据仓库概述数据仓库概述2024/6/10数据仓库概述1数据仓库概述2023/8/1数据仓库概述11PPTPPT文档演模板文档演模板 Office Office PPTPPT课程简介:1.为什么出现数据仓库与数据挖掘?为什么出现数据仓库与数据挖掘?啤酒与尿布啤酒与尿布7-112.研究内容研究内容从海量数据中找到规律与联系,为决策提从海量数据中找到规律与联系,为决策提供支持供支持3.数据仓库与数据库的不同数据仓库与数据库的不同数据仓库概述1课程简介:1.为什么出现数据仓库与数据挖掘?数据仓库概述2PPTPPT文档演模板文档演模板 Office Office PPTPPT数据库与数据仓库数据仓库概述1数据库与数据仓库数据仓库概述13PPTPPT文档演模板文档演模板 Office Office PPTPPT主要学习内容:第一篇第一篇 数据仓库与数据仓库与OLAP1.1.数据仓库数据仓库2.2.联机分析处理技术(联机分析处理技术(OLAPOLAP)3.3.数据预处理技术数据预处理技术数据清洗数据清洗数据集成和变换数据集成和变换数据约简数据约简第二篇第二篇 数据挖掘数据挖掘1.1.数据挖掘技术数据挖掘技术关联规则挖掘、分类、聚类分析关联规则挖掘、分类、聚类分析数据挖掘在各领域的应用等。数据挖掘在各领域的应用等。数据仓库概述1主要学习内容:第一篇数据仓库与OLAP数据仓库概述14PPTPPT文档演模板文档演模板 Office Office PPTPPT主要参考书主要参考书:1 1数据仓库数据仓库 Inmon W.H Inmon W.H 著著 机械工业出版社机械工业出版社 2 2数据挖掘数据挖掘 概念与技术概念与技术 Jiawei Han&Micheline Kamber Jiawei Han&Micheline Kamber 著著 机械工业出版社机械工业出版社 3 3数据挖掘数据挖掘 朱明朱明 著著 中国科学技术大学出版社中国科学技术大学出版社 4 4数据仓库与联机分析处理数据仓库与联机分析处理 王珊等王珊等 著著 科学出版社科学出版社数据仓库概述1主要参考书:数据仓库概述15PPTPPT文档演模板文档演模板 Office Office PPTPPT考核方法考核方法:考核采取笔试结合实验的方法:考核采取笔试结合实验的方法:实验成绩实验成绩 30%笔试成绩笔试成绩 70%数据仓库概述1考核方法:考核采取笔试结合实验的方法:数据仓库概述16PPTPPT文档演模板文档演模板 Office Office PPTPPT第一章第一章 数据仓库概述数据仓库概述本章介绍了数据仓库技术产生的背景、数据仓库的含义与特征、数据仓库与操作型数据库系统的区别和数据仓库的基本体系结构。数据仓库概述1第一章数据仓库概述本7PPTPPT文档演模板文档演模板 Office Office PPTPPT1.1数据仓库的产生1.2数据仓库的含义1.3数据仓库的特征1.4数据库系统与数据仓库1.5数据仓库的基本结构1.6数据仓库的基本概念1.7数据仓库的数据组织数据仓库概述11.1数据仓库的产生数据仓库概述18PPTPPT文档演模板文档演模板 Office Office PPTPPT11数据仓库的产生1.数据处理分为两类:事物处理分析处理2.传统数据库较难满足分析处理的要求:历史数据需求量大不同系统的数据难以集成(蜘蛛网问题)对大量数据的访问性能不足事务处理和分析处理数据环境的分离数据仓库概述111数据仓库的产生1.数据处理分为两类:9PPTPPT文档演模板文档演模板 Office Office PPTPPT1.2 1.2 数据仓库的含义数据仓库的含义对于什么是数据仓库,还有许多不同的定义,如:“数据仓库是融合方法、技术和工具以在完整的平台上将数据提交给终端用户的一种手段”。“数据仓库是对分布在企业内部各处的业务数据的整合、加工和分析的过程”。“数据仓库是一种具有集成性、稳定性和提供决策支持的处理”。“为查询和分析(不是事务处理)而设计的关系数据库”20世纪80年代中期,“数据仓库”这个名词首次出现在号称“数据仓库之父”W.H.Inmon的BuildingDataWarehouse一书中,在该书中,W.H.Inmon把数据仓库定义为“一个面向主题的、集成的、稳定的、随时间变化的数据的集合,以用于支持管理决策过程。”(“Adatawarehouseisasubject-oriented,integrated,non-volatile,time-variantcollectionofdatainsupportofmanagementdecisions.”)数据仓库概述11.2数据仓库的含义对于什么是数据仓库,还有许多不同10PPTPPT文档演模板文档演模板 Office Office PPTPPTWilliamH.Inmon:数据仓库是一个面向主题面向主题的的、集成的集成的、非易失的非易失的且随时间变化的随时间变化的数据集合,用于支持管理人员的决策。数据仓库之父数据仓库之父-Bill Inmon William H.Inmon:William H.Inmon是是世世界界公公认认的的“数数据据仓仓库库之之父父”,是是数数 据据 仓仓 库库 及及 其其 相相 关关 技技 术术 网网 站站的的合合作作伙伙伴伴,是是“企企业业信信息息工工厂厂”的的创创造造者者之之一一。他他一一直直致致力力于于数数据据库库和和数数据据仓仓库库技技术术方方面面的的研研究究,在在数数据据管管理理和和数数据据仓仓库库技技术术方方面面以以及及数数据据处处理理的的管管理理方方面面撰撰写写了了40多多本本著著作作,发发表表过过600多多篇篇学学术术论论文文,并并且且经经常常应应邀邀在在技技术术和和学学术术会议上演讲。会议上演讲。数据仓库概述1WilliamH.Inmon:数据仓库是一个面向主题的、集11PPTPPT文档演模板文档演模板 Office Office PPTPPT1.3数据仓库的特征 数据仓库的数据是面向主题的数据仓库的数据是面向主题的 数据仓库的数据是集成的数据仓库的数据是集成的 数据仓库的数据是非易失的数据仓库的数据是非易失的 数据仓库的数据是随时间不断变化的数据仓库的数据是随时间不断变化的数据仓库概述11.3数据仓库的特征数据仓库的数据是面向主题的数据仓库概12PPTPPT文档演模板文档演模板 Office Office PPTPPT面向主题面向主题主题(主题(Subject):特定的数据分析领域与目标。):特定的数据分析领域与目标。面向主题:为特定的数据分析领域提供数据支持。面向主题:为特定的数据分析领域提供数据支持。数据仓库是面向分析、决策人员的主观要求的,不数据仓库是面向分析、决策人员的主观要求的,不同的用户有不同的要求,同一个用户的要求也会随同的用户有不同的要求,同一个用户的要求也会随时间而经常变化,因此,数据仓库中的主题有时会时间而经常变化,因此,数据仓库中的主题有时会因用户主观要求的变化而变化的。因用户主观要求的变化而变化的。数据仓库概述1面向主题主题(Subject):特定的数据分析领域与目标。数13PPTPPT文档演模板文档演模板 Office Office PPTPPT面向主题面向主题为特定数据分析领域提供的数据与传统数据库中的为特定数据分析领域提供的数据与传统数据库中的数据是有不同的。传统数据库中的数据是原始的、数据是有不同的。传统数据库中的数据是原始的、基础的数据,而特定分析领域数据则是需要对它们基础的数据,而特定分析领域数据则是需要对它们作必要的抽取、加工与总结而形成。作必要的抽取、加工与总结而形成。数据仓库概述1面向主题为特定数据分析领域提供的数据与传统数据库中的数据是有14PPTPPT文档演模板文档演模板 Office Office PPTPPT面向主题示例面向主题示例例:一个面向事务处理的例:一个面向事务处理的“商场商场”数据库系统,其数据模式数据库系统,其数据模式如下如下采购子系统:采购子系统:订单(订单号,供应商号,总金额,日期)订单(订单号,供应商号,总金额,日期)订单细则(订单号,商品号,类别,单价,数量)订单细则(订单号,商品号,类别,单价,数量)供应商(供应商号,供应商名,地址,电话)供应商(供应商号,供应商名,地址,电话)销售子系统:销售子系统:顾客(顾客号,姓名,性别,年龄,文化程度,地址,电话)顾客(顾客号,姓名,性别,年龄,文化程度,地址,电话)销售(员工号,顾客号,商品号,数量,单价,日期)销售(员工号,顾客号,商品号,数量,单价,日期)数据仓库概述1面向主题示例例:一个面向事务处理的“商场”数据库系统,其数据15PPTPPT文档演模板文档演模板 Office Office PPTPPT面向主题示例库存管理子系统:库存管理子系统:领料单(领料单号,领料人,商品号,数量,日期)领料单(领料单号,领料人,商品号,数量,日期)进料单(进料单号,订单号,进料人,收料人,日期)进料单(进料单号,订单号,进料人,收料人,日期)库存(商品号,库房号,库存量,日期)库存(商品号,库房号,库存量,日期)库房(库房号,仓库管理员,地点,库存商品描述)库房(库房号,仓库管理员,地点,库存商品描述)人事管理子系统:人事管理子系统:员工(员工号,姓名,性别,年龄,文化程度,部门号)员工(员工号,姓名,性别,年龄,文化程度,部门号)部门(部门号,部门名称,部门主管,电话)部门(部门号,部门名称,部门主管,电话)数据仓库概述1面向主题示例库存管理子系统:数据仓库概述116PPTPPT文档演模板文档演模板 Office Office PPTPPT面向主题示例面向主题示例如果按照面向主题的方式进行数据组织,首先应该如果按照面向主题的方式进行数据组织,首先应该抽取主题,即按照管理人员的分析要求来确定主题,抽取主题,即按照管理人员的分析要求来确定主题,而与每个主题相关的数据又与有关的事务处理所需而与每个主题相关的数据又与有关的事务处理所需的数据不尽相同。的数据不尽相同。在每个主题中,都包含了有关该主题的所有信息,在每个主题中,都包含了有关该主题的所有信息,同时又抛弃了与分析处理无关或不需要的数据,从同时又抛弃了与分析处理无关或不需要的数据,从而将原本分散在各个子系统中的有关信息集中在一而将原本分散在各个子系统中的有关信息集中在一个主题中,形成有关该主题的一个完整一致的描述。个主题中,形成有关该主题的一个完整一致的描述。面向主题的数据组织方式所强调的就是要形成一个面向主题的数据组织方式所强调的就是要形成一个这样一致的信息集合这样一致的信息集合数据仓库概述1面向主题示例数据仓库概述117PPTPPT文档演模板文档演模板 Office Office PPTPPT主题一:主题一:商品商品p商品固有信息:商品号,商品名,类别,颜色等商品固有信息:商品号,商品名,类别,颜色等p商品采购信息:商品号,供应商号,供应价,供应日期,商品采购信息:商品号,供应商号,供应价,供应日期,供应量等供应量等p商品销售信息:商品号,顾客号,售价,销售日期,销商品销售信息:商品号,顾客号,售价,销售日期,销售量等售量等p商品库存信息:商品号,库房号,库存量,日期等商品库存信息:商品号,库房号,库存量,日期等数据仓库概述1主题一:商品商品固有信息:商品号,商品名,类别,颜色等数据仓18PPTPPT文档演模板文档演模板 Office Office PPTPPT主题二:主题二:供应商供应商p供应商固有信息:供应商号,供应商名,地址,电话等供应商固有信息:供应商号,供应商名,地址,电话等p供应商品信息:供应商号,商品号,供应价,供应日期,供应商品信息:供应商号,商品号,供应价,供应日期,供应量等供应量等数据仓库概述1主题二:供应商供应商固有信息:供应商号,供应商名,地址,电话19PPTPPT文档演模板文档演模板 Office Office PPTPPT主题三:主题三:顾客顾客p顾客固有信息:顾客号,顾客名,性别,年龄,文化程顾客固有信息:顾客号,顾客名,性别,年龄,文化程度,住址,电话等度,住址,电话等p顾客购物信息:顾客号,商品号,售价,购买日期,购顾客购物信息:顾客号,商品号,售价,购买日期,购买量等买量等数据仓库概述1主题三:顾客顾客固有信息:顾客号,顾客名,性别,年龄,文化程20PPTPPT文档演模板文档演模板 Office Office PPTPPT)数据仓库概述1)数据仓库概述121PPTPPT文档演模板文档演模板 Office Office PPTPPT示例了一个电信企业的情况。计费数据库:计费数据库记录了客户的消费情况财务数据库:财务数据库记录了客户的缴费情况客户服务数据库:客户的咨询和投诉情况如果直接基于传统数据库系统进行“客户”和“收益”信息的分析,则需要访问多个数据库才能获得客户或收益各个侧面的信息(收益主题需从计费数据库和财务数据库中了解公司各项业务的收入情况;客户主题则要从计费数据库、财务数据库、客户服务数据库中获得客户消费、交费、咨询等全方位的信息。),这样将极大的影响系统处理的时间和效率,并且数据之间的不一致性和不同步等问题将影响决策的可靠性。而以“客户”和“收益”主题组织的数据仓库,将某个主题的全部相关数据集中于一个地方,这样决策者可以非常方便地在数据仓库中的一个位置检索包含某个主题的所有数据。数据仓库概述1示例了一个电信企业的情况。数据仓库概述122PPTPPT文档演模板文档演模板 Office Office PPTPPT面向主题每个主题所需数据的物理存储:每个主题所需数据的物理存储:多维数据库多维数据库(MDDBMulti-Dimensional DataBase)用多维数组形式存储数据。)用多维数组形式存储数据。关系数据库。关系数据库。用一组关系来组织数据的存储,用一组关系来组织数据的存储,同一主题的一组关系都有一个同一主题的一组关系都有一个公共的关键字公共的关键字,存放的也不是细节性的业务数据,而是经过一存放的也不是细节性的业务数据,而是经过一定程度的综合形成的综合性数据。定程度的综合形成的综合性数据。数据仓库概述1面向主题每个主题所需数据的物理存储:数据仓库概述123PPTPPT文档演模板文档演模板 Office Office PPTPPT集成的集成的数据是分散的;由于事务处理应用分散、蜘蛛数据是分散的;由于事务处理应用分散、蜘蛛网问题、数据不一致问题、外部数据和非结构网问题、数据不一致问题、外部数据和非结构化数据。化数据。数据仓库中的数据是为分析服务的,而分析需数据仓库中的数据是为分析服务的,而分析需要多种广泛的不同数据源以便进行比较、鉴别,要多种广泛的不同数据源以便进行比较、鉴别,因此数据仓库中的数据必须从多个数据源中获因此数据仓库中的数据必须从多个数据源中获取,这些数据源包括多种类型数据库、文件系取,这些数据源包括多种类型数据库、文件系统以及统以及Internet网上数据等,它们通过数据集成网上数据等,它们通过数据集成而形成数据仓库中的数据。而形成数据仓库中的数据。数据仓库概述1集成的数据是分散的;由于事务处理应用分散、蜘蛛网问题、数据不24PPTPPT文档演模板文档演模板 Office Office PPTPPT数据仓库中存储的数据一般从企业原来已建立的数据库系统中提取出来,但并不是原有数据的简单拷贝,而是经过了抽取、筛选、清理、综合等工作。这是因为:1)原有数据库系统记录的是每一项业务处理的流水帐,这些数据不适合于分析处理。在进入数据仓库之前必须经过综合、计算,同时抛弃一些分析处理不需要的数据项,必要时还要增加一些可能涉及的外部数据。2)数据仓库每一个主题所对应的源数据在源分散数据库中有许多重复或不一致之处,必须将这些数据转换成全局统一的定义,消除不一致和错误之处,以保证数据的质量;显然,对不准确,甚至不正确的数据分析得出的结果将不能用于指导企业做出科学的决策。3)源数据加载到数据仓库后,还要根据决策分析的需要对这些数据进行概括、聚集处理。事实上,决策支持系统需要集成的数据。全面而正确的数据是有效地分析和决策的首要前提,相关数据收集得越完整,得到的结果就越可靠。因此,对源数据的集成是数据仓库建设中最关键,也是最复杂的一步。集成的数据仓库概述1集成的数据仓库概述125PPTPPT文档演模板文档演模板 Office Office PPTPPT集成的集成的集成的方法:集成的方法:统一:消除不一致的现象统一:消除不一致的现象综合:对原有数据进行综合和计算综合:对原有数据进行综合和计算需要考虑的问题:数据格式计量单位数据代码含义混乱数据名称混乱数据仓库概述1集成的集成的方法:数据仓库概述126PPTPPT文档演模板文档演模板 Office Office PPTPPT非易失的非易失的数据仓库中的数据是经过抽取而形成的分析型数据,不具有数据仓库中的数据是经过抽取而形成的分析型数据,不具有原始性,主要供企业决策分析之用,执行的主要是原始性,主要供企业决策分析之用,执行的主要是查询查询操作,操作,一般情况下不执行一般情况下不执行更新更新操作。同时,一个稳定的数据环境也操作。同时,一个稳定的数据环境也有利于数据分析操作和决策的制订。有利于数据分析操作和决策的制订。但这也不等于数据仓库中的数据不需要但这也不等于数据仓库中的数据不需要更新更新操作。操作。在需要进行新的分析决策时,可能需要进行新的数据抽取在需要进行新的分析决策时,可能需要进行新的数据抽取和和更新更新操作操作数据仓库中的一些过时的数据,也可以通过数据仓库中的一些过时的数据,也可以通过删除删除操作丢操作丢弃掉。弃掉。因此数据仓库的存储管理相对于因此数据仓库的存储管理相对于DBMSDBMS来说要简单得多。来说要简单得多。数据仓库概述1非易失的数据仓库中的数据是经过抽取而形成的分析型数据,不具有27PPTPPT文档演模板文档演模板 Office Office PPTPPT数据仓库概述1数据仓库概述128PPTPPT文档演模板文档演模板 Office Office PPTPPT随时间不断变化随时间不断变化数据仓库中的数据必须以一定时间段为单位进行统一更数据仓库中的数据必须以一定时间段为单位进行统一更新。新。不断增加新的数据内容不断增加新的数据内容不断删去旧的数据内容不断删去旧的数据内容更新与时间有关的综合数据更新与时间有关的综合数据数据仓库概述1随时间不断变化数据仓库中的数据必须以一定时间段为单位进行统一29PPTPPT文档演模板文档演模板 Office Office PPTPPT1.4数据仓库与传统数据库的比较1.两个系统的主要区别两个系统的主要区别 2.两个系统的查询支持不同两个系统的查询支持不同3.两个系统数据组织模式不同两个系统数据组织模式不同数据仓库概述11.4数据仓库与传统数据库的比30PPTPPT文档演模板文档演模板 Office Office PPTPPT1两个系统的主要区别传统数据库系统的主要任务是执行联机事务和查询处理。这种系统称为联机事务处理(OLTP)系统。它们涵盖了一个组织的大部分日常操作,如购买、库存、制造、银行、工资、注册、记帐等。另一方面,数据仓库系统在数据分析和决策支持方面提供服务。这种系统称为联机分析处理(OLAP)系统。两个系统的主要区别概括如下:数数据据内内容容:数据库系统管理当前数据。通常,这种数据太琐碎,难以用于决策。数据仓库系统管理大量历史的、存档的、归纳的、计算的数据,提供汇总和聚集机制,并在不同的粒度级别上存储和管理信息。这种特点使得系统容易用于“见多识广”的决策。数据仓库概述11两个系统的主要区别数据仓库概述131PPTPPT文档演模板文档演模板 Office Office PPTPPT 数数据据目目标标:数据库系统是面向业务操作,用于办事员、客户和信息技术专业人员的事务和查询处理。数据仓库是面向主题的,用于知识工人(包括经理、主管和分析人员)的决策分析。数数据据特特性性:数据库系统存储的是当前数据,数据是动态变化的,按字段进行更新操作。数据仓库中数据是批量载入的、静态的,系统定期执行提取过程为数据仓库增加数据,这些数据一旦加入,一般不再从系统中删除。数数据据结结构构:数据库系统采用面向应用的数据库设计,以高度结构化和复杂的形式组织数据,以适应复杂的事务操作计算的需求。数据仓库通常采用面向主题的星型或雪花数据组织模式,以适应分析决策,数据结构简单。数据仓库概述1数据目标:数据库系统是面向业务操作,用于办事32PPTPPT文档演模板文档演模板 Office Office PPTPPT。数据仓库概述1。数据仓库概述133PPTPPT文档演模板文档演模板 Office Office PPTPPT 2两个系统的查询支持不同OLTP系统是为了快速回答简单查询,而不是为了存储分析趋势的历史数据而创建的。一般的,OLTP提供了大量的原始数据,这些数据不易被分析。数据仓库需要回答更复杂的查询,而不仅仅是一些像“英国主要城市的商品平均销售价格是多少”之类的简单聚集数据查询。数据仓库需要回答的查询类型可以是简单的查询,也可以是高度复杂的,且还与终端用户使用的查询工具相关。以下是某数据仓库支持的一些查询示例:2008年第三季度,整个英格兰的总收入是多少?2007年英国每一类房产销售的总收入是多少?2008年租借房产业务中每个城市哪个地域最受欢迎?与过去的两年相比有何不同?每个分支机构本月的房产销售月收入是多少,并与刚过去的12个月相比较。如果对于10万英镑以上的房产,法定价格上升3.5%而政府税收下降1.5%,对英国不同区域的销售会产生什么影响?在英国主要城市中,哪种类型的房产销售价格高于平均房产销售价格?这与人口统计数据有何联系?数据仓库概述12两个系统的查询支持不同数据34PPTPPT文档演模板文档演模板 Office Office PPTPPT3两个系统数据组织模式示例比较数据仓库概述13两个系统数据组织模式示例比较数据仓库概述135PPTPPT文档演模板文档演模板 Office Office PPTPPT数据仓库概述1数据仓库概述136PPTPPT文档演模板文档演模板 Office Office PPTPPT从上述实例,不难看出:1)在从面向应用到面向主题的转变过程中,丢弃了原来有的但不必要的、不适于分析的信息;2)在原有的数据库模式中,有关商品的信息分散在各个子系统之中;面向主题的数据组织方式所强调的就是要形成关于主题一致的信息集合;3)不同主题之间有重叠内容。数据仓库概述1从上述实例,不难看出:数据仓库概述137PPTPPT文档演模板文档演模板 Office Office PPTPPT1.5 数据仓库的系统结构 1.1.三层数据仓库结构三层数据仓库结构三层数据仓库结构三层数据仓库结构数据仓库服务器OLAP服务器前端工具2.2.数据仓库的运行结构数据仓库的运行结构数据仓库的运行结构数据仓库的运行结构两层数据仓库结构多层数据仓库结构数据仓库概述11.5数据仓库的系统结构数据仓38PPTPPT文档演模板文档演模板 Office Office PPTPPT1.三层数据仓库结构数据仓库概述11.三层数据仓库结构数据仓库概述139PPTPPT文档演模板文档演模板 Office Office PPTPPT原则上,数据仓库的系统结构被划分为三层:数据仓库服务器、OLAP服务器和前端工具。1)底层是数据仓库服务器,它几乎总是一个关系数据库系统。数据仓库系统使用后端工具和实用程序从操作数据库和外部信息源加载和刷新它的数据,这些机制统称ETL(Extract/Transformation/Load)工具,它们具有数据抽取、数据清洗、数据转换、数据加载和数据刷新等功能。此外,这一层还包含一个元数据存储,它是关于数据仓库和数据仓库中数据的信息。2)中间层是OLAP服务器,其典型的实现有:()关系OLAP(ROLAP)模型,即扩展的关系DBMS,它将多维数据上的操作映射为标准的关系操作;()多维OLAP(MOALP)模型,一种特殊的服务器,它直接实现多维数据操作。3)顶层是客户,它包括查询和报告工具、分析工具和/或数据挖掘工具(例如关联分析、分类分析、预测等)。数据仓库概述1原则上,数据仓库的系统结构被划分为三层40PPTPPT文档演模板文档演模板 Office Office PPTPPT过程模型数据仓库管理系统数据仓库管理系统元数据元数据多维关系多维关系数据库数据库多维多维数据库数据库外部操作型外部操作型数据数据数据抽取数据抽取数据清洁数据清洁数据装载数据装载管理平台管理平台报表查询工具报表查询工具数据挖掘工具数据挖掘工具OLAP工具工具数据仓库概述1过程模型数据仓库管理系统元数据多维关系多维外部操作型数据抽取41PPTPPT文档演模板文档演模板 Office Office PPTPPT仓库管理数据建模仓库管理数据建模数据建模是建立数据仓库的数据模型。数据建模是建立数据仓库的数据模型。数据仓库的数据模型不同于数据库的数据模数据仓库的数据模型不同于数据库的数据模型在于:型在于:数据仓库只为决策分析用,不包含事务处理的数据仓库只为决策分析用,不包含事务处理的数据。数据。数据仓库的增加了时间属性数据。数据仓库的增加了时间属性数据。数据仓库增加了一些综合数据。数据仓库增加了一些综合数据。数据仓库的数据建模是适应决策用户使用的数据仓库的数据建模是适应决策用户使用的逻辑数据模型。逻辑数据模型。数据仓库概述1仓库管理数据建模数据建模是建立数据仓库的数据模型。数据仓库42PPTPPT文档演模板文档演模板 Office Office PPTPPT仓库管理元数据管理仓库管理元数据管理最基本的元数据相当于数据库系统中的数据字典。最基本的元数据相当于数据库系统中的数据字典。元数据定义了数据仓库有什么,指明了数据仓库中元数据定义了数据仓库有什么,指明了数据仓库中数据的内容和位置,刻画了数据的抽取和转换规则,数据的内容和位置,刻画了数据的抽取和转换规则,存储了与数据仓库主题有关的各种商业信息,而且存储了与数据仓库主题有关的各种商业信息,而且整个数据仓库的运行都是基于元数据的。整个数据仓库的运行都是基于元数据的。数据源的元数据数据源的元数据数据模型的元数据数据模型的元数据数据仓库映射的元数据数据仓库映射的元数据数据仓库使用的元数据数据仓库使用的元数据数据仓库概述1仓库管理元数据管理最基本的元数据相当于数据库系统中的数据字43PPTPPT文档演模板文档演模板 Office Office PPTPPT仓库管理数据处理仓库管理数据处理异构数据源:异构数据源:企业内部数据企业内部数据存档的历史数据存档的历史数据企业的外部数据。企业的外部数据。软硬件平台不一致软硬件平台不一致ETL过程过程抽取(抽取(Extraction)转换(转换(Transform)装载(装载(Load)数据仓库概述1仓库管理数据处理异构数据源:数据仓库概述144PPTPPT文档演模板文档演模板 Office Office PPTPPT分析工具查询工具查询工具数据仓库的查询不是指对记录级数据的查询,数据仓库的查询不是指对记录级数据的查询,而是指对分析要求的查询。而是指对分析要求的查询。数据仓库概述1分析工具查询工具数据仓库的查询不是指对记录级数据的查询,而45PPTPPT文档演模板文档演模板 Office Office PPTPPT分析工具多维分析工具多维分析工具通过对信息的多种可能的观察形式进行快通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,这样便利用户对速、一致和交互性的存取,这样便利用户对数据进行深入的分析和观察。数据进行深入的分析和观察。多维数据的每一维代表对数据的一个特定的多维数据的每一维代表对数据的一个特定的观察视角,如时间、地域、业务等。观察视角,如时间、地域、业务等。数据仓库概述1分析工具多维分析工具通过对信息的多种可能的观察形式进行快46PPTPPT文档演模板文档演模板 Office Office PPTPPT分析工具数据挖掘工具数据挖掘工具从大量数据中挖掘具有规律性知识,需要利从大量数据中挖掘具有规律性知识,需要利用数据挖掘(用数据挖掘(Data MiningData Mining)工具。)工具。数据仓库概述1分析工具数据挖掘工具从大量数据中挖掘具有规律性知识,需要利47PPTPPT文档演模板文档演模板 Office Office PPTPPT482.数据仓库的运行结构数据仓库的运行结构 数数据据仓仓库库应应用用是是一一个个典典型型的的客客户户/服服务务器器(C/SC/S)结结构构形形式:式:客客户户端端所所做做的的工工作作:客客户户交交互互、格格式式化化查查询询、结结果果显显示示、报表生成等。报表生成等。服服务务器器端端完完成成各各种种辅辅助助决决策策的的SQLSQL查查询询、复复杂杂的的计计算算和和各各类综合功能等。类综合功能等。数据仓库概述1482.数据仓库的运行结构数据仓库应用是一个典型的客48PPTPPT文档演模板文档演模板 Office Office PPTPPT数据仓库的运行结构数据仓库的运行结构两层数据仓库结构两层数据仓库结构数据仓库数据数据仓库数据元数据元数据数据仓库服务器数据仓库服务器数据逻辑数据逻辑数据服务数据服务元数据元数据文件服务文件服务客户端客户端图形用户接口图形用户接口/表示逻辑表示逻辑查询规范查询规范数据分析数据分析报表格式报表格式总结总结数据访问数据访问数据仓库概述1数据仓库的运行结构两层数据仓库结构数据仓库数据元数据数据仓库49PPTPPT文档演模板文档演模板 Office Office PPTPPT50解解 释释 客户客户/服务器(服务器(C/S)是网络上一种重要的组)是网络上一种重要的组织形式。织形式。数据仓库在网络上都是以服务器(数据仓库在网络上都是以服务器(Server)形式提供服务,能对网络上多个客户形式提供服务,能对网络上多个客户(Client)同时提供服务。)同时提供服务。数据仓库概述150解释客户/服务器(C/S)是网络上一种重要的50PPTPPT文档演模板文档演模板 Office Office PPTPPT数据仓库的运行结构数据仓库的运行结构多层数据仓库结构多层数据仓库结构多维数据服务器多维数据服务器数据仓库数据数据仓库数据元数据元数据数据逻辑数据逻辑数据服务数据服务元数据元数据文件服务文件服务数据仓库服务器数据仓库服务器应用服务器应用服务器图形用户接口图形用户接口查询规范查询规范数据分析数据分析报表格式报表格式数据访问数据访问客户端客户端过滤过滤总结总结元数据元数据多维视图多维视图数据访问数据访问数据仓库概述1数据仓库的运行结构多层数据仓库结构多维数据服务器数据仓库数据51PPTPPT文档演模板文档演模板 Office Office PPTPPT52OLAPOLAP服务器将加强和规范化决策支持的服务工服务器将加强和规范化决策支持的服务工作,集中和简化了原客户端和数据仓库服务器的部作,集中和简化了原客户端和数据仓库服务器的部分工作,降低了系统数据传输量。分工作,降低了系统数据传输量。这种结构形式工作效率更高。这种结构形式工作效率更高。OLAP的三层的三层C/S结构结构数据仓库概述152OLAP服务器将加强和规范化决策支持的服52PPTPPT文档演模板文档演模板 Office Office PPTPPT1.6数据仓库的基本概念1.ETL2.元数据(MetaData)3.数据集市(DataMarket)4.OLAP数据仓库概述11.6数据仓库的基本概念1.ETL数据仓库概述153PPTPPT文档演模板文档演模板 Office Office PPTPPT)1.ETL(Extract/Transformation/Load)数据抽取、转换、加载工具ETL工具就是进行数据的抽取、转换和加载。具体来讲,ETL工具包括:数据提取(data extract)、数据转换(datatransform)、数据清洗(data cleaning)和数据加载(dataloading)。(1)数据提取(DataExtract)从数据仓库的角度来看,并不是业务数据库中的所有数据都是决策支持所必需的。通常,数据仓库按照分析的主题来组织数据,我们只需提取出系统分析必需的那一部分数据。例如,某超市确定以分析客户的购买行为为主题建立数据仓库,则我们只需将与客户购买行为相关的数据提取出来,而超市服务员工的数据就没有必要放进数据仓库。现有的数据仓库产品几乎都提供各种关系型数据接口,提供提取引擎,从关系型数据中提取数据。数据仓库概述1)数据仓库概述154PPTPPT文档演模板文档演模板 Office Office PPTPPT(2)数据转换(DataTransform)由于业务系统可能使用不同的数据库厂商的产品,比如IBMDB2、Oracle、Informix、Sybase、NCRTeradata、SQLServer等,各种数据库产品提供的数据类型可能不同,因此,需要将不同格式的数据转换成统一的数据格式。如时间格式“年/月/日”,“月/日/年”、“日-月-年”的不一致问题等。(3)数据清洗(DataClean)对于决策支持系统来说,最重要的是决策的准确性,因此确保数据仓库中数据的准确性是极其重要的。从多个业务系统中获取数据时,必须对数据进行必要的清洗,从而得到准确的数据。所谓“清洗”就是将错误的、不一致的数据在进入数据仓库之前予以更正或删除,以免影响决策支持系统决策的正确性。数据仓库概述1(2)数据转换(DataTransform)数据仓库55PPTPPT文档演模板文档演模板 Office Office PPTPPT(4)数据加载(DataLoad)数据加载部件负责将数据按照物理数据模型定义的表结构装入数据仓库,包括清空数据域、填充空格、有效性检查等步骤。数据仓库概述1数据仓库概述156PPTPPT文档演模板文档演模板 Office Office PPTPPT2.元数据(MetaData)元数据元数据是描述数据的数据。元数据通常包括:数数据据仓仓库库结结构构的的描描述述信信息息,包括仓库模式、视图、维、层次结构和导出数据的定义,以及数据集市的位置和内容。操操作作元元数数据据,包括数据血统信息(来自何处以及如何转换的),数据流通信息(主动的、档案的或净化的)以及监视信息(仓库使用统计、错误报告、审计跟踪)。汇汇总总用用的的算算法法,包括度量与维定义算法,数据粒度、分割、主题域、聚集、汇总、预定义查询与报告的算法。数据仓库概述12.元数据(MetaData)数据仓库概述157PPTPPT文档演模板文档演模板 Office Office PPTPPT 由操作环境到数据仓库的映射信息由操作环境到数据仓库的映射信息,包括源数据库和它们的内容,ETL程序描述,数据分割、提取、清理和转换的规则和缺省,数据刷新和裁减的规则以及数据安全信息(用户授权和存取控制)。关于系统性能的数据信息关于系统性能的数据信息,除刷新、更新和复制周期的定时和调度的规则外,还包括改善数据存取和检索性能的索引和配置。商务元数据商务元数据,包括商务术语和定义,数据拥有者信息和收费策略。数据仓库包括不同级别的综合,元数据是其中一种类型。其它类型包括当前的细节数据(几乎总是在磁盘上),老的细节数据(通常在三级存储器上),稍加综合的数据,以及高度综合的数据(可以存入仓库也可以不存入)。数据仓库概述1由操作环境到数据仓库的映射信息,包括源数据库58PPTPPT文档演模板文档演模板 Office Office PPTPPT3.数据集市(DataMarket)建立数据集市的原因建立数据集市的原因数据仓库是一种反映主题的全局性数据组织。但是数据仓库是一种反映主题的全局性数据组织。但是,全局全局性数据仓库往往太大,在实际应用中将它们按部门或个人性数据仓库往往太大,在实际应用中将它们按部门或个人分别建立反映各个子主题的局部性数据组织分别建立反映各个子主题的局部性数据组织,它们即是它们即是数数据集市据集市。因此,有时我们也称它为。因此,有时我们也称它为部门数据仓库部门数据仓库。例:在有关商品销售的数据仓库中可以建立多个不同主题的例:在有关商品销售的数据仓库中可以建立多个不同主题的数据集市:数据集市:商品采购数据集市商品采购数据集市库房使用数据集市库房使用数据集市商品销售数据集市商品销售数据集市数据仓库概述13.数据集市(DataMarket)数据仓库概述159PPTPPT文档演模板文档演模板 Office Office PPTPPT60数据集市(数据集市(Data MartsData Marts)是一种更小、更集中的)是一种更小、更集中的数据仓库,为公司提供分析商业数据的一条廉价数据仓库,为公司提供分析商业数据的一条廉价途径。途径。Data MartsData Marts是指具有特定应用的数据仓库,主要是指具有特定应用的数据仓库,主要针对某个应用或者具体部门级的应用,支持用户针对某个应用或者具体部门级的应用,支持用户获得竞争优势或者找到进入新市场的具体解决方获得竞争优势或者找到进入新市场的具体解决方案。案。数据集市概念数据集市概念数据仓库概述160数据仓库概述160PPTPPT文档演模板文档演模板 Office Office PPTPPT数据集市类型按照数据获取来源:独立型:直接从操作型环境获取数据。从属型:从企业级数据仓库获取数据。独立数据集市独立数据集市(Independent Data Mart)(Independent Data Mart)从属数据集市从属数据集市(Dependent Data Mart)(Dependent Data Mart)数据仓库概述1数据集市类型按照数据获取来源:独立数据集市(Independ61PPTPPT文档演模板文档演模板 Office Office PPTPPT4.OLAPOLAP(On-line Analytical Processing,在在线线分分析析处处理理或或联联机机分分析析处处理理)就是一个应用广泛的数据仓库使用技术。它可以根据分析人员的要求,迅速灵活地对大量的数据进行复杂的查询处理,并以直观的容易理解的形式将查询结果提供给各种决策人员,使他们能够迅速准确地掌握企业的运营情况,了解市场的需求。这就是说,OLAP是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地查询,从而获得对数据的更深入了解的一类软件技术。OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是“维维”这个概念。维(dimension)是人们观察数据的特定角度。例如,一个企业在考虑产品的销售情况时,通常从时间、地区和产品的不同角度来深入观察产品的销售情况。这里的时间、地区和产品就是维。而这些维的不同组合和所考察的度量指标构成的多维数组则是OLAP分析的基础,可形式化表示为(维1,维2,维n,度量指标),如(地区、时间、产品、销售额)。数据仓库概述14.OLAP数据仓库概述162PPTPPT文档演模板文档演模板 Office Office PPTPPT1.7数据仓库的数据组织结构在数据仓库中,数据一般分成4个级别:高度综合级、轻度综合级、当前细节级和早期细节级。数据仓库概述11.7数据仓库的数据组织结构数据仓库概述163PPTPPT文档演模板文档演模板 Office Office PPTPPT一个典型的数据仓库的数据组织如图所示数据仓库概述1一个典型的数据仓库的数据组织如图所示数据仓库概述64PPTPPT文档演模板文档演模板 Office Office PPTPPT源数据(早期细节级数据)经过综合后,首先进入当前细节级,然后根据应用的需求,通过预运算将数据聚合成轻度综合和高度综合级。由此可见,数据仓库中存储着不同综合级别的数据,一般称之为“数据粒度”。粒度越大,表示细节程度越低,综合程度越高。比如,在电信公司中的电话呼叫数据中记录了每个用户的每次呼叫。进行OLAP分析时,常常需要不同层次的数据粒度,因此可以通过预运算将数据综合成每个用户每“天”的通话次数,还可以进一步聚合成每个用户每“月”的通话次数。在数据仓库中,轻度和高度综合级别的数据一般是由细节数据聚合而来,但需要说明的是轻度和高度是相对的概念,而没有绝对的界限,并且在数据仓库中数据的综合程度常常有很多的级别。数据仓库概述1源数据(早期细节级数据)经过综合后,首先进入65PPTPPT文档演模板文档演模板 Office Office PPTPPT1.6本章小结本章介绍了:从数据库到数据仓库的演变过程;从数据库到数据仓库的演变过程;数据仓库的定义;数据仓库的定义;数据仓库的基本特征;数据仓库的基本特征;传统数据库与数据仓库的区别;传统数据库与数据仓库的区别;数据仓库的体系结构;数据仓库的体系结构;数据仓库中等一系列重要的概念;数据仓库中等一系列重要的概念;数据仓库的数据组织。数据仓库的数据组织。数据仓库概述11.6本章小结本章介绍了:数据仓库概66PPTPPT文档演模板文档演模板 Office Office PPTPPT思考题:1什么是数据仓库?2为什么要研究数据仓库?3简述数据仓库与操作型数据库系统的区别。4简述数据仓库体系结构的主要内容。数据仓库概述1思考题:1什么是数据仓库?数据仓库概述167PPTPPT文档演模板文档演模板 Office Office PPTPPT演讲完毕,谢谢听讲!再见,see you again3rew3rew2024/6/10数据仓库概述1演讲完毕,谢谢听讲!再见,seeyouagain3rew68
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!