资源描述
单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,12.,*,单击此处编辑母版标题样式,数据库与智能网络研究室,http:/,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,*,第九章:数据仓库,第九章:数据仓库,第章 数据仓库,概述,数据仓库构造,联机分析处理,OLAP,数据仓库的开发,数据挖掘,第章 数据仓库概述,概述,数据仓库的产生,数据仓库定义,数据仓库系统的主要特征,概述数据仓库的产生,数据仓库的产生,数据处理大致分为两大类:操作型处理和分析型处理。操作型处理也叫联机事务处理(,On-Line Transaction Processing,,,OLTP,),是指对数据库联机的日常操作,通常是对数据记录的查询和修改,主要是为企业的特定应用服务的,人们关心的是响应时间、数据的完整性和安全性。分析型处理也叫联机分析处理(,On-Line Analytical,,,Processing,OLAP,),主要用于管理人员的决策分析,需要经常访问大量的历史数据,两者之间存在很大的差异。,数据仓库的产生 数据处理大致分为两大类:操作型,数据仓库的产生,数据仓库(,Data warehouse,,,DW,),数据仓库并不是一个新的平台,它仍然建立在数据库管理系统基础之上,只是一个新的概念。从用户的角度看,数据仓库是一些数据、过程、工具和设施,它能够管理完备的、及时的、准确的和可理解的业务信息,并把这种信息提交给授权的个人,以便他们作出正确有效的决定。,数据仓库的产生 数据仓库(Data wareh,数据仓库定义,数据仓库概念的创始人,W.H.Inmon,对数据仓库的定义是:数据仓库是面向主题的、集成的、稳定的、随时间变更的数据集合,用以支持经营管理中的决策制定过程。,数据仓库是决策支持系统(,DSS,)的一种有效、可行和体系化解决方案,包括了三个方面的内容:,(,1,)数据仓库技术,用于数据的存储和组织;,(,2,)联机分析处理(,On-Line Analytical Processing,OLAP,)用于数据的分析;,(,3,)数据挖掘技术(,Data Mining,DM,)用于知识的自动发现。,数据仓库定义 数据仓库概念的创始人W.H.In,数据仓库系统的主要特征,数据仓库系统的主要特征有:,(,1,)面向主题,主题是某一宏观分析领域中所涉及的分析对象。例如,一个商场,主要分析各类商品的销售情况,确定营销的策略,这里商品就是一个主题。为了便于决策分析,数据仓库是围绕着这个主题(例如商品、供应商、地区和客户等)而组织的。,数据仓库系统的主要特征 数据仓库系统的主要特征,数据仓库系统的主要特征,(,2,)集成,数据仓库的数据来自于不同的数据源,要按照统一的结构、一致的格式、度量及语义,将各种数据源的数据合并到数据仓库中。,(,3,)稳定且不可更新,数据仓库的数据主要供决策分析之用,所涉及的数据操作主要是数据查询,这些数据反映的是不同时间点的数据库快照的统计、综合等导出数据,它们是稳定的,不能被用户随意更改。,数据仓库系统的主要特征 (2)集成,数据仓库系统的主要特征,(,4,)随时间变化,对用户来说不能更改数据仓库中的数据,但随着时间变化系统进行定期刷新,把新的内容追加到数据仓库,并随时导出新综合数据和统计数据。,数据仓库是一个决策支持的环境,它从不同的数据来源获得数据,集成数据,组织和管理数据,使得数据有效地支持决策分析。,数据仓库系统的主要特征 (4)随时间变化,数据仓库构造,数据仓库系统结构,数据仓库模型,元数据,数据仓库构造数据仓库系统结构,数据仓库系统结构,1,数据仓库的逻辑结构和物理结构,数据仓库中的逻辑结构数据由,3,层到,4,层数据组成,它们均由元数据(,MetaData,)组织而成。数据仓库中数据的物理存储形式有多维数据库组织形式(空间超立方体形式)和基于关系数据库的组织形式(由关系型事实表和维表组成)。,2,数据仓库系统,数据仓库系统(,DWS,)至少由数据集成、数据存储和数据查询与分析工具三部分组成。,数据仓库系统结构 1数据仓库的逻辑结构和物理,数据仓库系统结构,(,1,)数据源,(,2,)数据的集成,(,3,)数据存储,(,4,)数据查询和分析工具,3,数据仓库应用的,C/S,结构形式,数据仓库系统结构 (1)数据源,数据仓库系统结构,数据仓库系统结构,数据仓库模型,数据仓库模型有多种形式,如星形模式、雪花模式、星座模式、暴风雪模式等,其中最流行的是星形模式。,星形模式(,Star Schema,)是为了将数据分割成执行起来容易理解的格式而设计的。星形模式是由两种类型的表组成的:事实表和维表。事实表为多个维表围绕,并与维表相连。,数据仓库模型 数据仓库模型有多种形式,如星形模,数据仓库模型,(,1,)事实表,事实表(,Fact Table,)通常是数据仓库中的最大表。事实表包含两种类型的列。第一种类型的列包含了用于计算的信息,例如销售额、盈余百分比、销售佣金、折扣、制造产品成本等。这些项一般是数值的,但也可能是文本。这些事实数据组成了表的主要部分。另一种类型的列是对维表的索引列,这些列存储了维表的主键值。,数据仓库模型 (1)事实表,数据仓库模型,(,2,)维表,维(,Dimension,)是人们观察数据的特定角度,它是数据仓库与联机分析处理中的重要概念。在维表(,Dimension Table,)中包含的数据一般用于选择包括或排除从事实表中返回的数据。存储在维表中的数据通常是文本,但有时也是数值。例如,邮政编码是一个数值,但它不能在一些数学函数(如求平均值,求和及标准偏差)中使用,它可以用来筛选将从事实表中返回的数据。例如,查询邮政编码为,410025,的地区的销售情况。这将使用邮政编码维字段来选择事实表中邮政编码为,410025,的销售数据。高级管理人员是不会询问数据仓库中邮政编码的平均值的。维表通常比事实表要小得多。,数据仓库模型 (2)维表,数据仓库模型,例如,下面是几个时间维可以回答的问题:,第四季度的平均销售额是多少?,在最近三个月的星期五支付给销售人员的销售佣金的总和是多少?,节假日的一般销售额是多少?,什么时间是最容易销售的:在季度的初期、中期或末期?,数据仓库模型 例如,下面是几个时间维可以回答的,数据仓库模型,数据仓库模型,数据仓库模型,例如,顾客维可以回答下列几个问题:,拥有,500,个以上雇员的公司的平均销售额是多少?,纽约州或新泽西州公司的销售合同的平均长度是多少?,信用等级较低的,并且销售额超过,200,万美元的公司数目是多少?,数据仓库模型 例如,顾客维可以回答下列几个问题,元数据,元数据是关于数据的数据,它是用户或管理员需要的使用数据的全部信息。,数据仓库中有三种类型的元数据。,1,系统元数据,2,管理元数据,管理元数据解释数据管理的所有细节。,3,商务元数据,商务元数据是直接指向商务用户的。,元数据 元数据是关于数据的数据,它是用户或管理,联机分析处理,OLAP,联机分析处理(,OLAP,)是针对特定问题的联机数据存取和分析处理。,OLAP,数据模型,OLAP,基本操作,OLAP,实现技术,联机分析处理OLAP 联机分析处理(OLAP),OLAP,数据模型,人们这种考察问题的特定角度称为维(,Dimension,),立方体(,Cube,),多维数据模型(,Multidimensional Data Model,),OLAP数据模型 人们这种考察问题的特定角度称,OLAP,数据模型,多维,OLAP,(,MOLAP,)系统,OLAP数据模型 多维OLAP(MOLAP)系,OLAP,数据模型,OLAP数据模型,OLAP,数据模型,OLAP数据模型,OLAP,基本操作,1,切片,2,切块,3,旋转,4,上卷,5,下探,OLAP基本操作1切片,OLAP,实现技术,1,实视图,实视图(,Materialized view,),在图,12.5,中的销售表共有三维:产品、日期和地区,现分别用,P,(,Product,)、,D,(,Date,)和,Z,(,Zone,)表示。,从销售表可以定义下列四种实视图:,(,1,),PDZ,视图。这里,销售表本身就是,PDZ,视图。,OLAP实现技术 1实视图,OLAP,实现技术,(,2,),PZ,、,ZD,、,PD,视图,Create view PZ,(产品标识符,地区标识符,销售总额),AS,Select,产品标识符,地区标识符,Sum,(销售额),AS,销售总额,From PDZ,Group by,产品标识符,地区标识符;,类似地可以定义,ZD,和,PD,视图。,OLAP实现技术 (2)PZ、ZD、PD视图,OLAP,实现技术,(,3,),P,、,D,、,Z,视图。,Create view P,(产品标识符,销售总额),AS,Select,产品标识符,Sum,(销售总额),AS,销售总额,From PZ,Group by,产品标识符;,类似地可以定义,D,和,Z,视图。,P,从,PZ,定义为的是节省计算量,,P,也可以从,PDZ,定义。,OLAP实现技术 (3)P、D、Z视图。,OLAP,实现技术,OLAP实现技术,OLAP,实现技术,2,位图索引,现在通过一个例子来说明位图索引。下图(,a,)是一个客户表。,OLAP实现技术 2位图索引,OLAP,实现技术,3,连接索引,位图连接索引(,Bitmap Jion Index,),OLAP实现技术 3连接索引,数据仓库的开发,数据仓库开发的流程,构造数据仓库的过程,执行信息系统,数据仓库的开发数据仓库开发的流程,数据仓库开发的流程,(,1,)启动工程。,(,2,)建立技术环境。,(,3,)确定主题进行数据建模。,(,4,)设计数据仓库中的数据库。,(,5,)用数据转换程序实现从源系统中抽取数据、清理数据、一致性格式化数据、综合数据、装载数据等过程的设计和编码。,(,6,)定义和管理元数据,即表示、定义数据的意义及系统各组成部件之间的关系。,(,7,)确定结构化的决策支持查询,实现和使用数据仓库的数据分析工具,包括优化查询工具、统计分析工具、,C/S,工具、,OLAP,工具及数据挖掘工具等,通过这些分析工具实现决策支持需求。,(,8,)管理数据仓库环境。,数据仓库开发的流程 (1)启动工程。,构造数据仓库的过程,1,建立营业环境的文档。,2,选择实现数据仓库的技术。,3,设计数据仓库模型。,4,提取和清除例程的开发。,5,建立元数据存储库。,6,创建多维报告和立方体。,构造数据仓库的过程 1建立营业环境的文档。,执行信息系统,执行信息系统(,EIS,)是数据仓库中为高层管理人员而设计的工具软件系统,它能从数据仓库中获取决策需要的数据。,执行信息系统 执行信息系统(EIS)是数据仓库,数据挖掘,什么是数据挖掘,数据挖掘的主要目标与特点,数据挖掘模型,数据挖掘什么是数据挖掘,什么是数据挖掘,数据挖掘(,Data Mining,,,DM,),数据挖掘技术包括三个主要部分:算法和技术、数据、建模能力。,知识发现(,Knowledge Discovery in Database,,,KDD,),(,1,)问题定义。了解相关领域的有关情况,熟悉背景知识,弄清用户需求。,(,2,)数据提取。根据要求从数据库中提取相关的数据。,什么是数据挖掘 数据挖掘(Data Minin,什么是数据挖掘,(,3,)数据预处理。对前一阶段产生的数据进行再加工,检查数据的完整性及数据的一致性,对其中的噪音数据进行处理,对丢失的数据进行填补。,(,4,)数据挖掘。运用选定的知识发现算法,从数据中提取出用户所需要的知识,这些知识可以用一种特定的方式或使用一些常用的表达方式。,(,5,)知识评估。将发现的知识以用户能了解的方式呈现,根据需要对知识发现过程中的某些处理阶段进行优化,直到满足要求。,什么是数据挖掘 (3)数据预处理。对前一阶段产,数据挖掘的主要目标与特点,(,1,)总
展开阅读全文