第1章 数据仓库的概念与体系结构14323

上传人:无*** 文档编号:243980540 上传时间:2024-10-01 格式:PPTX 页数:42 大小:1.12MB
返回 下载 相关 举报
第1章 数据仓库的概念与体系结构14323_第1页
第1页 / 共42页
第1章 数据仓库的概念与体系结构14323_第2页
第2页 / 共42页
第1章 数据仓库的概念与体系结构14323_第3页
第3页 / 共42页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,数据仓库与数据挖掘,*,第1章,数据仓库的概念与体系结构,10/1/2024,1,数据仓库与数据挖掘,1.1 数据仓库的概念、特点与组成,数据仓库的概念,数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持(DDS),10/1/2024,2,数据仓库与数据挖掘,1.1 数据仓库的概念、特点与组成,数据仓库的特点:,面向主题;,集成的;,相对稳定的;,反映历史变化。,10/1/2024,3,数据仓库与数据挖掘,10/1/2024,4,数据仓库与数据挖掘,数据库与数据仓库的比较,10/1/2024,5,数据仓库与数据挖掘,1.1 数据仓库的概念、特点与组成,数据仓库的组成:,数据仓库数据库;,数据抽取工具;,元数据:技术元数据与业务元数据;,访问工具;,数据集市(Data Marts);,数据仓库管理;,信息发布系统。,10/1/2024,6,数据仓库与数据挖掘,1.2 数据挖掘的概念与方法,数据挖掘的概念,数据挖掘(Data Mining),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识,又被称为数据库中的知识发现(Knowledge Discovery in Database,KDD),10/1/2024,7,数据仓库与数据挖掘,1.2 数据挖掘的概念与方法,数据挖掘的方法:,直接数据挖掘,间接数据挖掘。,10/1/2024,8,数据仓库与数据挖掘,1.2 数据挖掘的概念与方法,数据仓库与数据挖掘的关系,若将数据仓库(Data Warehouse)比作矿井,那么数据挖掘(Data Mining)就是深入矿井采矿的工作,数据挖掘是从数据仓库中找出有用信息的一种过程与技术,10/1/2024,9,数据仓库与数据挖掘,1.3 数据仓库的技术、方法与产品,联机事务处理(OLTP)与联机分析处理(OLAP)的比较;,OLTP,OLAP,细节性数据,综合性数据,当前数据,历史数据,经常更新,不更新,但周期性刷新,一次性处理的数据量小,一次处理的数据量大,对响应时间要求高,响应时间合理,面向应用,事务驱动,面向分析,分析驱动,10/1/2024,10,数据仓库与数据挖掘,OLAP技术的有关概念:多维数据集、维度、数据立方体、度量值和多维分析;,1.多维数据集是数据的集合(,多维数组,),多维数据集是决策支持的依据,也是OLAP的核心。,OLAP展现的结果是一幅幅多维视图。,多维数据集可以用一个多维数组表示。例如经典的时间、地理位置和产品的多维数据集可以表示为:,(时间,地理位置,产品,销售数据),类似地,其它多维数据集可表示为:(维1,维2,维3,维n,观察变量)形式。,10/1/2024,11,数据仓库与数据挖掘,数据仓库是用于决策支持的,管理人员在进行决策分析时,经常需要选择一个对决策支持活动有重要影响的因素去进行决策分析,这些决策因素就构成了分析问题的角度,这些分析角度就是数据仓库中的维度。从而构成了三维、多维空间。,维度是数据仓库中识别数据的索引。,维度具有层次性。,可以根据数据的组织层次进行“上卷”或“下钻”,了解具体信息。,2.维度,维是人们观察数据的特定角度,10/1/2024,12,数据仓库与数据挖掘,3.数据立方体,从不同角度对同一数据进行观察得到的数据交点,构成了数据立方体。,当观察的角度(参数)超过三个所构成的数据结果集称为超立方体,也称为超维数据集。,商品,城市,日期,牛奶,浴巾,毛巾,可乐,果汁,4,3,2,1,北京,上海,长沙,广州,武汉,商品、城市、日期维,工业 国家 年,商品 市 日,类别 省 月,10/1/2024,13,数据仓库与数据挖掘,4.度量值,是多维数据集的核心值。,是最终用户在数据仓库应用中所需要查看的数据。,如:销售量、成本、费用等。,10/1/2024,14,数据仓库与数据挖掘,5.多维分析,OLAP的多维分析是指对多维数据集中的数据用切片、切块、旋转等方式分析数据。,使用户能从多个角度、多个侧面去观察数据仓库中的数据。,CT?,10/1/2024,15,数据仓库与数据挖掘,(1)多维的切片,在多维分析过程中,如果对多维数据集的某个维选定一维成员,这种选择操作,就可以称之为切片。,有多维数据集(维1,维2,维i,维n,观察变量),如果确定了某个维成员维i 的值,则称:在维i上的一个切片为(维 1,维2,维i成员,维n,观察变量)。,一个多维数组的切片最终是由该数组中除切片所在平面之外的其他成员值确定的。,维是观察数据的角度,切片的作用或结果是舍弃一些观察角度,以便集中观察该维的数据。,10/1/2024,16,数据仓库与数据挖掘,产品,北京,上海 化妆品,江苏 玩具,服装,电器,1 2 3 4 时间(月,),销售数量:10000,服装切片,10/1/2024,17,数据仓库与数据挖掘,(2)多维的切块,与切片类似,如果在一个多维数据集上对两个及其以上的维选定维成员的操作称为切块。,如有多维数据集(维1,维2,维i,维k,维n,观察变量),对维i,维k,选定了维成员,那么(维1,维2,维i成员,维k成员,维n,观察变量)就是多维数据集(维1,维2,维i,维k,维n,观察变量)在维i,维k上的一个切块。,10/1/2024,18,数据仓库与数据挖掘,(3)旋转,改变多维数据集显示的维方向。,旋转前的维方向,2002年,2003年,1季度,2季度,3季度,4季度,1季度,2季度,3季度,4季度,北京市,123,56,45,66,134,56,23,55,上海市,134,103,98,87,102,139,97,82,天津市,67,73,59,96,73,69,62,94,10/1/2024,19,数据仓库与数据挖掘,旋转后的维方向(不同维度间的旋转操作),北京市,上海市,天津市,2002年,1季度,123,134,67,2季度,56,103,73,3季度,45,98,59,4季度,66,87,96,2003年,1季度,134,102,73,2季度,56,139,69,3季度,23,97,62,4季度,55,82,94,2002年,2003年,1季度,2季度,3季度,4季度,1季度,2季度,3季度,4季度,北京市,123,56,45,66,134,56,23,55,上海市,134,103,98,87,102,139,97,82,天津市,67,73,59,96,73,69,62,94,10/1/2024,20,数据仓库与数据挖掘,旋转后的维方向(维度层次上的旋转操作),2002年,2003年,1季度,2季度,3季度,4季度,1季度,2季度,3季度,4季度,北京市,123,56,45,66,134,56,23,55,上海市,134,103,98,87,102,139,97,82,天津市,67,73,59,96,73,69,62,94,1季度,2季度,3季度,4季度,2002,2003,2002,2003,2002,2003,2002,2003,北京市,123,134,56,56,45,23,66,55,上海市,134,102,103,139,98,97,87,82,天津市,67,73,73,69,59,62,96,94,10/1/2024,21,数据仓库与数据挖掘,(4)其它OLAP操作,维度是有层次性的,如时间维可能由:年、季、月、日构成,维度的层次反映了数据的综合程度。,维度层次越高、代表的数据综合度越高,数据量越少。,维度层次越低、代表的数据综合度越低,细节越充分,数据量越多。,有关操作:“上卷”(roll_up)、“下钻”(drill_down)、“钻过”(drill_across)和“钻透”(drill_through)等。,10/1/2024,22,数据仓库与数据挖掘,“上卷”是指沿某一个维的概念分层向上归约;,下钻”是上卷的逆向操作,它是沿某一个维的概念分层向下或引入新的维来实现;,“钻过”是指对多个事实表进行查询;,“钻透”是指对立方体操作时,利用数据库关系,钻透立方体的底层,进入后端的关系表。,10/1/2024,23,数据仓库与数据挖掘,OLAP的其它操作还有统计表中最高值和最低值的项数,计算平均值、增长率、利润、投资回报率等统计计算。,表1(单位:万美元),部门,销售,部门1,90,部门2,60,部门3,80,2004年,部门,1季度,2季度,3季度,4季度,部门1,20,20,35,15,部门2,25,5,15,15,部门3,20,15,18,27,上,卷,下,钻,10/1/2024,24,数据仓库与数据挖掘,OLAP根据其存储数据的方式可分为三类:ROLAP、MOLAP、HOLAP,MOLAP是以多维数据库的方式组织存储数据,ROLAP是利用现有的关系数据库技术来模拟多维数据。,HOLAP是一混合模式,对于常用的维度和维层次,使用多维数据表来记录,对于用户不常用的维度和数据,采用类似ROLAP星型结构来存储。,10/1/2024,25,数据仓库与数据挖掘,1.ROLAP体系结构,OLAP将分析用的多维数据存储在关系数据库中并根据应用的需要有,选择地,定义一批实视图作为表也存储在关系数据库中。不必要将每一个sql查询都作为实视图保存,只定义那些应用频率比较高、计算工作量比较大的查询作为实视图。,Database 服务器,前端工具,ROLAP 服务器,Metadata,Request,Processing,SQL查询,查询结果,用户请求,查询结果,10/1/2024,26,数据仓库与数据挖掘,2.MOLAP体系结构,将OLAP分析所用到的多维数据物理上存储为多维数组的形式,形成“立方体”的结构。维的属性值被映射成多维数组的下标值或下标的范围,而总结数据作为多维数组的值存储在数组的单元中。由于MOLAP采用了新的存储结构,从物理层实现起,因此又称为物理OLAP(physical olap)。,Database 服务器,前端工具,MOLAP 服务器,Metadata,Request,Processing,SQL查询,查询结果,用户请求,查询结果,Load,10/1/2024,27,数据仓库与数据挖掘,3.HOLAP体系结构,由于molap和rolap有着各自的优点和缺点,且它们的结构迥然不同,这给分析人员设计olap结构提出了难题。为此一个新的olap结构混合型olap(holap)被提出,它能把molap和rolap两种结构的优点结合起来。迄今为止,对holap还没有一个正式的定义。但很明显,holap结构不应该是molap与rolap结构的简单组合,而是这两种结构技术优点的有机结合,能满足用户各种复杂的分析请求。,Database 服务器,前端工具,MOLAP 服务器,SQL查询,查询结果,用户请求,查询结果,Load,SQL查询,查询结果,OR,10/1/2024,28,数据仓库与数据挖掘,OLAP工具,10/1/2024,29,数据仓库与数据挖掘,1.3 数据仓库的技术、方法与产品,数据仓库实施中的三个关键环节,数据抽取;,数据存储与管理,数据表现,10/1/2024,30,数据仓库与数据挖掘,从数据仓库的概念结构看,应该包含:数据源、数据准备区、数据仓库数据库、数据集市/知识挖掘库以及各种管理工具和应用工具。,数据源,业务系统,外部数据源,数据准备区,数据仓库数据库,应用工具,管理工具,数据集市/知识挖掘库,应用工具,数据集市/知识挖掘库,图1.1 数据仓库的概念结构,10/1/2024,31,数据仓库与数据挖掘,数据准备区的工作:,ETL(extract/transformation/load),数据抽取,数据清洗,数据转换,数据装载,数据抽
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!