数据仓库与数据挖掘技术第2章.ppt

上传人:tian****1990 文档编号:11536377 上传时间:2020-04-27 格式:PPT 页数:54 大小:2.78MB
返回 下载 相关 举报
数据仓库与数据挖掘技术第2章.ppt_第1页
第1页 / 共54页
数据仓库与数据挖掘技术第2章.ppt_第2页
第2页 / 共54页
数据仓库与数据挖掘技术第2章.ppt_第3页
第3页 / 共54页
点击查看更多>>
资源描述
2020/4/27,1,第二章数据仓库的分析,主要内容如何建立数据仓库的需求模型?影响数据仓库成功的因素有哪些?数据仓库开发各阶段的任务是什么?数据仓库的基本体系结构是怎样的?数据仓库的逻辑结构是怎样的?,2020/4/27,2,1、如何建立数据仓库的需求模型?,是数据仓库的分析中首要解决的问题,2020/4/27,3,图2.1数据仓库的需求分析模型,2020/4/27,4,2、影响数据仓库成功的因素有哪些?,2020/4/27,5,影响因素,数据存储的组织方式,决定了数据的可获取性与有用性,进而决定了数据的价值。数据仓库的数据库结构有以下要求:(P44表2.1)反映静态数据存储历史数据在时间上是可见的、明确的数据的粒度是详细的可导出的汇总定期的、计划的更新支持的任务是不可预期的对数据库的灵活性要求高,2020/4/27,6,2020/4/27,7,2020/4/27,8,3、数据仓库开发各阶段的任务是什么?,2020/4/27,9,传统的操作型系统的生命周期,SystemDevelopmentLifeCycleSDLC系统开发生命周期需求驱动的开发生命周期,2020/4/27,10,数据仓库的生命周期CLDS,CLDS数据驱动的开发生命周期(SDLC的逆序)实现数据仓库集成数据检验偏差针对数据编程设计DSS系统分析结果和理解需求参见P45图2.5,2020/4/27,11,2020/4/27,12,1.数据仓库计划与准备阶段,用户需求分析可行性研究用户的认可建设数据仓库的协调与阻力分析开发项目计划制定关键资源管理,2020/4/27,13,(1)用户需求分析内容,用户如何处理其事务如何衡量用户的工作表现用户需要什么属性(在信息方面)应用于这些属性的业务层次结构是什么用户现在使用什么数据,以及需要什么数据用户需要什么水平的细节或汇总数据,2020/4/27,14,2020/4/27,15,(2)可行性研究,三个重要分析技术可行性操作可行性经济可行性,2020/4/27,16,(3)用户认可(Userbuyin),重要因素用户大力支持不可少,其与上层的支持是不同的不能完全改变决策方式,只能改变决策信息的获取方法,改进用户获取信息的方法数据仓库必须经常集成其中应用软件的数据,理解用户的看法,2020/4/27,17,(4)建设数据仓库的协调与阻力分析,2020/4/27,18,(5)开发项目计划制定,2020/4/27,19,(6)创建数据仓库所使用的关键资源,人才业务分析员确定和定义目的和目标用户群确定满足组织战略性商业目标数据体系结构设计师数据的采集、转换、分配和加载定义数据模型信息系统服务人员最终用户支持人员领导和管理人员项目领导项目经理硬件软件,2020/4/27,20,2.数据仓库的其他阶段,2020/4/27,21,数据仓库的系统分析,系统分析的目标是了解当前实际是如何工作的,以使得系统的操作可在将来得到改善。原型法注意:不能与其所有可操作数据源相连,数据仍然需要做数据净化、传送等工作开发方法数据驱动法应用驱动法,2020/4/27,22,数据驱动方法,数据源:连续的数据源次序:自顶向下优点:每一个阶段在技术上都很简单,只涉及一个文件或数据库类型映射到数据仓库数据库之中,每个附加数据源只有在其前面的附加数据源处理完之后才添加。缺点:数据资源不能利落地映射到商业查询中。,2020/4/27,23,应用驱动方法,数据源:来自几个操作系统的数据次序:自顶向下优点:在第一阶段就提供有用的信息缺点:到达这一阶段要花费较长的时间、并且需要的活动很多很复杂,2020/4/27,24,数据仓库系统设计,重点:设计数据仓库的元素,即数据库和数据分析如何选择数据库体系结构按照哪种系统结构设计如何安排数据库定义数据如何使用所有的数据源都被映射传送到数据仓库描述数据仓库何时及时如何更新并回答程序员遇到的无数多个”我该怎么办”,2020/4/27,25,数据仓库的测试,适用于顺序测试确保对源文件提取记录及字段的正确性证明传送和净化工作正常,对比元数据,检查数据仓库内容以确保整个加载过程有效,可能要测试有关已知谁的回答的分析。增强维护,增强用户支持,2020/4/27,26,思考,查阅赛迪网,阅读和比较不同的数据仓库的解决方案。明确数据驱动法与应用驱动法两种方法在数据仓库实施中的不同表现。,2020/4/27,27,4、数据仓库的基本体系结构是怎样的?,2020/4/27,28,数据仓库基本体系结构,2020/4/27,29,数据仓库体系结构,数据仓库,2020/4/27,30,数据仓库体系结构,2020/4/27,31,数据分级,DataStaging提取,转化,净化,加载数据仓库不直接存储事务数据,提取时必须将事务数据进行转换成数据仓库的数据结构和内部格式,为了保证数据的品质,还要对数据进行净化,将净化后的数据加载到数据仓库中。,2020/4/27,32,ETL(提取转换加载),数据的提取转换加载(ETL)是用来实现异构数据源的数据集成,即完成数据的抓取/抽取、清洗、转换、加载与索引等数据调和工作。ETL是数据仓库系统中最重要的处理工具之一,它的主要任务是建立、维护数据仓库,通过与操作型数据源的映像关系执行数据提取转换加载的任务。其中涉及各种各样的技术和处理,比如,数据清洗及其准备结构的设计和处理、映像技术和方法、粒度的考虑,以及数据的提取、转换、追加、加载作业控制等一系列问题。,操作型系统,数据仓库,提取,集结地,清洗,转换,加载与索引,拒绝数据的信息,有关拒绝数据的信息,2020/4/27,33,元数据,元数据Metadata“有关数据的数据”“数据仓库的元数据是要解决何人在何时何地为了什么原因及怎样使用数据仓库的问题”。可对数据仓库中的各种数据进行详细的描述与说明,说明每个数据的上下文关系,使每个数据具有符合现实的真实含义,使最终用户了解这些数据之间的关系。作用:通过元数据进行数据仓库的管理;通过元数据来使用数据仓库。,2020/4/27,34,技术元数据:用于对数据仓库进行管理的元数据是数据仓库的设计和管理人员用于数据仓库开发和日常管理数据仓库时使用的元数据。它包括数据源信息、数据转换的描述、数据仓库对象和数据结构的定义、数据清理和数据更新时采用的规则、源数据到目的数据的映射、用户访问权限、数据备份历史纪录、数据导入历史纪录、信息发布历史纪录等。商业元数据:帮助使用数据仓库的元数据从商业业务的角度描述了数据仓库中的数据。它包括业务主题的描述,以及对所包含的数据、查询、报表的描述,等等。,2020/4/27,35,元数据为访问数据仓库提供了一个信息目录数据仓库中都有些什么数据这些数据是怎么得到的谁在管辖怎么访问这些数据其他更多的信息可通过查询工具得知元数据的有关资料元数据是数据仓库运行和维护的中心,数据仓库服务器必须利用元数据来存储和更新数据,用户必须通过元数据来了解和访问数据。,2020/4/27,36,数据仓库数据库,是整个数据仓库环境的核心,是数据存放的地方,提供对数据的支持和快速检索的支持相对于操纵型数据库来说,其突出的特点是对海量数据的支持和快速的检索技术。包含明细数据和汇总数据,2020/4/27,37,查询工具,查询工具通常包括一个用于向数据库提出问题的最终用户接口,此接口位于联机分析处理OLAP的程序中。,2020/4/27,38,4、数据仓库的逻辑结构是怎样的?,2020/4/27,39,数据仓库的粒度,粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别。,2020/4/27,40,数据仓库的粒度,粒度粒度越小,细节程度越高,综合程度越低,回答查询的种类就越多反之,粒度的增大将会提高查询效率,但同时也造成回答细节问题能力的下降。低粒度级(高细节级)高粒度级(低细节级)例如:电讯公司数据仓库中,保存一个顾客一个月内每个电话的细节高细节级,低粒度级,假设有200个记录,包含本月内200个电话的任何信息;保存一个顾客一个月内每天电话的汇总轻度综合,较高粒度级,只有30或31条记录,只能回答汇总查询的问题。保存一个顾客一个月内的电话的综合低细节级,高粒度级,只有一条记录。,2020/4/27,41,轻度综合数据,2020/4/27,42,数据仓库的粒度,双重粒度指轻度综合数据和真实细节数据级(最低粒度级)大部分的分析数据是针对被压缩的、存取效率高的轻度粒度级数据进行的。需要分析更低的细节数据时才访问最低粒度级数据。,2020/4/27,43,2020/4/27,44,数据仓库中的数据分割,把数据分散到各自小的物理单元中去任何给定的单元属于一个分割数据分割后的数据单元称为分片分割后的单元具有灵活性,能够实现重构、索引、顺序扫描、重组、恢复、监控等,2020/4/27,45,数据分割,2020/4/27,46,2020/4/27,47,数据仓库中数据组织,简单堆积结构轮转综合数据存储简单直接文件连续组织,2020/4/27,48,简单堆积结构,从操作型环境中取出每天的事务数据根据主题来综合成数据仓库记录,2020/4/27,49,轮转综合数据存储,只有在轮转综合文件中的数据才能被输入到不同的结构形式中,而操作型数据到数据仓库环境中的数据处理方法简单的堆积结构相同。,方式:每天进行数据综合,每周累加,月底将每周的数据加到一起,并放于第一个每月响应的数据位置处,然后每周数据位置清零。到了年底,将每月数据累加,放入第一个年度响应的数据位置处,然后每月数据位置清零。,2020/4/27,50,简单堆积与轮转综合的比较,2020/4/27,51,简单直接文件组织,把数据从操作型环境拖入数据仓库环境中,无任何累积,以较长时间为单位的它是间隔一定时间的操作型数据的一个快照,2020/4/27,52,连续数据组织,依据两个或更多的简单直接文件快照进行合并创建或追加的,2020/4/27,53,快照,是为一些事件的发生而产生的事件的类型随机发生的离散活动在规定时间点事件触发快照,其基本结构由四个部分组成键码(Key)时间单元(描述事件已发生或捕捉数据的时间)只和关键码相关的初始数据与关键码无直接关系的二次数据,2020/4/27,54,课堂练习,充分认识数据仓库中几个关键术语,说明它们的概念与意义ETL元数据粒度数据分割快照轮转综合数据存储,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!