《数据仓库与数据挖掘》(演示稿)第5章

上传人:紫** 文档编号:243090608 上传时间:2024-09-15 格式:PPT 页数:48 大小:1.01MB
返回 下载 相关 举报
《数据仓库与数据挖掘》(演示稿)第5章_第1页
第1页 / 共48页
《数据仓库与数据挖掘》(演示稿)第5章_第2页
第2页 / 共48页
《数据仓库与数据挖掘》(演示稿)第5章_第3页
第3页 / 共48页
点击查看更多>>
资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,复旦大学 软件学院,2004.04,数据仓库与数据挖掘,(第,5,章),1,第,5,章数据仓库系统的实施,主要内容,SQL Server 2000,数据仓库设计与使用,其他一些公司的数据仓库实施战略,数据仓库的投资回报分析,2,SQL Server 2000,的基本服务,SQL Server 2000,关系数据库引擎:是一个流行的、具有高度可伸缩性和高度可靠性的数据存储引擎。该数据库引擎将数据存储在表中。每个表上都列出组织感兴趣的一些对象,每个表上的列表示由表建模的对象的属性,而表上的行则代表由表建模的这种对象的事例。应用程序可以将结构化查询语言,(SQL),的语句提交给数据库引擎,后者将表格格式的结果集返回给应用程序。,SQL Server,支持的特定,SQL,语言称为,Transact-SQL,。应用程序还可以提交,SQL,语句或,XPath,查询,并请求数据库引擎以,XML,文档形式返回结果。,关系数据库引擎具有高度的可伸缩性。,SQL Server 2000,企业版可以支持多组数据库服务器相互协作,构成可供上千用户同时访问的,TB,大小的数据库。该引擎能够处理世界上任何,Web,站点的流量。该数据库引擎还能自我调节,自动在连接到数据库的用户增多时获取资源,并在用户注销后释放资源。,3,SQL Server 2000,的基本服务,关系数据库引擎具有高可靠性。在数据库引擎的早期版本中要求停止和启动的管理操作现在可以在引擎运行当中执行,从而增加了可用性。数据库引擎与,Windows 2000,和,Windows NT,故障转移群集的集成可定义虚拟服务器,即使节点中的一台物理服务器出现故障,这些虚拟服务器仍然保持运行。在适当的地方,日志传送可以用于维护热备用服务器。在故障发生的数分钟内,热备用服务器可以代替生产服务器运行。,关系数据库引擎具有高度的安全性。登录身份验证可以与,Windows,身份验证集成在一起,这样,密码将不会存储在,SQL Server,中,也不会通过网络发送而被网络嗅探器读取。网站可以设置,C2,级审核,对所有访问数据库的用户进行审核,还可以使用安全套接字层,(SSL),加密的办法,对所有在应用程序和数据库间传送的数据进行加密。,4,SQL Server 2000,的基本服务,数据库引擎的分布式查询功能。可以访问所有可通过,OLE DB,访问的数据源中的数据。在,Transact-SQL,语句中,可以像引用实际驻留在,SQL Server,数据库中的表一样引用远程,OLE DB,数据源表。此外,全文检索功能可以对,SQL Server,数据库或,Windows,文件中存储的文本数据进行复杂的模式匹配。,关系数据库引擎能够存储由顶层联机事务处理,(OLTP),系统生成的所有事务的详细记录。该数据库引擎还可以支持最大的联机分析,(OLAP),数据仓库中的事实数据表和维度表的严格处理要求。,Microsoft SQL Server 2000 Analysis Services,提供分析数据仓库和数据集市中存储的数据的工具。,Analysis Services,以多维数据集的形式显示事实数据表和维度表中的数据,从多维数据集中可以分析趋势和其它对于规划今后工作非常重要的信息。在,Analysis Services,多维数据集上处理,OLAP,查询比试图在,OLTP,数据库中记录的详细数据上进行同样的查询要快得多。,5,SQL Server 2000,的特性,Internet,集成:,SQL Server 2000,数据库引擎提供完整的,XML,支持。它还具有构成最大的,Web,站点的数据存储组件所需的可伸缩性、可用性和安全功能。其程序设计模型与,Windows DNA,构架集成,用以开发,Web,应用程序,并且 还 支持,English Query,和,Microsoft,搜索服务等功能,在,Web,应用程序中包含了用户友好的查询和强大的搜索功能。,可伸缩性和可用性:同一个数据库引擎可以在不同的平台上使用。,SQL Server 2000,企业版支持联合服务器、索引视图和大型内存支持等功能,使其得以升级到最大,Web,站点所需的性能级别。,企业级数据库功能:,SQL Server 2000,关系数据库引擎能充分保护数据完整性,同时将管理上千个并发修改数据库的用户的开销减到最小。其分布式查询得以引用来自不同数据源的数据,就好象这些数据是,SQL Server 2000,数据库的一部分,同时分布式事务支持充分保护任何分布式数据更新的完整性。复制功能可维护多个数据复本,同时确保单独的数据复本保持同步。,6,SQL Server 2000,的特性,易于安装、部署和使用:,SQL Server 2000,中包括一系列管理和开发工具,这些工具可改进在多个站点上安装、部署、管理和使用,SQL Server,的过程。,SQL Server 2000,还支持基于标准的、与,Windows DNA,集成的程序设计模型,使,SQL Server,数据库和数据仓库的使用成为生成强大的可伸缩系统的无缝部分。这些功能可以快速交付,SQL Server,应用程序,使客户只需最少的安装和管理开销即可实现这些应用程序。,数据仓库:,SQL Server 2000,中包括析取和分析汇总数据以进行联机分析处理,(OLAP),的工具。,SQL Server,中还包括一些工具,可用来直观地设计数据库并通过,English Query,来分析数据。,7,SQL Server 2000,组件关系图,8,SQL Server 2000,数据仓库工具,工具,描述,关系数据库,数据仓库设计、构造、维护的基础,数据转换服务,(DTS),用于向数据仓库加载数据,数据复制,用于分布式数据仓库数据分布和加载数据,OLE DB,提供应用程序与数据源的接口,API,Analysis Services,用于采集和分析数据仓库中的数据,English Query,提供使用英语查询数据仓库,Meta Data Services,浏览数据仓库中的元数据,PivotTable,服务,用于制定操作多维数据的客户端接口,9,关系型数据库,关系型数据库是设计、构造、维护数据仓库的基础技术。,Microsoft SQL Server 2000,是一个关系型数据库管理系统,它提供了强大的数据库引擎和许多工具,这些工具不仅可以用于数据库的管理,而且可以用于数据仓库的管理,是数据仓库的技术基础。,10,数据转换服务(,DTS,),提供数据转换功能,例如数据引入、引出以及在,SQL Server,和任何,OLE DB,、,ODBC,或者文本各是文件之间转换数据。,利用,DTS,,通过交互式地或按照规划自动地从多处异构数据源输入数据,这样便有可能在,SQL Server,上建立数据仓库和数据市场。,数据的来源特性允许用户输入查询数据的输入时间、地点及其计算方法。数据的引入引出是通过以相同的格式读写数据,在应用程序之间交换数据的过程。一次转换是指在源数据被存储到目的地之前,对其进行的一系列操作。,转换特性使得载引入引出中完成复杂数据的验证、清除等功能变得非常简单。定制转换对象可以被创建并集成进第三方产品中。,DTS,支持多步封装,其中大量文件能被单独处理,最终被集成为一个单一的文件。在目的地,该文件的记录能被系统分为多个记录,或相反,多个记录被集成为一个单一的记录。,DTS,也与微软的中心库集成在一起,微软数据中心库存储元数据、数据传送包和数据源特性,许多独立的软件经销商支持和共享这个元数据模型。数据转换服务可以在,SQL Server,间移动数据结构、数据、触发器、规则、默认、约束和用户定义的数据类型,只有数据结构和数据可以在不同的异构数据源中间传递。,11,数据复制,数据复制:是一种实现数据分布的方法,就是指把一个系统中的数据通过网络分布到另外一个或者多个地理位置不同的系统中,以适应可伸缩组织的需要,减轻主服务器的工作负荷和提高数据的使用效率。,数据复制的过程类似于报纸杂志的出版过程,即把信息从信息源迅速传送到信息接受处。出版服务器包含了将要复制的数据所在的数据库,该服务器负责制作将要出版的数据,然后将这些出版的数据的所有变化发送到分布服务器中。订阅服务器是数据复制的目标地,负责接收复制过来的数据,并且负责接收从出版服务器上传送过来的全部变化。分布服务器在出版服务器和订阅服务器之间起中介作用。分布服务器负责从出版服务器中接受复制过来的数据,然后在该服务器上的分布数据库中存储这些变化,最后按照指定的时间间隔推向响应的订阅服务器。,在复制过程中,把将要复制的数据称为出版物和文章。文章是复制的基本单元,是组成出版物的最小单位。文章与数据库中的表对应。文章既可以对应一个表中的全部数据,也可以指包括表中的一部分数据。出版物是一个完整的将要复制的内容,它包括一篇或多篇文章,是订阅服务器订阅的对象。,12,OLE DB,OLE DB,式微软开发的数据访问编程界面。微软已经定位,OLE DB,是,ODBC,继承者,,ODBC,主要用于处理关系型数据。,ODBC,是基于,SQL,的,它可以很好的用于关系型数据库访问,但是它不能用于非关系型数据源。象,ODBC,一样,,OLE DB,也提供对关系型数据的访问,但是,OLE DB,扩展了由,ODBC,提供的功能。,OLE DB,的设计目的是用于所有数据类型的标准界面。除了关系型数据库的访问,,OLE DB,提供对各种各样数据源的访问,包括,Excel,电子表格的数据,,dBase,的,ISAM,文件、电子邮件、新的,NT,的,Active Directory,和,IBM,的,DB2,数据。使用,OLE DB,,用一个界面就可以访问许多不同的数据源。,OLE DB,是微软的数据访问策略,称为万能数据访问的基础。万能数据访问指的是一组通用界面,它用来表示来自任何数据源的数据。,OLE DB,是使万能访问成为现实的技术。万能数据访问和,OLE DB,的另一方面是所有的对象都应该在数据库中维护,不是企图把商业要求的不同的数据移动到一个面向对象的数据库中。,OLE DB,创建和理解企业数据并且在各种数据源中维护。,13,Analysis Services,在数据仓库或者数据市场中的信息可,OLAP,处理,,OLAP,可以有效的以维度和度量组成的立方体方式察看数据。维度是一种描述性分类,例如,维度可能是地理位置,也可能是产品类型。度量是一种定量数值,例如销售额、库存量或者总费用。来自于原始数据源的合计存储在每一个立方体单元中,这种组织数据的方法可以轻易得过滤数据、有效的加快数据的查询。然而,存在着这种问题:虽然,OLAP,合计是在数据仓库中可以达到的查询性能的关键因素,但是存储这些合计数据的成本是磁盘存储量。事实上,合计数据量可以轻易的超过原有的数据量。另外,当维度和合计量提高时,所要求的,OLAP,数据存储量也大大的提高。这种对存储量的极大要求一般称为数据爆炸。,OLAP,描述的是一种多维数据服务,这种服务的设计目的是保证分析员、经理和决策者针对特定的问题,通过快速、一致、交互式的实时数据访问和分析。,14,Analysis Services,MOLAP,:多维型,OLAP,在一个用于压缩索引的永久数据存储中存储维度数据和实时数据。合计存储用来加快数据访问。,MOLAP,查询引擎是专有的,而且优化成由,MOLAP,数据存储使用的存储格式。,MOLAP,提供了比,ROLAP,更快的查询处理速度,并且要求更少的存储空间。然而,它不能较好的伸缩,并且要求使用单独的数据库来存储。,ROLAP,:关系型,OLAP,在关系型数据表中存储合计。,ROLAP,针对关系型数据库的应用允许其利用已有的数据库资源,并且允许,ROLAP,应用程序很好的伸缩。然而,,ROLAP,使用表存储合计则要求比,MOLAP,更多的磁盘空间,速度相对比较慢。,HOLAP,:正如其名称所示,混合型,OLAP,介于,MOLAP,和,ROLAP,之间。象,ROLAP,一样,,HOLAP,将主数据存储在源数据库中。象,MOLAP,一样,,HOLAP,把合计存储在一个永久性数据存储的地方,它与主关系数据库分开。这种混合形式使,HOLAP,可以具备,MOLAP,和,ROLAP,两者的优点 。,15,English Query,微软的英语查询环境允许设计者将他们的关系数据库转移到英语查询上来,这给最终用户提供了使用英语提出问题而不是用,SQL,语言进行查询的能力。,English Query,服务是利用英语查询域编辑器创建的,提供了数据库的有关信息,从而使,English Query,可用于处理关于特殊表、域和数据的英语问题。,16,Meta Data Services,在,Microsoft SQL Server 2000,中,许多工具把元数据存储在位于,msdb,系统数据库中的集中式中心仓库中。这里提到的元数据是指数据的数据,,Meta Data Services,提供浏览这些元数据的功能。数据中心库提供了一个通用的位置:可以用来存放对象和对象之间的关系。通过使用一些软件工具,可以描述面向对象的信息:软件工具使用各类对象组成的信息。对象接口界面,界面由属性、方法和集合组成,集合包含了对其他界面的关系,以及关联对象。,17,PivotTable,服务,PivotTable,服务和,Analysis Services,一起为用户提供客户端对,OLAP,数据的存取。,PivotTable,服务运行于客户端工作站上,它使得可以利用,VisualBasic,或其他语言来开发用户程序,这些程序可以利用,OLE DB,技术,并使用,Analysis Services,中的,OLAP,数据或直接取自关系数据库的数据。当它和,OLAP,服务一起使用时,,PivotTable,服务可以自动将进程或缓冲内存分配到最合适的位置,并且允许多个客户动态存取同一个立方体。,PivotTable,服务业能在本地客户机上存储数据,从而使用户可以在不连接,Analysis Services,的情况下对数据进行分析。这种移动式的解决方案允许分析者将数据带回家或在途中进行分析。为最终用户提供的,OLAP,数据分析和描述工具可以利用,PivotTable,服务进行开发。,PivotTable,服务也提供了开放的界面,独立的软件销售商可以利用它来开发第三方应用的产品。,18,数据仓库的实现步骤,明确用户需求,设计和建立数据仓库,使用数据仓库,维护和优化数据仓库,19,数据仓库生命周期管理,数据仓库系统框架,影响数据仓库项目成功的因素,数据仓库的技术,数据仓库项目所需的角色,20,数据仓库系统框架,基本特点,拥有为项目作出技术决策的观察点,拥有确定项目是否能够完成的计量参照点,拥有以灵活方式运用现有知识的能力,分部分、分阶段依靠多个工作小组协调完成,四个阶段,设想阶段,规划阶段,开发阶段,稳定阶段,21,影响数据仓库项目成功的因素,数据仓库创建前的影响因素,管理层的信任,从管理项目开始:面向主题,交流实现目标,任命一个面向用户的项目经理,数据仓库创建时的影响因素,采用成熟的技术,注重查询而不是注重事务,只加载所需数据,定义合适的数据源:元数据映射,明确定义主题,数据仓库创建后的影响因素,面向决策的使用者的信任,22,数据仓库的技术,管理大量的数据,管理多介质,索引和监视数据,多种技术的接口,对数据存放位置的控制,数据的并行存储和管理,元数据管理技术,语言接口,数据的高效装入,高效索引的利用技术,数据压缩技术,复合键码技术,变长数据,锁管理切换技术,快速恢复技术,其他技术:事务集成性、高速缓存、行,/,页级锁定、引用完整性、数据视图等,23,数据仓库项目所需的角色,管理角色,项目主管,项目经理,技术角色,数据提供专家,体系结构设计者,数据库管理员,数据迁移专家,数据转换专家,数据集市开发的领导人,质量保证,/,测试专家,维护角色,内行的用户,培训教师,技术文档编写人员,工具专家,销售商联系人,24,创建数据仓库向导,25,创建数据仓库向导,26,创建数据仓库向导,27,创建数据仓库向导,28,完成创建数据仓库,29,创建事实维度表,30,创建事实维度表,31,属性选项卡,32,属性选项卡,33,创建数据库关系图向导,34,关系图,35,多维数据集向导,36,多维数据集,37,多维数据集,38,数据仓库软件市场,19931998,平均年增,23.9%,达,22,亿美元。,数据值入工具:从数据库中提取数据,转换为数据仓库格式并送入数据仓库中。,数据过滤工具:对数据仓库中的数据进行存放和管理。,数据存取工具:让用户存取数据仓库中的数据。,数据仓库市场划分,软件总市场,69493,12416612,。,3%,数据存取,663-125813.7%,第三代语言,/,公用程序,3061-601914.5%,CASE,1751-308512.5%,DBMS,5801-11680%15.0%,其它市场,58163-10212411.9%,数据存取,663-125813.7%,数据提取,/,转换,31-23249.3%,数据管理,59-70864.3%,数据仓库,753-219823.9%,数据复制,14-31987.1%,注,:*-*%,指,1993,年,-1998,年,销售额,(M$) ,年递增率,39,(1),动态可伸缩的数据库系统,(DSA),存放大量数据,:,几个,GB,到几个,TB,PDQ(,并行数据查询,),技术,:,实现数据查询、索引扫描。,索引建立、数据修改、备份,恢复等数据库操作的并发处理,支持所有开放系统硬件环境,:,单,CPU,SMP(,对称多处理器,),Cluster(,松耦合群体系统,),MPP(,大规模并行系统,),批处理,操作数据,事务处理,操作数据,外部数据,数据仓库,管理软件,开放系统,平台,元数据,目标数据库,数据存取,工具,INFORMIX-ONLINE,动态服务器,INFORMIX,的,数据仓库战略,40,Sybase Warehouse Works,体系结构,(1) C/S,环境下的数据仓库框架,联机事务处理,子系统,部门数据,部门数据,局部仓库,局部仓库,中央仓库,个人使用,个人使用,决策支持,数据分布的灵活性要求,(2) Sybase,支持数据分布的方法,Enterprise CONNECT,互操作体系结构,:,并发方法、异构数据分布、信息打包,Replication Server,的基于事件的事件捕捉功能,基于时间调度方式的批时间拷贝方案,(3),高速的时间访问,Navigation Server (,导航服务器,),SQL Server,中增加,interaction Query(IQ) Accelerator,进行随机高速查询,Sybase Omni SQL Server,提供时间访问透明性,推荐,125,种无缝存取数据的工具,41,ORACLE,的数据仓库实施战略,决策支持应用系统,Oracle Applications Data Warehouse,外部数据源析取、转换、装载工具,数据仓库管理工具,数据分析工具,数据集成工具,数据挖掘并将数据切换到用户自定义的视图中,数据挖掘,数据切换,多维视图,42,ORACLE,的数据仓库实施战略,针对多维数据的扩展,Oracle 7,扩展,Oracle 7 Spatial Data Option,管理多维数据或时空数据,多维数据的编码,: HHCODE,标准,多达,32,维的数据综合,无索引,通过数据分割优化,VLDB,多种查询方式,:,行方式、近似方式、自定义多角度方式,数据过滤器,数据转换工具集,数据管理工具集,43,数据仓库投资回报分析,DW,技术投资的收益,加拿大,IDC,公司对62家公司调查,收益巨大,DW,的特点(,Bill,Inmon,):,数据按主题组织,有利于宏观分析、决策分析,数据是集成的,无需再转换,数据是稳定的,便于查询,信息是面向时间的,是一定期限时间的快照,44,DW,投资回报巨大的原因,DW,中的协同数据能够使管理者了解完整的商业过程、制定决策,维护费用比,DSS,低,软件、硬件、存储费用低,减少白领工人,为决策者提供崭新视角,发现规律,从正确的决策中获取效益,同时进行宏观、微观管理,减少手工劳动、避免错误,45,DW,投资回报的定量分析,投资回报的度量标准,投资回报率(,ROI,),回报周期(,PP,),净现值(,NPV,),内部回报率(,IRR,),DW,的,投资回报率(,ROI,),与回报周期(,PP,),收益现值,ROI =,成本现值,结果: 62个企业中,45个企业,ROI,为31838,三年平均,ROI,为401,DW,平均投资2200万美元,平均回报周期为2.3年,8个为负值,9个为185716000,46,DW,投资回报的规律,DW,维护人员提高效益、规范小型化、即席查,(占20),信息收集、传输自动化(占30),最终用户制定基于分析的决策以,DW,为唯一信息源,(占50),高技术制造业、制造业高于其他行业,200,GB,以上的数据仓库具有较低的,ROI,以业务/工程为主要用户的企业具有较高的,ROI,欧洲企业平均,ROI,为340,北美为440,47,数据仓库投资回报的定性分析,从总体上管理企业与客户之间的关系,让客户获得更多的好处,建立企业内部的合作关系,对机遇作出快速反应,可管理宏观和微观数据,改善管理能力,48,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 小学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!