第一讲数据仓库基础

上传人:痛*** 文档编号:133427286 上传时间:2022-08-10 格式:PPTX 页数:68 大小:2.55MB
返回 下载 相关 举报
第一讲数据仓库基础_第1页
第1页 / 共68页
第一讲数据仓库基础_第2页
第2页 / 共68页
第一讲数据仓库基础_第3页
第3页 / 共68页
点击查看更多>>
资源描述
第一讲数据仓库基础姓名:陈令江姓名:陈令江QQ:453579383电话:电话:13570611456Email:内容内容1、数据仓库的概念、特点与组成、数据仓库的概念、特点与组成2、OLAP的概念、特点与类型的概念、特点与类型3、数据仓库系统的体系结构、数据仓库系统的体系结构5、数据仓库的产生、发展与未来、数据仓库的产生、发展与未来6、数据仓库的数据存储与处理、数据仓库的数据存储与处理数据数据仓库仓库4、数据仓库的实施、数据仓库的实施问题问题什么是数据仓库?什么是数据仓库?为什么要建数据仓库?为什么要建数据仓库?建数据仓库能带来哪些好处?建数据仓库能带来哪些好处?1.1 什么是数据仓库什么是数据仓库u数据仓库(数据仓库(Data Warehouse)是一个)是一个面面向主题的(向主题的(Subject Oriented)、集成)、集成的(的(Integrated)、相对稳定的()、相对稳定的(Non-Volatile)、反映历史变化()、反映历史变化(Time Variant)的数据集合)的数据集合,用于支持管理决,用于支持管理决策和信息的全局共享。策和信息的全局共享。数据仓库之父William H.Inmon1.1.1 数据仓库特点(面向主题的)数据仓库特点(面向主题的)生产系统生产系统操作型数据库操作型数据库数据仓库数据仓库操作型数据库是面向特殊处理任务,各个系统之间各自分离数据仓库是按照一定的主题域进行组织。一个主题通常与多个操作型信息系统相关销售系统销售系统财务系统财务系统客户1.1.2 数据仓库特点(集成的)数据仓库特点(集成的)面向特定应用集成的每一个数据库面向特定的应用,各类应用(包括其相关的数据库)之间相互独立数据仓库中的数据面向整个企业的分析处理,经营分析系统中的数据是已经集成了的,消除了数据的不一致性操作型数据库操作型数据库数据仓库数据仓库1.1.3 数据仓库特点(相对稳定的)数据仓库特点(相对稳定的)实时更新,数据根据需要及时发生变化定期加载,加载后的数据极少更新,在某个时间段内保持相对稳定操作型数据库操作型数据库数据仓库数据仓库modifydeleteinsertupdateLoad/Update1.1.4 数据仓库特点(反应历史变化的)数据仓库特点(反应历史变化的)主要关心当前数据通常包含历史数据操作型数据库操作型数据库数据仓库数据仓库1.2 对数据仓库系统的理解对数据仓库系统的理解数据仓库系统用于支持管理和决策,面向数据仓库系统用于支持管理和决策,面向分析型数据处理,它不同于企业现有的面分析型数据处理,它不同于企业现有的面向交易的操作型数据库;向交易的操作型数据库;数据仓库系统是对多个异构的数据源有效数据仓库系统是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包集成,集成后按照主题进行了重组,并包含历史数据。含历史数据。与其他数据库应用不同的是,数据仓库更与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的业像一种过程,对分布在企业内部各处的业务数据的整合、加工和分析的过程。务数据的整合、加工和分析的过程。1.3 数据仓库的组成数据仓库的组成 数据仓库数据库;数据仓库数据库;数据抽取工具;数据抽取工具;OLAP服务器;服务器;元数据(元数据(Metadata););数据展现工具;数据展现工具;数据集市(数据集市(Data Marts););数据仓库管理;数据仓库管理;信息发布系统。信息发布系统。1.3.1 数据仓库数据库数据仓库数据库数据仓库数据库是整个数据仓库的核心,数据仓库数据库是整个数据仓库的核心,是数据信息存放的地方,对数据提供存取是数据信息存放的地方,对数据提供存取和检索支持。相对于传统数据库来说,其和检索支持。相对于传统数据库来说,其突出的特点是对海量数据的支持和快速的突出的特点是对海量数据的支持和快速的检索技术。检索技术。数据库数据库OracleDB2SQLServerSybaseMySQL数据库内部性能参数有一数据库内部性能参数有一些差异:些差异:传统数据库:注重增、删、传统数据库:注重增、删、改、查的综合性能。改、查的综合性能。数据仓库:以查询、统计数据仓库:以查询、统计性能为优先重点。性能为优先重点。1.3.2 数据抽取工具数据抽取工具数据抽取工具是把数据从各种各样的存储环境数据抽取工具是把数据从各种各样的存储环境中提取出来,进行必要的转化、整理,再存放中提取出来,进行必要的转化、整理,再存放到数据仓库内。对各种不同数据的存储方式的到数据仓库内。对各种不同数据的存储方式的访问能力是数据抽取工具的关键,可以运用高访问能力是数据抽取工具的关键,可以运用高级语言编写的程序、操作系统脚本、批命令脚级语言编写的程序、操作系统脚本、批命令脚本或本或SQL脚本等方式,访问不同的数据环境。脚本等方式,访问不同的数据环境。数据转换通常包括如下内容:数据转换通常包括如下内容:删除对决策分析没有意义的数据。删除对决策分析没有意义的数据。转换到统一的数据名称和定义。转换到统一的数据名称和定义。计算统计和衍生数据。计算统计和衍生数据。填补缺失数据。填补缺失数据。统一不同的数据定义方式。统一不同的数据定义方式。1.3.3 OLAP服务器服务器 OLAP服务器是用于存储多服务器是用于存储多“维维”数据的,数据的,存储结构类似与立方体的结构,提供给用存储结构类似与立方体的结构,提供给用户快速的数据分析支持。户快速的数据分析支持。1.3.4 元数据元数据元数据是描述数据仓库数据的结构和建立元数据是描述数据仓库数据的结构和建立方法的数据,全面描述了数据仓库中有什方法的数据,全面描述了数据仓库中有什么数据,这些数据是怎么得到,数据的来么数据,这些数据是怎么得到,数据的来源是哪里等。简言之:源是哪里等。简言之:元数据就是数据的元数据就是数据的数据数据。元数据分为技术元数据和业务元数据。技元数据分为技术元数据和业务元数据。技术元数据是面向术元数据是面向设计和管理人员设计和管理人员的,包括的,包括数据源信息、数据结构定义、数据转换规数据源信息、数据结构定义、数据转换规则等。业务元数据是面向则等。业务元数据是面向业务使用人员业务使用人员的,的,主要是从业务的视角来描述业务主题。主要是从业务的视角来描述业务主题。1.3.5 数据展现工具数据展现工具数据展现工具为用户访问数据仓库提供的手数据展现工具为用户访问数据仓库提供的手段,如:数据查询和报表工具、应用开发工段,如:数据查询和报表工具、应用开发工具、数据分析工具、数据挖掘工具等。具、数据分析工具、数据挖掘工具等。数据分析工具数据分析工具报表展现工具报表展现工具1.3.6 数据集市数据集市数据展现工具为用户访问数据仓库提供数据展现工具为用户访问数据仓库提供的手段,如:数据查询和报表工具、应的手段,如:数据查询和报表工具、应用开发工具、数据分析工具、数据挖掘用开发工具、数据分析工具、数据挖掘工具等。工具等。数据集市的划分有很多中,如数据集市的划分有很多中,如按照时间划分(按照时间划分(07年、年、08年、年、09年等)年等)按照地域划分(广州、深圳、珠海等)按照地域划分(广州、深圳、珠海等)按照业务划分(生产、销售、财务等)按照业务划分(生产、销售、财务等)1.3.7 数据仓库管理数据仓库管理数据仓库管理包括安全与权限的管理、数据仓库管理包括安全与权限的管理、数据更新的跟踪、数据质量的检查、元数据更新的跟踪、数据质量的检查、元数据的管理和更新、数据仓库使用状态数据的管理和更新、数据仓库使用状态的监测与审计、数据复制与删除、数据的监测与审计、数据复制与删除、数据分割与分发、数据备份与恢复、数据存分割与分发、数据备份与恢复、数据存储管理等。储管理等。数据仓库数据仓库1.3.8 信息发布系统信息发布系统信息发布系统是把数据仓库中的数据,信息发布系统是把数据仓库中的数据,或其他相关的数据发送给不同的地点或或其他相关的数据发送给不同的地点或用户。用户。基于基于Web的信息发布系统是当前比较流的信息发布系统是当前比较流行的多用户访问的最有效方法。行的多用户访问的最有效方法。数据仓库数据仓库问题问题什么是数据仓库?什么是数据仓库?为什么要建数据仓库?为什么要建数据仓库?数据集成问题数据集成问题 数据动态集成问题数据动态集成问题 历史数据问题历史数据问题数据的综合问题数据的综合问题 建数据仓库能带来哪些好处?建数据仓库能带来哪些好处?公司领导层:了解公司全貌,辅助进行战略决策公司领导层:了解公司全貌,辅助进行战略决策 中间管理层:掌控部门业务情况,协助制定管理策略中间管理层:掌控部门业务情况,协助制定管理策略基层管理人员:掌握基层单位或个人绩效,实施有效管理基层管理人员:掌握基层单位或个人绩效,实施有效管理内容内容1、数据仓库的概念、特点与组成、数据仓库的概念、特点与组成2、OLAP的概念、特点与类型的概念、特点与类型3、数据仓库系统的体系结构、数据仓库系统的体系结构5、数据仓库的产生、发展与未来、数据仓库的产生、发展与未来6、数据仓库的数据存储与处理、数据仓库的数据存储与处理数据数据仓库仓库4、数据仓库的实施、数据仓库的实施2.1 什么是什么是OLAP OLAP(Online Analysis Process)是针是针对特定问题的联机数据访问和分析。通过对特定问题的联机数据访问和分析。通过对信息对信息(维数据维数据)的多种可能的观察形式进的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。管理决策人员对数据进行深入观察。对对OLAP的理解的理解OLAP的目标是满足决策支持或多维环境特的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是定的查询和报表需求,它的技术核心是“维维”这个概念,因此这个概念,因此OLAP也可以说是多维数据也可以说是多维数据分析工具的集合。分析工具的集合。2.2 OLAP基础概念(一)基础概念(一)维度维度(Dimension)人们观察数据的特定角度,是考虑问题时的一类属性,人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维属性集合构成一个维(时间维、地理维等时间维、地理维等)。量度量度(Measure)具体的指标值,如客户数、收入等具体的指标值,如客户数、收入等层次层次(Hierarchy)人们观察数据的某个特定角度人们观察数据的某个特定角度(即某个维即某个维)还可以存在细还可以存在细节程度不同的各个描述方面节程度不同的各个描述方面(时间维:年时间维:年-季度季度-月月份份-日期日期)。成员成员(Member)维的一个取值。是数据项在某维中位置的描述。维的一个取值。是数据项在某维中位置的描述。2.2 OLAP基础概念(二)基础概念(二)多维分析多维分析多维分析是只对以多维分析是只对以“维维”形式组织起来的数据(多维形式组织起来的数据(多维数据集)采取切片(数据集)采取切片(slice)、切块()、切块(dice)、钻取)、钻取(drill down和和drill up)和旋转()和旋转(pivot)等各种分)等各种分析操作,以求剖析数据,使用户能从不同角度、不析操作,以求剖析数据,使用户能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。数据集中的信息。2.3 OLTP与与OLAP的比较的比较OLTPOLAP用户用户操作人员、基层管理人员操作人员、基层管理人员决策人员、高级管理人员决策人员、高级管理人员功能功能日常操作型事务处理日常操作型事务处理分析决策分析决策设计目标设计目标面向应用面向应用面向主题面向主题数据特点数据特点当前的、最新的、细节的、当前的、最新的、细节的、二维的、分立的二维的、分立的历史的、聚集的、维多的、历史的、聚集的、维多的、集成的、统一的集成的、统一的存取规模存取规模通常一次读或写数十条记录通常一次读或写数十条记录可能读取百万条以上记录可能读取百万条以上记录工作单元工作单元一个事务一个事务一个复杂查询一个复杂查询用户数用户数通常是成千上万个用户通常是成千上万个用户可能只有几十个或上百的用可能只有几十个或上百的用户户数据库大小数据库大小通常在通常在GB级(级(100MB1GB)在在TB级(级(100GB100TB)2.4 OLAP特性特性快速性快速性用户对用户对OLAP的快速反应能力有很高的要求。系统的快速反应能力有很高的要求。系统应能在应能在5秒内对用户的大部分分析要求做出反应。秒内对用户的大部分分析要求做出反应。可分析性可分析性OLAP系统应能处理与应用有关的任何逻辑分析和系统应能处理与应用有关的任何逻辑分析和统计分析。统计分析。多维性多维性多维性是多维性是OLAP的关键属性。系统必须提供对数据的关键属性。系统必须提供对数据的多维视图和分析的多维视图和分析,包括对层次维和多重层次维的包括对层次维和多重层次维的完全支持。完全支持。信息性信息性不论数据量有多大,也不管数据存储在何处,不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信系统应能及时获得信息,并且管理大容量信息。息。2.5 OLAP类型类型ROLAP结构结构MOLAP结构结构l ROLAP(Relation OLAP):关系型OLAP,数据存储在数据库中,查询方便灵活。l MOLAP(Multi-dimension OLAP):多维OLAP,数据采用立方体的方式,独立存储,查询效率高。l HOLAP(Hyper OLAP):混合型OLAP,也就是ROLAP和MOLAP的联合体。分为三种类型:分为三种类型:ROLAP、MOLAP、HOLAPHOLAP结构结构2.6 ROLTP与与MOLAP的比较的比较ROLTPMOLAP优点优点 没有大小限制没有大小限制现有的关系数据库的技术可以沿用现有的关系数据库的技术可以沿用可以通过可以通过SQL实现详细数据与概要实现详细数据与概要数据的存储数据的存储现有关系型数据库已经对现有关系型数据库已经对OLAP做做了很多优化,包括并行存储、并行了很多优化,包括并行存储、并行查询、并行数据管理、基于成本的查询、并行数据管理、基于成本的查询优化、位图索引、查询优化、位图索引、SQL 的的OLAP扩展扩展(cube,rollup)等大大提等大大提高高ROALP的速度的速度 性能好、响应速度快性能好、响应速度快专为专为OLAP所设计所设计持高性能的决策支持计算持高性能的决策支持计算复杂的跨维计算复杂的跨维计算多用户的读写操作多用户的读写操作行级的计算行级的计算 缺点缺点 一般比一般比MDD响应速度慢响应速度慢不支持有关预计算的读写操作不支持有关预计算的读写操作SQL无法完成部分计算无法完成部分计算无法完成多行的计算无法完成多行的计算无法完成维之间的计算无法完成维之间的计算 增加系统复杂度,增加系统培训与维护费增加系统复杂度,增加系统培训与维护费用用受操作系统平台中文件大小的限制,难以受操作系统平台中文件大小的限制,难以达到达到TB 级级(只能只能1020G)需要进行预计算,可能导致数据爆炸需要进行预计算,可能导致数据爆炸无法支持维的动态变化无法支持维的动态变化缺乏数据模型和数据访问的标准缺乏数据模型和数据访问的标准 内容内容1、数据仓库的概念、特点与组成、数据仓库的概念、特点与组成2、OLAP的概念、特点与类型的概念、特点与类型3、数据仓库系统的体系结构、数据仓库系统的体系结构5、数据仓库的产生、发展与未来、数据仓库的产生、发展与未来6、数据仓库的数据存储与处理、数据仓库的数据存储与处理数据数据仓库仓库4、数据仓库的实施、数据仓库的实施3.1 数据仓库系统的体系结构数据仓库系统的体系结构u 独立的数据仓库体系结构独立的数据仓库体系结构u 独立的数据集市体系结构独立的数据集市体系结构u 数据仓库数据仓库+数据集市体系结构数据集市体系结构u 实时数据仓库体系结构实时数据仓库体系结构3.2 独立的数据仓库体系结构独立的数据仓库体系结构3.2独立的数据集市体系结构独立的数据集市体系结构3.3 数据仓库数据仓库+数据集市体系结构数据集市体系结构3.4 实时数据仓库体系结构实时数据仓库体系结构3.5 某实际项目的数据仓库体系结构某实际项目的数据仓库体系结构3.6 数据仓库与数据集市的比较数据仓库与数据集市的比较数据仓库数据仓库数据集市数据集市范围范围应用独立应用独立特定的特定的DSS应用应用集中式、企业级集中式、企业级用户域的离散化用户域的离散化规划的规划的可能是临时组织的(无规划)可能是临时组织的(无规划)数据数据历史的、详细的、概括的历史的、详细的、概括的一些历史的、详细的、概括一些历史的、详细的、概括的的轻微不规范化轻微不规范化高度不规范化高度不规范化主题主题多个主题多个主题用户关心的某一个中心主题用户关心的某一个中心主题源源多个内部和外部源多个内部和外部源很少的内部和外部源很少的内部和外部源其它特征其它特征面向数据的、长期的、大的面向数据的、长期的、大的面向工程的、短期的、有小面向工程的、短期的、有小到达到达单一的复杂结构单一的复杂结构多、半复杂性结构多、半复杂性结构内容内容1、数据仓库的概念、特点与组成、数据仓库的概念、特点与组成2、OLAP的概念、特点与类型的概念、特点与类型3、数据仓库系统的体系结构、数据仓库系统的体系结构5、数据仓库的产生、发展与未来、数据仓库的产生、发展与未来6、数据仓库的数据存储与处理、数据仓库的数据存储与处理数据数据仓库仓库4、数据仓库的实施、数据仓库的实施4.1 数据仓库系统的实施数据仓库系统的实施数据仓库实施中的三个关键环节数据仓库实施中的三个关键环节数据抽取;数据抽取;数据存储与管理数据存储与管理数据表现数据表现 4.2数据仓库实施方法论数据仓库实施方法论数据仓库不是简单的数据或产品堆砌,数据仓库不是简单的数据或产品堆砌,它是一个综合集成解决方案和系统工它是一个综合集成解决方案和系统工程。在数据仓库的实施过程中,技术程。在数据仓库的实施过程中,技术决策至关重要,技术选择或决策错误决策至关重要,技术选择或决策错误很可能导致项目实施失败很可能导致项目实施失败4.3数据仓库实施步骤数据仓库实施步骤项目启动原型应用需求分析LDM设计系统体系结构设计PDM设计ETL实现前端展现定制项目关闭环境构建系统测试系统应用需求变更分析设计实现4.4 数据仓库的构建方法数据仓库的构建方法自顶向下自顶向下建造企业数据仓库建造企业数据仓库建设中心数据模型建设中心数据模型一次性的完成数据的重构一次性的完成数据的重构工作工作最小化数据冗余度和不一最小化数据冗余度和不一致性致性存储详细的历史数据存储详细的历史数据从企业数据仓库中建造从企业数据仓库中建造数据集市数据集市得到大部分的集成数据得到大部分的集成数据直接依赖于数据仓库的可直接依赖于数据仓库的可用性用性问题:问题:建设中心数据模型的必要性和可建设中心数据模型的必要性和可能性?能性?投资效益的时间?投资效益的时间?初始费用?初始费用?4.5 数据仓库的构建方法数据仓库的构建方法自底向上自底向上建立部门数据集市建立部门数据集市限制在一个主题区域限制在一个主题区域快速投资收益快速投资收益区域自治区域自治设计的可伸缩性强设计的可伸缩性强对相关部门的应用容易复制对相关部门的应用容易复制对每个数据集市需要数据重构对每个数据集市需要数据重构存在一定的冗余及不一直性存在一定的冗余及不一直性逐步扩展到企业数据仓库逐步扩展到企业数据仓库(EDW)把建造把建造EDW作为一个长期的目作为一个长期的目标标问题:问题:数据集市的数据都是可用的吗数据集市的数据都是可用的吗?能生成数据模型吗能生成数据模型吗?如何解决不一致性如何解决不一致性?4.6 常用数据仓库产品比较常用数据仓库产品比较能够提供完整数据仓库解决方案的厂商主能够提供完整数据仓库解决方案的厂商主要包括:要包括:IBM、Oracle、NCR、Microsoft等。另外,如果考虑到成本因等。另外,如果考虑到成本因素的话,也可以考虑采用开源方案,但这素的话,也可以考虑采用开源方案,但这需要对开源产品非常的熟悉,自行完成解需要对开源产品非常的熟悉,自行完成解决方案的制定。决方案的制定。4.6.1 数据库产品比较数据库产品比较OracleDB2TeradataSQL ServerMySQL硬件平台兼容硬件平台兼容性性高高中中低低(专用主机)(专用主机)高高高高软件平台兼容软件平台兼容性性高高高高低低(专用系统)(专用系统)低低(微软平台)(微软平台)高高开放性开放性高高中高中高低低高高极高极高(开源)(开源)性能性能高高高高极高极高中中中中数据规模数据规模大大大大超大超大中中中小中小易用性易用性高高中高中高低低高高高高安全性安全性高高高高高高中中中中建设成本建设成本高高高高高高中中极低极低升级成本升级成本低低低低高高低低极低极低市场占有率市场占有率高高中中高高低低低低4.6.2 ETL产品比较产品比较SSISDataStagePower CenterOWBKettel平台兼容性平台兼容性低低高高高高高高高高开放性开放性高高高高高高中中(Oracle平平台较高台较高)极高极高(开源)(开源)性能性能高高高高中高中高中中高高易用性易用性高高中中高高中中高高使用成本使用成本中中高高高高中中低低自定义函数自定义函数/脚本支持脚本支持中中中中中中高高高高调试调试/监控监控/断点断点/日志日志高高中中高高中中高高断点续传断点续传支持支持不支持不支持支持支持不支持不支持支持支持Email通知通知支持支持支持支持支持支持支持支持支持支持市场占有率市场占有率低低高高高高低低中中服务支持服务支持中中高高高高中中中中4.6.3 报表产品比较报表产品比较CrystalBrioSSRSReportNetBirt平台兼容性平台兼容性高高高高中中高高高高开放性开放性高高中中高高高高高高(开源)(开源)性能性能高高中中高高高高高高易用性易用性高高低低高高中中高高报表类型报表类型BandBandBandBandBand图表支持图表支持好好较好较好好好好好脚本支持脚本支持好好好好高高较好较好好好输出格式输出格式丰富丰富中中高高丰富丰富丰富丰富使用成本使用成本高高高高中中高高低低市场占有率市场占有率高高中中中中低低中中4.6.4 OLAP产品比较产品比较EssbaseExpressCognosSSASMondrian平台兼容性平台兼容性高高高高中中中中高高OLAP类型类型MOLAPHOLAPMOLAPROLAP/MOLAPROLAP开放性开放性高高高高中中高高高高(开源)(开源)性能性能高高中中高高中中中中易用性易用性高高低低高高高高高高安全性安全性高高中中高高中中中中使用成本使用成本高高高高高高中中低低市场占有率市场占有率高高低低中高中高中中4.6.5 展前产品比较展前产品比较BOBrioCognosMicro StrategyPanteho平台兼平台兼容性容性高高高高中中中中高高功能功能高高中中高高中中中高中高开放性开放性高高中中中中中中高高(开源(开源)性能性能高高高高高高中中中中易用性易用性高高低低高高高高高高安全性安全性高高高高高高高高高高使用成使用成本本高高高高高高中中低低市场占市场占有率有率高高中中中中低低4.6.6 其它其它数据挖掘工具数据挖掘工具 目前市场上数据挖掘工具非常多,世界上各大BI厂商都提供了自己的数据挖掘工具,不过,从在挖掘领域的影响力和市场占有率来讲,无疑是SAS和SPSS两家独大,产品也非常丰富,各种常用的挖掘算法和挖掘手段都能提供,主要还是看使用人员的熟练程度以及对业务的理解力。另外,开源领域也有一些挖掘工具,如WEKA,是新西兰大学的数据挖掘产品,具体完整和先进的算法,不足在对于大数据量的处理比较慢和对非专业人员的可用性不好2个方面。元数据管理工具元数据管理工具 目前市场上主流的元数据管理工具包括:DAG公司的MetaCenter、CA公司的Repository以及Ascential公司的MetaStage等,这些产品的功能都不错,对日常数据管理的绝大部分要求都可以满足。另外,开源领域有Panteho的Metadata等,功能相对简单,不过与Panteho平台结合的不错。内容内容1、数据仓库的概念、特点与组成、数据仓库的概念、特点与组成2、OLAP的概念、特点与类型的概念、特点与类型3、数据仓库系统的体系结构、数据仓库系统的体系结构5、数据仓库的产生、发展与未来、数据仓库的产生、发展与未来6、数据仓库的数据存储与处理、数据仓库的数据存储与处理数据数据仓库仓库4、数据仓库的实施、数据仓库的实施5.1 数据仓库的产生数据仓库的产生联机事务处理系统(业务系统)刚上线时,查联机事务处理系统(业务系统)刚上线时,查询不到数据是因为数据太少了,而几十年后查询不到数据是因为数据太少了,而几十年后查询不到有关数据是因为数据太多了。针对这一询不到有关数据是因为数据太多了。针对这一问题,人们设想专门为业务数据的统计分析建问题,人们设想专门为业务数据的统计分析建立一个数据中心,它的数据从联机事务处理系立一个数据中心,它的数据从联机事务处理系统中来、从异构的外部数据源来、或从脱机的统中来、从异构的外部数据源来、或从脱机的历史业务数据中来,这个数据中心也是一个联历史业务数据中来,这个数据中心也是一个联机系统,它专门为分析统计和决策支持应用服机系统,它专门为分析统计和决策支持应用服务,通过它可获取决策支持和联机分析应用所务,通过它可获取决策支持和联机分析应用所需要的一切数据。这个数据中心就叫做数据仓需要的一切数据。这个数据中心就叫做数据仓库。简单地说,数据仓库就是一个作为决策支库。简单地说,数据仓库就是一个作为决策支持和联机分析应用系统数据源的结构化数据环持和联机分析应用系统数据源的结构化数据环境,数据仓库要研究和解决的问题就是从数据境,数据仓库要研究和解决的问题就是从数据库中获取信息的问题。库中获取信息的问题。报表报表为主为主分析分析为主为主预测模预测模型为主型为主营运导营运导向为主向为主实时数据仓库、自实时数据仓库、自动决策应用为主动决策应用为主 1996年年 1999年年 2003年年 2006年年 2008年年5.2 数据仓库的发展数据仓库的发展5.1 数据仓库的未来数据仓库的未来在数据抽取方面,未来的技术发展将集中在系统集成化在数据抽取方面,未来的技术发展将集中在系统集成化方面。它将互连、转换、复制、调度、监控纳入标准化方面。它将互连、转换、复制、调度、监控纳入标准化的统一管理,以适应数据仓库本身或数据源可能的变化,的统一管理,以适应数据仓库本身或数据源可能的变化,使系统更便于管理和维护。使系统更便于管理和维护。在数据管理方面,未来的发展将使数据库厂商明确推出在数据管理方面,未来的发展将使数据库厂商明确推出数据仓库引擎,作为数据仓库服务器产品与数据库服务数据仓库引擎,作为数据仓库服务器产品与数据库服务器并驾齐驱。在这一方面,带有决策支持扩展的并行关器并驾齐驱。在这一方面,带有决策支持扩展的并行关系数据库将最具发展潜力。系数据库将最具发展潜力。在数据表现方面,数理统计的算法和功能将普遍集成到在数据表现方面,数理统计的算法和功能将普遍集成到联机分析产品中,并与联机分析产品中,并与Internet/Web技术紧密结合。按技术紧密结合。按行业应用特征细化的数据仓库用户前端软件将成为产品行业应用特征细化的数据仓库用户前端软件将成为产品作为数据仓库解决方案的一部分。数据仓库实现过程的作为数据仓库解决方案的一部分。数据仓库实现过程的方法论将更加普及,将成为数据库设计的一个明确分支,方法论将更加普及,将成为数据库设计的一个明确分支,成为管理信息系统设计的必备。成为管理信息系统设计的必备。内容内容1、数据仓库的概念、特点与组成、数据仓库的概念、特点与组成2、OLAP的概念、特点与类型的概念、特点与类型3、数据仓库系统的体系结构、数据仓库系统的体系结构5、数据仓库的产生、发展与未来、数据仓库的产生、发展与未来6、数据仓库的数据存储与处理、数据仓库的数据存储与处理数据数据仓库仓库4、数据仓库的实施、数据仓库的实施6.1数据仓库的三层数据结构数据仓库的三层数据结构 6.2 数据仓库(数据仓库(EDW)内部结构)内部结构早期细节数据早期细节数据当前细节数据当前细节数据轻度汇总数据轻度汇总数据高度汇总数据高度汇总数据6.3数据仓库的数据特征数据仓库的数据特征 状态数据与事件数据状态数据与事件数据 当前数据与周期数据当前数据与周期数据 数据仓库中的元数据数据仓库中的元数据 6.4 数据仓库的数据数据仓库的数据ETLETLETL:即数据抽取(:即数据抽取(E Extractionxtraction)、转换()、转换(T Transformationransformation)和装)和装载(载(L Loadingoading),是数据仓库实现过程中,进行数据由数据源系统),是数据仓库实现过程中,进行数据由数据源系统向数据仓库加载的重要环节。向数据仓库加载的重要环节。从功能上看,整个从功能上看,整个ETL包括三个部分:包括三个部分:u数据抽取,从数据源系统抽取数据仓库系统需要的数据抽取,从数据源系统抽取数据仓库系统需要的数据;数据;u数据转换,将从数据源获取的数据转换成数据仓库数据转换,将从数据源获取的数据转换成数据仓库要求的形式,对数据进行变换;要求的形式,对数据进行变换;u数据加载,将数据装入数据仓库。数据加载,将数据装入数据仓库。6.4.1数据抽取(数据抽取(Extract)抽取接口抽取接口典型的数据抽取接口包括典型的数据抽取接口包括数据数据库接口库接口和和文件接口文件接口。对于不同数据平台、不同源数对于不同数据平台、不同源数据形式、不同性能要求和业务据形式、不同性能要求和业务量的业务系统以及不同数据量量的业务系统以及不同数据量的源数据,将采取不同的数据的源数据,将采取不同的数据抽取接口。在数据抽取时需要抽取接口。在数据抽取时需要重点考虑数据抽取的效率,以重点考虑数据抽取的效率,以及对现有业务系统性能及安全及对现有业务系统性能及安全的影响。的影响。抽取策略抽取策略数据的抽取必须能够充分满足数据数据的抽取必须能够充分满足数据仓库系统分析及决策支持的需要,仓库系统分析及决策支持的需要,同时必须保证不能影响业务系统的同时必须保证不能影响业务系统的性能,所以进行数据抽取时必须充性能,所以进行数据抽取时必须充分考虑这些因素,制定相应的策略分考虑这些因素,制定相应的策略,包括抽取方式、抽取时机、抽取,包括抽取方式、抽取时机、抽取周期等内容。周期等内容。l 抽取方式:增量抽取、完全抽取抽取方式:增量抽取、完全抽取等。等。l 抽取时机:尽可能避开业务系统抽取时机:尽可能避开业务系统的高峰时段,比如在夜间业务系统的高峰时段,比如在夜间业务系统比较闲时。比较闲时。l 抽取周期:对不同类型的数据源抽取周期:对不同类型的数据源,应综合考虑业务需求和系统代价,应综合考虑业务需求和系统代价,制定合理的抽取周期。,制定合理的抽取周期。6.4.2数据转换(数据转换(Transformation)主要功能主要功能数据转换主要完成由于以下原数据转换主要完成由于以下原因造成的数据不一致性问题:因造成的数据不一致性问题:l 源数据系统同数据仓库系统在模源数据系统同数据仓库系统在模型上的差异性;型上的差异性;l 源数据系统平台不一致:数据仓源数据系统平台不一致:数据仓库系统的数据源可能包括基于不同库系统的数据源可能包括基于不同平台的数据库的数据;平台的数据库的数据;l 源数据结构的不一致:有些数据源数据结构的不一致:有些数据源由于历史的原因,导致同一个表源由于历史的原因,导致同一个表在不同的时期数据结构不一致;在不同的时期数据结构不一致;l 源数据定义不规范导致错误数据源数据定义不规范导致错误数据;l 对数据的约束不严格,导致无意对数据的约束不严格,导致无意义数据;义数据;l 存在重复记录;存在重复记录;l 由于平台系统的不同,可能会存由于平台系统的不同,可能会存在大量的转码工作。在大量的转码工作。转换策略转换策略根据实际情况,数据转换工作根据实际情况,数据转换工作一般会在以下几个环节中具体一般会在以下几个环节中具体实现:实现:l 在抽取过程中进行数据处理在抽取过程中进行数据处理。l 使用异步数据加载,以文件使用异步数据加载,以文件的方式处理。的方式处理。l 在数据加载过程中进行数据在数据加载过程中进行数据处理。处理。l 进入数据仓库以后再进行数进入数据仓库以后再进行数据处理。据处理。6.4.3数据数据装载(装载(Loading)装载技术装载技术主要装载技术有两种:主要装载技术有两种:l 使用数据仓库引擎厂商使用数据仓库引擎厂商提供的数据装载工具进行提供的数据装载工具进行数据装载。数据装载。l 使用标准使用标准SQL语句进行语句进行数据装载。数据装载。装载策略装载策略数据装载策略一般有以下三种数据装载策略一般有以下三种类型:直接追加、全部覆盖、类型:直接追加、全部覆盖、更新追加更新追加l 直接追加:是指每次加载时直接直接追加:是指每次加载时直接将数据追加到目的表中。对于典型将数据追加到目的表中。对于典型的流水数据,一般采用此方法,比的流水数据,一般采用此方法,比如日常的生产数据可以采用直接追如日常的生产数据可以采用直接追加的方式;加的方式;l 全部覆盖:对于抽取数据本身已全部覆盖:对于抽取数据本身已包括了数据的当前和所有历史状况包括了数据的当前和所有历史状况,对目标表采用全部覆盖方式;,对目标表采用全部覆盖方式;l 更新追加:对于需要连续记录业更新追加:对于需要连续记录业务的状态变化,用当前的最新状态务的状态变化,用当前的最新状态同历史状态数据进行比对的情况采同历史状态数据进行比对的情况采用更新追加的方式。用更新追加的方式。6.5抽取方式的比较抽取方式的比较抽取方式抽取方式优缺点优缺点说明说明适用范围适用范围SQL方式方式优点:实现简单优点:实现简单缺点:效率较低缺点:效率较低SQL方式不需要中间存储数据,查方式不需要中间存储数据,查询出的数据可以直接装载(插入)到询出的数据可以直接装载(插入)到DW中,方法简单。中,方法简单。但在插入(但在插入(Insert)数据过程中,)数据过程中,数据库需要维护索引、回滚段日志等,数据库需要维护索引、回滚段日志等,所以插入数据的速度较慢所以插入数据的速度较慢合适少量数据的合适少量数据的抽取,如维表、抽取,如维表、客户表等。客户表等。合适万级以下的合适万级以下的数据数据文本方式文本方式优点:效率极高优点:效率极高缺点:实现较复缺点:实现较复杂杂 数据需要先存储到文本文件中,然数据需要先存储到文本文件中,然后从文件装载到后从文件装载到DW中,过程较复杂。中,过程较复杂。尤其当遇到数值型、浮点型、日期型尤其当遇到数值型、浮点型、日期型等字段,需要特殊处理。等字段,需要特殊处理。在装载时,可以使用数据仓库自带在装载时,可以使用数据仓库自带的的Load方法,直接将数据装载到方法,直接将数据装载到DW中,数据库不会维护索引、回滚段日中,数据库不会维护索引、回滚段日志等,所以速度极快。志等,所以速度极快。另一方面,由于另一方面,由于Load方法不维护索方法不维护索引,因此如果目标表确实需要索引的引,因此如果目标表确实需要索引的话,则需要在话,则需要在Load完数据后重建索引。完数据后重建索引。适合大数据量的适合大数据量的数据导入,如业数据导入,如业务表数据。务表数据。十万级以上的数十万级以上的数据,必须采用文据,必须采用文本方式。本方式。6.6 ETL过程描述过程描述6.7 ETL过程的实施要点过程的实施要点 ETL过程是一个数据流动的过程,中间的过程是一个数据流动的过程,中间的“T”(转换)是关键(转换)是关键;ETL工具的选择非常重要,运用合适的工工具的选择非常重要,运用合适的工具会事半功倍具会事半功倍;如何保证数据质量?数据质量在一定程度如何保证数据质量?数据质量在一定程度上决定了数据仓库的价值;上决定了数据仓库的价值;6.8 完整的完整的ETL架构模型架构模型演讲完毕,谢谢观看!
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!