数据仓库及ETL介绍37473

上传人:无*** 文档编号:244030476 上传时间:2024-10-02 格式:PPTX 页数:46 大小:1.53MB
返回 下载 相关 举报
数据仓库及ETL介绍37473_第1页
第1页 / 共46页
数据仓库及ETL介绍37473_第2页
第2页 / 共46页
数据仓库及ETL介绍37473_第3页
第3页 / 共46页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,46,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,数据仓库及,ETL,介绍,数据集成事业部 周欣欣,zhouxinxin,2016.09,目录,基础概念,Informatica,组件详解,Informatica KB,介绍,ETL,系统介绍,1,、数据仓库,数据仓库是一,个:,面向,主题的(,Subject Oriented,),集成,的(,Integrate,),相对,稳定的(,Non-Volatile,),反映,历史变化(,Time Variant,),的,数据集合,1,、数据仓库,数据仓库是一,个:,面向,主题的(,Subject Oriented,),集成,的(,Integrate,),相对,稳定的(,Non-Volatile,),反映,历史变化(,Time Variant,),的,数据集合,1,、数据仓库的特点,面向,主题的(,Subject Oriented,),数据是面向应用程序事务的,而数据仓库中数据的是按商业主题存放的,商业主题会随着企业的不同而不同。,集成,的(,Integrate,),在将不同来源的数据存入数据仓库中之前,必须把这些不同的数据元素标准化,对数据进行清洗、转换等集成,操作。,相对,稳定的(,Non-Volatile,),一旦,某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。,反映,历史变化(,Time Variant,),数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时,点到,目前的各个阶段的,信。,主题与主题域,主题,面向,主题的数据组织方式,就是在较高层次上对分析对象数据的一个完整并且一致的描述,能刻画各个分析对象所涉及的企业各项数据,以及数据之间的联系,。,主题域,主题,域是对某个主题进行分析后确定的主题的,边界,主题与主题域,主题与主题,域,:,财务:,资金,筹集、资金配置、资本结构、现金,创造、现金管理,资产质量、盈利能力、债务风险、成本、费用、差旅,人力资源:,人员、薪酬、职位、员工关怀、人员流动、技能提升,资产:固定资产、资产使用、资产维护、折旧、残值,经营分析:,流量、生产保障、精细化管理、运营效率、设施效率,主题与主题域,2024/10/2,Inspur group,维度建模,2024/10/2,Inspur group,维度建模:,其,最简单的描述就是,按照事实表、维度表来构建数据仓库、数据集市,。,维度表:,维度表可以看作是用户来分析数据的窗口,纬度表中包含事实数据表中事实记录的特性,有些特性提供描述性信息,有些特性指定如何汇总事实数据表数据,以便为分析者提供有用的信息,维度表包含帮助汇总数据的特性的层次结构,。,事实表:,在多维数据仓库中,保存度量值的详细值或事实的表称为“事实表”。,维度建模,2024/10/2,Inspur group,简单的说:,1、事实表就是你要关注的内容;,2、维表就是你观察该事务的角度,是从哪个角度去观察这个内容的。,星形模型与雪花模型,2024/10/2,Inspur group,雪花模型,2024/10/2,Inspur group,星形模型与雪花模型,2024/10/2,Inspur group,星形模型,一,种使用关系数据库实现多维分析空间的模式,称为星型模式。星型模式的基本形式必须实现多维空间(常常被称为方块),以使用关系数据库的基本功能,。,雪花,模式,不管,什么原因,当星型模式的维度需要进行规范化时,星型模式就演进为雪花模式。,星形模型缺点,2024/10/2,Inspur group,Benefits,:,Simpler,queries,Simplified business reporting,logic,Query performance,gains,Expansibility,Disadvantages,redundancy data,Harder Complex Queries,缓慢变化维,2024/10/2,Inspur group,Supplier_Key,Supplier_Code,Supplier_Name,Supplier_State,123,ABC,Acme Supply Co,CA,Supplier_Key,Supplier_Code,Supplier_Name,Supplier_State,123,ABC,Acme Supply Co,IL,original,Now,缓慢变化,维处理方式,2024/10/2,Inspur group,Type 0: retain original,Type 1: overwrite,Type 2: add new row,Type 3: add new attribute,Type 4: add history table,Type 6: hybrid,Type,2 & TYPE 3,2024/10/2,Inspur group,Supplier_Key,Supplier_Code,Supplier_Name,Supplier_State,Start_Date,End_Date,123,ABC,Acme Supply Co,CA,01-Jan-2000,21-Dec-2004,124,ABC,Acme Supply Co,IL,22-Dec-2004,NULL,Supplier_Key,Supplier_Code,Supplier_Name,Original_Supplier_State,Effective_Date,Current_Supplier_State,123,ABC,Acme Supply Co,CA,22-Dec-2004,IL,Type 4: add history table,2024/10/2,Inspur group,Supplier_key,Supplier_Code,Supplier_Name,Supplier_State,124,ABC,Acme & Johnson Supply Co,IL,Supplier_key,Supplier_Code,Supplier_Name,Supplier_State,Create_Date,123,ABC,Acme Supply Co,CA,14-June-2003,124,ABC,Acme & Johnson Supply Co,IL,22-Dec-2004,Type,6,2024/10/2,Inspur group,Supplier_Key,Supplier_Code,Supplier_Name,Current_State,Historical_State,Start_Date,End_Date,Current_Flag,123,ABC,Acme Supply Co,NY,CA,01-Jan-2000,21-Dec-2004,N,124,ABC,Acme Supply Co,NY,IL,22-Dec-2004,03-Feb-2008,N,125,ABC,Acme Supply Co,NY,NY,04-Feb-2008,31-Dec-2009,Y,代理主键,2024/10/2,Inspur group,代理主键:,维,度建模理论中,维表里使用原业务中的主键作为主键就是业务键(,Business Key,);建立新的主键就是代理键(,Surrogate,Key,),为什么使用代理主键:,性能,主,键重复,一致性维度,2024/10/2,Inspur group,一致性维度:,当,不同的维度表的属性具有相同列名和领域内容时,称维度表具有一致性。利用一致性维度属性与每个事实表关联,可将来自不同事实表的信息合并到同一报表中,。,建模,四,步骤,:,总线架构,2024/10/2,Inspur group,数据仓库架构,2024/10/2,Inspur group,快速判断数据仓库水平,2024/10/2,Inspur group,有没有带缓慢变化维度一致性维度,有没有跨层取数的现象,ETL 34,个子系统,抽取,在,ETL,环境中从源系统收集原始数据并且在任何对数据的重要重构发生之前都将数据写入磁盘。子系统,1,到子系统,3,都支持抽取过程。,清洗和一致化,通过,ETL,系统中的一系列处理步骤发送源数据,这些步骤提高了从源系统接收数据的质量,并且对两个或多个源系统中的数据进行了合并,创建并强化了一致性维度和一致性度量。子系统,4,到子系统,8,描述了支持清洗和一致化过程所需的架构,。,ETL 34,个子系统,提交,从物理上将数据组织和装载到呈现服务器的目标维度模型中。子系统,9,到子系统,21,提供了若干种将数据提交到服务器上的功能。,管理,用一致的方式来管理,ETL,环境中的相关系统和过程。子系统,22,到子系统,34,都描述了支持,ETL,系统现行管理所需的组件。,27,抽取,子系统,1,-,数据探查,子系统,2-,变化数据捕捉,系统,审计,列,定时,抽取,完全差异比较,数据库日志刮,取,消息队列,监视,28,抽取,子系统,3-,抽取系统,文件,FTP,WEB SERVICE,数据库,接口,数据,的清洗和一致化,子系统,4-,数据清洗,系统,对数据质量问题的早期诊断和鉴别,分类:,完整性、一致性、准确性、及时性,让源系统和集成工作提供更优质的数据,具有为,ETL,过程中遇到的数据错误提供特定描述的功能,具有能够随着时间推移捕捉所有数据质量错误和度量数据质量的框架,对最终数据的质量可信度进行度量的附加功能,数据的清洗和一致化,2024/10/2,Inspur group,子系统,5-,错误事件,模式,子系统,6,-,审计,维装配器,数据的清洗和一致化,2024/10/2,Inspur group,子系统,7-,重复数据删除,系统,子系统,8,-,一致化系统,子系统,9,-,向,呈现层交付,数据,子系统,9,-,缓慢,变化维,管理器,子系统,10,-,代理,键,生成器,子系统,11,-,层次管理器,数据的清洗和一致化,2024/10/2,Inspur group,子系统,12,-,专用维度管理器,日期,/,时间维,杂项维,微型维(视图维度),小型静态维,用户维护的维,度,子系统,13,-,事实,表构建,器,事务处理粒度事实表装载,器,周期快照事实表装载,器,累积快照事实表装载器,数据的清洗和一致化,2024/10/2,Inspur group,子系统,14-,代理键,管道,子系统,15,-,多,值维度桥接表构建,器,子系统,16,-,延迟,到达,数据处理器,子系统,17,-,维,度,管理系统,子系统,18,-,事实,提供,系统,子系统,19,-,聚集,构建,器,子系统,20,-,OLAP,多维数据集构建,器,子系统,21,-,数据,传播管理器,管理,ETL,环境,子系统,22-,作业调度,器,子系统,23,-,备份系统,子系统,24,-,恢复,和重启,系统,子系统,25,-,版本控制系统,子系统,26,-,版本,迁移,系统,子系统,27,-,工作,流,监视器,子系统,28,-,排序系统?,子系统,29,-,沿袭,和依赖,分析器,子系统,30,-,问题,自动调整,系统,子系统,31,-,并行,/,管道系统,子系统,32,-,安全系统,子系统,33,-,-,合规性管理器,管理,ETL,环境,子系统,34,-,元数据,知识库,管理器,技术,元数据,业务元数据,运行元数据,36,Informatica,整体架构,37,两个服务器端和五个客户端组件,服务器端,Repository Server,Informatca Server,客户端,Repository Manager,Designer,Workflow Manager,Workflow Monitor,Repository Server Administration Console,38,五个客户端组件的作用,Repository Manager,元数据资料库,依赖分析,安全性管理等。,Designer,定义源和目标数据结构,设计转换规则,生成,ETL,映射。,Workflow Manager,合理地实现复杂的,ETL,工作流,基于时间或事件的作业调度。,Workflow Monitor,监控,workflow,和,session,生成工作日志及报告。,Repository Server Administration Console,Repository,的建立与维护,39,INFA,安装配置,依赖:,Oracle DB2,或,SQL SERVER,的,DBA,权限,安装配置过程:,点击,Server,软件包,setup.exe,完成安装,登录控制台创建,RS,,,IS,,把,RS,由独占模式改为普通模式,点击,Client,软件包,setup.exe,配置连接信息,连接到服务器端,客户端和服务端端,组件,40,服务器端,Repository Server,Informatca Server,客户端,Repository Manager,Designer,Workflow Manager,Workflow Monitor,Repository Server Administration Console,INFA,组件组件,41,源、目标,SQ qualifier,Expression,Joiner,Sorter,Filter,INFA,组件,2024/10/2,Sequence Generator,Aggregator,Router,Union,SQL,Update,Strategy,LOOPUP,其他,2024/10/2,Mapplet,workflow,Worklet,谢 谢!,谢 谢!,演讲完毕,谢谢观看!,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!