数据仓库实施方法论课件

上传人:无*** 文档编号:241430708 上传时间:2024-06-25 格式:PPT 页数:55 大小:1.08MB
返回 下载 相关 举报
数据仓库实施方法论课件_第1页
第1页 / 共55页
数据仓库实施方法论课件_第2页
第2页 / 共55页
数据仓库实施方法论课件_第3页
第3页 / 共55页
点击查看更多>>
资源描述
菲奈特数据仓库实施方法论 实施部实施部 20052005本手册是菲奈特公司实施部实施项目的参考手册。拿到本手册的菲奈特员工必须确保本手册没有被复制、散发或采取任何方式为第三方所用。在您离开菲奈特公司时,有义务归还本文件。主 题菲奈特数据仓库方法论概述菲奈特数据仓库体系架构菲奈特数据仓库实施方法菲奈特之“一种方法两个模型”菲奈特做为商业智能解决方案的领导者,一直致力于BI领域的创新,创建了DW的最佳实施体系“一种方法两个模型”-“一种方法”,菲奈特数据仓库方法论是菲奈特经过多年的数据仓库实施积累的最佳实践经验。-“两个模型”指的是DWM和BAM。DWM(FEnet DW Integration DataModel)用于企业数据整合的数据模型是对企业数据进行整合和组织的工具,描述了数据仓库各个主题域的实现。BAM(FEnet Business Analysis DataModel)用于企业数据分析的数据模型,是技术人员与业务人员沟通的载体和工具,反映了业务分析需求、指标体系、行业最佳实践经验。-建设数据仓库一定要统一规划,分步实施。建议企业在数据整合和业务分析两方面对EDW蓝图进行统一规划。方法论是使蓝图得以实现的路线图,建议企业循序渐进,逐步建成企业级DW。什么是菲奈特数据仓库方法论菲奈特数据仓库方法论:-是菲奈特多年的数据仓库系统实施过程中积累的最佳经验。-是一套建立企业级数据仓库解决方案的方法。帮助定义灵活的、可扩展的DW体系架构;采用结构化方法,详细定义了建设一个满足客户需求的数据仓库系统所不可缺少的任务和步骤。-可提高工作效率,保证项目实施质量;减少项目的实施风险,确保在预算的范围内按时完成项目,满足用户的需求。-可解决诸如:确定正确的系统范围和需求、建立灵活的系统架构以满足不断变化的分析决策需求等等比较棘手的、高风险的问题。菲奈特数据仓库方法论体系菲奈特数据仓库方法论包含的内容:一、体系架构。帮助建立灵活的、可扩展的EDW架构。二、数据模型。包括DWM和BAM。三、实施方法论。采用结构化方法,定义了建设一个DW包含的详细任务和步骤。四、项目管理。减少项目的实施风险,确保在预算的范围内按时完成项目,满足用户的需求。过程管理委员会对项目进行评审和指导。主 题菲奈特数据仓库方法论概述菲奈特数据仓库体系架构菲奈特数据仓库实施方法菲奈特数据仓库数据处理流程名词解释-DW数据仓库是与操作系统分离的、基于企业模型集成的、面向主题的、稳定的、历史的数据集合。数据仓库的数据模型是应用无关的,换句话说,DW是一个数据平台,提供各种查询的数据支持,但最终用户的查询并不直接在DW中执行。DW的物理设计也无需针对用户查询和分析的需求进行优化。名词解释-DWM数据仓库数据模型是对企业数据进行整合和组织的工具。首先抽象出企业概念模型,然后将其转换为DWM。企业概念模型把现实世界高度抽象为信息世界。概念模型是主观与客观之间的桥梁。概念模型是设计系统、收集信息的概念性工具。用ER图描述概念模型,形式简单,便于交流。系统设计阶段把概要模型转换为DWM DWM描述了数据仓库各个主题域的逻辑实现,即每个主题所对应的关系表的关系模式定义。DWM是当前和未来数据的集成蓝图,用来指导企业级数据仓库建设。DWM主题域保证数据组织独立于数据处理逻辑,因而可以从DWM之上方便的开发新的分析应用。定义主题域采用结构化、逐步求精的方法,确保主题域的独立性和完备性。名词解释-Data Mart用户所有的数据需求都通过访问Data Mart,Data Mart可分为:1、Data Mart(RDBMS)面向业务需求;存储在关系数据库中;一般采用反规范化设计方法,包括明细的数据,或者聚合、冗余的数据;2、OLAP(MDBMS)OLAP根据存储方式又分为三类:1、ROLAP,数据以Star-Schema存储在关系数据库中。2、MOLAP,数据先以Star-Schema存储在关系数据库中,再加载到OLAP。3、HOLAP,把上面两种方式结合起来。名词解释-BAM Business Templates是用来指导数据集市建模(BAM)和前端开发的业务分析需求、指标体系、行业最佳实践经验等。BAM是数据集市的数据模型,根据分析需求组织数据,通过数据冗余和数据库优化来满足数据访问的快速响应要求。BAM设计必须与行业经验结合,采用结构化、逐步求精的方法。BAM的设计采用反规范化以及Star-Schema。名词解释-ODSODS(Operational Data Storage)是一个包含了面向主题、集成、可变、当前的(或最近一个阶段)和详细的操作信息。ODS的优点:ODS提供了改善的方法进行数据库的存取。通过ODS,企业可以在客户交易的过程中获得客户的完整视图。ODS可在实时或近实时的基础上提供查询产品和服务所需数据的能力。与传统系统相比,ODS能以更高的性能生成操作报告。ODS可帮助集成现有新型系统。根据W.H.Inmon的提法,把ODS按照数据更新频率分为3类,后来随着业务的发展,又出现了第4类ODS:ODS I:实时或准实时,数据整合少、简单。ODS II:每1小时或半小时更新一次,数据整合比较复杂。ODS III:每天更新一次,或者每周更新一次。ODS IV:把DW的分析结果存储到ODS,该ODS保证交易访问这些数据能在2-3秒获得。名词解释-Staging AreaStaging Area Storage由一些ETL处理过程的辅助表组成,辅助ETL工具完成复杂的转换和计算,Staging Area通常是一些临时表。Staging Area的作用与实现:1、减少对数据源的查询压力,有助于不同数据源的整合。2、应用于增量处理,可以减少处理的记录数量,使增量处理更加容易。3、对数据的格式进行转换,例如日期格式、数据类型转换等。4、时间调度上的灵活性,通过建立Staging Area,把数据存储在临时空间,使ETL调度更灵活。5、作为ETL后续处理的统一接口,建立Staging Area作为ETL每个处理阶段的接口,对系统的灵活性和可扩展性非常有帮助。主 题菲奈特数据仓库方法论概述菲奈特数据仓库体系架构菲奈特数据仓库实施方法菲奈特实施模式与关键因素 系统测试系统测试系统测试系统测试系统建立系统建立系统建立系统建立系统设计系统设计系统设计系统设计需求分析需求分析需求分析需求分析以业务为驱动以业务为驱动,需求明确需求明确用户培训用户培训用户培训用户培训试运行试运行试运行试运行部署部署部署部署上线运行上线运行上线运行上线运行监控监控监控监控业务增长业务增长业务增长业务增长业务分析业务分析业务分析业务分析管理层重视管理层重视,业务积极参与业务积极参与循序渐进,螺旋式开发循序渐进,螺旋式开发数据质量控制数据质量控制成熟的实施方法成熟的实施方法,风险控制风险控制灵活的架构和数据模型灵活的架构和数据模型最佳实践经验最佳实践经验数据仓库实施评估过程过程|阶段阶段方案评估方案评估系统定义系统定义系统分析系统分析系统设计系统设计系统开发系统开发系统测试系统测试系统上线系统上线系统维护系统维护项目前期准备项目前期准备10.0%业务需求定义业务需求定义40.0%26.0%35.0%系统结构设计系统结构设计15.0%20.0%15.0%8.0%4.0%逻辑模型设计逻辑模型设计10.0%15.0%15.0%15.0%数据获取数据获取(ETL)(ETL)10.0%12.0%18.0%20.0%40.0%20.0%8.0%物理模型设计物理模型设计18.0%8.0%12.0%DW/OLAPDW/OLAP建立建立5.0%10.0%3.0%5.0%前端应用开发前端应用开发2.0%3.0%8.0%8.0%3.0%3.0%数据质量控制数据质量控制5.0%10.0%3.0%5.0%5.0%15.0%元数据管理元数据管理1.0%1.0%3.0%3.0%2.00%数据仓库管理数据仓库管理2.0%4.0%3.0%4.0%5.0%7.0%5.0%文档编写文档编写5.0%1.0%2.0%4.0%3.0%3.0%5.0%系统测试系统测试/Review/Review5.0%2.0%4.0%5.0%8.0%25.0%15.0%用户培训用户培训7.0%2.0%4.0%4.0%7.0%20.0%系统上线系统上线2.0%3.0%30.0%技术支持技术支持8.0%25.00%合计合计100%100%100%100%100%100%100%25%表中的百分比以一个中等规模的项目为例,说明每个过程的工作量在各个实施阶段中所占的比例,该百分比是多个项目的平均值,仅供参考。项目组织结构图实施团队模型实施团队模型定义了相互协作、同等角色关系的工作模型。每个组中的成员在项目中都有一个明确定义的角色,并且关注于一种特定的任务。每个人的工作是同样重要和有价值的。每个人必须对其交付品的质量负责。团队模型不是组织结构图。菲奈特数据仓库实施流程 方案评估 系统定义 系统分析 系统设计 系统开发 系统测试 系统上线 系统维护方案评估概述本阶段为售前阶段,以客户策略性业务需求和目标为基础,提供解决方案,完成对系统目标和企业数据仓库基础结构的定义。对客户组织结构、成功的关键因素、主要的限制因素、事项、风险和由数据仓库系统带来的收益进行评估。此外,还要完成对高层的技术实现结构、高层的数据仓库结构进行定义,确保方案的可行性和扩展性。菲奈特数据仓库实施流程 方案评估 系统定义 系统分析 系统设计 系统开发 系统测试 系统上线 系统维护系统定义概述本阶段项目组尚未正式进场,根据商务合同文本及其附件,明确定义迭代过程的目标和范围,对用户目标和分析需求的信息进行收集,在已确定的解决方案实施范围内确定整体技术方案。在本阶段还需建立在需求范围控制、数据获取、数据质量控制、数据仓库管理、元数据管理、数据访问和培训等方面的策略性方案。必要的时候,PM可以与客户相关人员进行沟通。本阶段确定项目组的成员和项目范围、分工,各个阶段的主要提交物,以及项目预算。通过内部Kick off确认资源安排、计划以及预算等。系统定义实施流程系统定义主要任务主要任务n确认项目范围和主要目标;n确认项目阶段性验收及总体验收标准;n熟悉合同附件中的系统解决方案建议书和SOW;n确认项目实施初步计划;n成立项目组,确定各项目小组的成员及各自的工作职责;n确定各项目小组的阶段性工作目标;n确定系统最主要的End User;n 工具选型和评估。交付物n 项目组织架构和人员组成;n 项目实施初步计划;n 项目实施成本预算;菲奈特数据仓库实施流程 方案评估 系统定义 系统分析 系统设计 系统开发 系统测试 系统上线 系统维护系统分析概述在本阶段开始之前,在客户现场召开项目启动会议,重申项目目标、重点,以及需求访谈的模式等。在本阶段中,在已确定的解决方案实施范围内,进行现状分析,明确详细的业务需求,项目组集中精力收集详细的分析需求,设计数据仓库构架,收集最终用户对数据的访问需求。本阶段的结果提交一个详细的需求分析报告,这些需求将用于数据仓库设计和项目的其它阶段。在系统分析阶段,确定数据获取方案,包括从源系统中抽取什么数据;确定业务数据处理周期、更新周期,以及ETL周期;完成源系统的初步分析,源系统和目标系统的差异分析。系统分析实施流程系统分析主要任务主要任务n用户需求调研与确认;n数据源确认和分析;n用户需求和数据源的筛选和分析;nETL处理规则确认;n系统安全性设计;n系统命名规范设计;n设计并演示Demo。交付物n 需求说明书SRL(System Requirement List);n 系统命名规范说明书;n 数据质量初步分析;n ETL处理规则说明书和脏数据处理规则;n 总体设计说明书;n 交付系统原型(Demo)。系统分析需求界定需求的不明确前期阶段,用户:“你先告诉我这个系统能够提供哪些功能,我才知道我需要什么”。解决方法设计并演示Demo,进行用户体验,引导用户提出需求。理想的需求理想的需求理想的需求理想的需求&预期目标预期目标预期目标预期目标数据源数据源数据源数据源&现状现状现状现状最终需求定义最终需求定义最终需求定义最终需求定义系统分析以业务为驱动以业务为驱动,收集客户需求,形成需求文档。分析方法结构化分析,逐步细化(菲奈特五步法):1 1、现状分析、现状分析2 2、确定、分解、确定、分解分析主题分析主题3 3、确定、确定指标体系指标体系4 4、确定、确定分析角度分析角度5 5、确定、确定维度层次维度层次目前的业务发展情况?经营管理现状?系统的数据源和数据质量怎样?主题是否还需要分解?这个主题的分析目标是什么?这个分析主题包括哪些关键分析指标?包括哪些衍生指标?这个指标从哪些维度进行分析?这个维度包含哪些层次?维度的聚合方式?系统分析以数据为驱动以数据为驱动,完成企业概念模型的分析。概念模型是对企业模型较高层次的抽象,用ER图进行描述。企业概念模型分析的任务:对现有业务系统的数据进行分析,了解现有数据库系统“如何组织”和“如何分布”。分析企业经营管理过程,把企业的信息结构抽象为概念模型。企业概念模型分析的要完成的工作:确定系统的边界,确定哪些数据是DW所需要的。确定主要的主题域以其内容,以及实体之间的关系。系统分析“齐头并进”以数据为驱动的系统分析和以业务为驱动的系统分析同时进行。以业务驱动分析为主线,以数据驱动分析为辅。定义初步的逻辑数据数据:-用于整合的数据模型DWM-用于分析的数据模型BAM业务为驱动数据为驱动DWMBAM企业概念模型企业概念模型业务需求业务需求系统分析数据质量分析方法高质量的数据是指那些符合业务需求的、反应客观事实的数据。衡量数据质量可在以下几个方面进行:数据数据质量特征量特征描述描述正确性正确性数据值必须与数据域一致,没有超出数据范围。准确性准确性一个数据值与设定为准确的值之间的一致程度。由业务专家审查决定是否没有错误。完全性完全性一致性维护数据使不同系统的数据没有差异和相互矛盾。一组数据满足一组约束条件的程度。完整性完整性不同系统的相关数据之间联接是正确的。唯一性唯一性决定数据记录(和关键数据值)不被重复定义和使用的能力。有效性有效性符合业务规则,满足分类标准规定的可接受要求。确定数据值是否可以接受,是否可以产生需要的结果。时效性效性单个或多个数据项目能够在要求时间内提供的程度。特定数值更新的程度。系统分析数据质量优化方案一旦在测试中发生数据质量问题,将采取以下可选方案优化数据的质量改善方法改善方法方法描述方法描述源系源系统纠正正 在大多数情况下,解决原有数据质量问题最彻底的方式是在源头将其纠正(比如在源数据系统中),这通常是最为行之有效的解决方案。同时通过这种方式来解决问题,还可以使本项目以外的其它项目在以后整合原有数据时获得很大的方便。但是因为针对源系统缺陷进行的问题纠正工作通常需要投入很多的成本、时间和人员。数据数据补充系充系统 如果数据质量评估显示原有数据元素不能达到数据仓库的要求,并且无法在源头加以解决,菲奈特将与客户共同评估采用手工方式补录数据的可行性,以寻求相关问题通过的数据补充系统加以处理。ETL处理理 ETL是数据仓库项目中改善数据质量最常用的方法,ETL主要解决与源数据变动较为相关的、并可在ETL流程中加以解决的数据质量问题。如果源系统的低质量的数据很多,仅依赖ETL,工作量很大,并且往往投入很大而收益甚微,引起项目的风险。菲奈特数据仓库实施流程 方案评估 系统定义 系统分析 系统设计 系统开发 系统测试 系统上线 系统维护系统设计概述本阶段的目标是使用在系统分析阶段确定的信息建立满足需求的详细技术定义。包括系统详细设计,ETL设计,数据元素、数据粒度的确认,数据一致性的检查,对数据访问和查询、编制报表等部分的详细定义。详细定义逻辑模型、数据查询需求、来自系统分析阶段的数据映射,以及DWM和BAM的物理设计。逻辑数据模型是用来发现、记录和沟通业务需求的载体和成果。DWM来源于企业数据模型(操作型数据模型),BAM充分体现了业务需求。ETL在设计和开发阶段占用50%以上的工作量,需要予以足够的重视。系统设计阶段还完成系统配置方案,制定测试初步方案,和用户培训的初步方案,以及制定系统上线策略。系统设计实施流程系统设计主要任务主要任务n 定义数据仓库成功的关键因素和数据仓库的实施原则;n 设计可扩展、灵活的系统结构;n 确定数据规模、数据粒度;n 元数据管理方法、数据质量管理策略、ETL策略;n 备份系统和系统安全策略;n 设计逻辑数据模型和物理数据模型;n 数据抽取、转换、清洗和加载策略设计;n 数据抽取失败的恢复处理策略;n 实施严格的数据质量评价方法论,审计、监控和保障数据质量。交付物n系统体系结构与ETL流程说明书和ETL详细设计说明书 ;n逻辑数据模型说明书和物理数据模型设计说明书;n 前端应用设计说明书;n 系统管理说明书。系统设计DWM设计DWM 的逻辑设计:分析主题域。确定本阶段包括哪些主题。粒度划分。确定采用单一粒度或者多重粒度。关系模式定义。确定每个主题的主键和属性,以及主题之间的关系。DWM的物理设计:确定数据的存储结构,考虑存取时间、存储空间利用率和维护成本。确定索引策略,创建合适的索引,采用合适的索引类型。确定数据存储位置,例如更加数据的使用频率和重要性分别存储在不同的存储设备上。空间分配。调整数据块大小、缓冲区大小等优化参数。采取一些提高性能的技术,如数据库分区等。实例-FEnet 银行DWM 10大主题域客户客户个人客户和公司客户个人客户和公司客户地理位置地理位置地理区域,物理的或地理区域,物理的或电子的地址电子的地址营销和沟通营销和沟通拓展市场进行促销活拓展市场进行促销活动,客户投诉事件动,客户投诉事件帐户帐户银行和客户之间为银行和客户之间为某种产品或金融服某种产品或金融服务而设置的协议务而设置的协议交易交易银行与客户之间一种银行与客户之间一种资金或非资金的活动资金或非资金的活动渠道渠道银行与客户交易银行与客户交易或接触的各种渠道或接触的各种渠道产品产品银行的产品和服务,银行的产品和服务,包括条款和定价等。包括条款和定价等。银行银行银行的分支机构、各银行的分支机构、各个部门和职员个部门和职员资源资源银行的有形资产和无银行的有形资产和无形资产。形资产。抵质押品抵质押品抵质押品现价评估,抵质押品现价评估,出租、变现和转固。出租、变现和转固。系统设计BAM设计BAM(OLAP)的逻辑设计:设计多维模型。分析报表需求和决策分析需求,寻找需求与多维模型的维度之间的对应关系,最大限度的减少每个多维模型的维度数目。调整多维模型。每个多维模型反映特定分析问题的商业逻辑,根据业务需求、维度和指标综合考虑多维模型的合并、分拆。考虑添加或移动成员的处理。确定数据加载策略。通过数据库或是文本文件加载。确定多维模型的粒度;BAM(OLAP)的物理设计:确定OLAP增量更新策略和处理方法。确定OLAP计算指标的策略。哪些计算在OLAP实现,哪些需要动态计算。确定OLAP最佳的稀疏/紧密维设置。确定OLAP存储和空间分配。确定OLAP的分区策略。确定哪些CUBE需要设计分区。确定OLAP的并行处理策略。系统设计ETL设计ETL设计(包括数据质量处理策略):根据数据质量分析结果,确认脏数据处理规则;确定ETL处理日志的技术实现和日志内容;确定ETL数据临时存储区(Staging Area)的存储策略;确定ETL日常增量处理流程的策略;确定ETL历史数据处理流程的策略;确定ETL失败、异常的处理策略;确定ETL数据正确性测试策略;确定ETL性能测试策略;保证ETL模块的高内聚和低耦合;如果业务系统允许修改已经发生的业务,确定处理策略;确定代码统一编码的处理策略;确定衍生指标在OLAP中计算还是在ETL中计算;确定渐变维SCD的处理策略。菲奈特数据仓库实施流程 方案评估 系统定义 系统分析 系统设计 系统开发 系统测试 系统上线 系统维护系统开发概述本阶段以系统设计阶段完成的方案为基础,完成数据仓库系统各组成部分的开发,以及系统优化。包括DW、OLAP、ETL和数据访问的开发;开发数据抽取、转换、装载、增量更新流程,以及系统管理体系;安装前端工具,定制查询、编制报表。系统开发实施流程系统开发主要任务主要任务n 对物理数据模型进行修正;n存储、性能调整与优化;n 建立开发环境和生产环境;n建立DW/OLAP分析模型;n开发历史数据加载的程序和处理流程;n 开发日常增量加载的程序和处理流程;n 开发数据备份与恢复程序;n 前端应用开发;n单元测试。交付物n 物理数据模型说明书;n 数据库描述语言DDL;n 数据转换加载(ETL)设计说明书;n数据仓库测试计划。菲奈特数据仓库实施流程 方案评估 系统定义 系统分析 系统设计 系统开发 系统测试 系统上线 系统维护系统测试概述本阶段需要先制定测试计划,准备测试环境;然后编写测试案例。编写测试案例是测试过程的关键工作。完成模块的单元测试、集成测试,数据正确性测试,系统性能测试。数据正确性测试是决定项目是否成功的关键任务。测试完成后,提交测试报告,以及数据质量优化方案。系统测试实施流程系统测试主要任务主要任务n测试历史数据加载的程序和处理流程;n 测试日常增量加载的程序和处理流程;n 测试备份与恢复程序;n 集成测试;n数据正确性测试;n性能测试(数据量、并发访问等);n 提交数据质量优化方案。交付物n数据仓库测试计划;n数据仓库测试案例;n数据仓库测试报告;n数据质量优化方案。菲奈特数据仓库实施流程 方案评估 系统定义 系统分析 系统设计 系统开发 系统测试 系统上线 系统维护系统上线概述本阶段包括系统试运行和系统上线。本阶段之前已经完成数据仓库系统各个组件的安装,用已户具备使用和管理系统的能力,系统试运行成功,可以把系统移植到生产环境。数据仓库移交给数据仓库系统管理员进行维护,对其提出的意见进行必要的修改。数据仓库开放给业务人员使用,并开始进行最终用户培训工作。系统上线实施流程系统上线主要任务主要任务n 试运行测试。n 建立用户支持和培训材料,进行用户培训。n建立并执行系统验收测试计划;n 系统转产演练;n 移植开发系统到生产系统;n 项目总结与展望。交付物n数据仓库系统维护手册;n 系统上线转产步骤说明;n 系统验收报告;n 项目总结与展望;n 用户培训资料。结束结束
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!