资源描述
,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,#,Click to edit Master title style,数据建模介绍,数据建模介绍,1,数据仓库构造方法,自上而下,Bill Inmon,从整个企业的业务环境入手,分析其中的概念,应该有什么样的数据,达成概念完整性,并不从它需要支持那些应用入手。,一个企业建立唯一的数据中心,就像一个数据的仓库,其中数据是经过整合、经过清洗、去掉脏数据的、标准的,能够提供统一的视图。,自下而上,Ralph Kimbal,按照实际的应用需求,加载需要的数据,不需要的数据不必要加载到数据仓库当中。,这种方式建设周期较短,客户能够很快看到结果,适合做项目类数据仓库。,混合法,结合自上而下、自下而上两种构造数据仓库的方法,结合企业自身特点,分析业务环境构造数据仓库底层数据基础,再按照实际的应用需求构造数据仓库上层数据。,数据仓库构造方法自上而下从整个企业的业务环境入手,分析其中的,2,支付宝业务系统简介,业务特点,类金融交易:充值、提现、账务管理,类电子商务:购物交易过程变更、实际交易(对,B,机票、对,C,水电等),非纯电子商务;纯金融,线上子系统多而杂,截止到,2011,年,6,月共有各类线上子系统,259,个,类型多样:对,C,、对,B,、对内、对金融机构,系统间依赖程度参差不齐,垂直依赖(业务与核心),跨层依赖(跨过交易到账务),支付宝业务系统简介业务特点,3,支付宝业务系统,四大平台,资金平台,客户平台,支付平台,交易平台,五大域,商户域,用户域,支撑域,风控域,无线域,两条线,会员线,金融线,支付宝业务系统四大平台资金平台客户平台支付平台交易平台五大域,4,支付宝数据仓库架构原则,底层业务的数据驱动为导向同时结合业务需求驱动,便于数据分析,屏蔽底层复杂业务,简单、完整、集成的将数据暴露给分析层,底层业务变动与上层需求变动对模型冲击最小化,业务系统变化影响削弱在基础数据层(资金订单改造),结合自上而下的建设方法削弱需求变动对模型的影响,数据水平层次清晰化,高内聚松耦合,主题之内或各个完整意义的系统内数据的高内聚,主题之间或各个完整意义的系统间数据的松耦合,构建仓库基础数据层,使得底层业务数据整合工作与上层应用开发工作相隔离,为仓库大规模开发奠定基础,仓库层次更加清晰,对外暴露数据更加统一,支付宝数据仓库架构原则底层业务的数据驱动为导向同时结合业务需,5,传统仓库架构方法,需求驱动为主,传统仓库架构方法需求驱动为主,6,支付宝交易主题现状,支付宝交易主题现状,7,数据仓库模型建设目标示意图,数据仓库模型建设目标示意图,8,仓库基础数据层建设的意义,避免底层业务变动对上层需求影响过大,屏蔽底层复杂的业务逻辑,尽可能简单,、完整,的在接口层呈现业务数据,仓库数据更加丰富,建设高内聚松耦合的数据组织,使得数据从业务角度可分割,有助于数据和团队的扩展。,仓库基础数据层建设的意义避免底层业务变动对上层需求影响过大,9,第三方支付企业支付宝数据仓库体系结构,点击流数据,(,Click stream,),数据库数据(,OLTP,),文档数据(,Documents,),其它数据(,Other,),源数据,明细数据(,DWD,),数据仓库,E,T,L,报表展示,自定义查询,数据分析,数据应用,数据挖掘,元数据管理,数据质量监控,KPI,账单应用,日志产品应用,高粒度汇总数据(,DWS,),其它,数据集市、宽表(,DM,),数据应用(,ST,),低粒度汇总加工数据(,DWB,),第三方支付企业支付宝数据仓库体系结构点击流数据数据库数据(O,10,建立企业级概念数据模型,(CDM),的基本架构,相关方,安排,位置,相关方关系,相关方及安排间的关系,相关方,描述,相关方类型,业务概念框架提供了一套通用的结构,它描述了所有业务环境,IBM,业务概念间最初的关系提供了,相关方,合约,位置,分类,产品/服务,资源,事件,业务方向,条件,安排类型,所有业务信息都是可以用九大概念的词汇来表示,每一种信息概念都可用三个分层来详细说明:,分类分层(是什么),描述分层(有什么),关系分层(做什么),建立企业级概念数据模型(CDM)的基本架构相关方安,11,九大数据概念变迁,IBM FSDM,九大数据概念,支付宝九大数据概念,当事人,地理位置,协议,资源项,事件,产品,分类,条件,业务方向,介质,介质,帐户,渠道,主要变化:,1.,将产品中的介质以及分类中的帐户和渠道独立出来作为单独的数据概念,2.,条件和分类不作为单独的数据概念,分散在各个数据概念中。,3.,业务方向中的部分在事件数据概念中体现,当事人,地理位置,协议,资源项,事件,产品,介质,渠道,帐户,条件,条件,分类,条件,分类,条件,条件,分类,业务方向,九大数据概念变迁IBM FSDM九大数据概念支付宝九大数据概,12,第三方支付企业支付宝数据模型设计,基于,OMG,推出的数据仓库元数据管理的,CWM,模型,(Common Warehouse Metamodel),物理模型设计,PDM,设计方法,参考,IBM,的,FSDM,金融行业的数据仓库通用模板,参考,NCR Teradata,金融服务逻辑数据模型(,FS-LDM,),,参考新巴塞尔资本协议(,Basel II Capital Accord,),需提供三到五年的数据的规范,综合上述规范和要求,同时结合支付宝实际的业务,,推出数据仓库,5,层架构体系,第三方支付企业支付宝数据模型设计基于OMG推出的数据仓库元数,13,DW,五层模型是按照,EDW,各个应用层次的需求进行分层细化而来的,每个层次满足不同的应用。,分为以下,5,层:,1.ODS,数据准备层,2.DWD,数据明细层,3.DW(B/S),数据汇总层,4.DM,数据集市层,5.ST,数据应用层,DW,五层模型架构介绍,DW五层模型是按照EDW各个应用层次的需求进行分层细化而来的,14,DW,五层模型架构介绍,ODS,层,ST,层,DM,层,DW,层,DWD,层,数据来源及建模方式,服务领域,数据准备区,数据来源是各业务系统的源数据,物理模型和业务系统模型一致。,数据来自,ODS,层,是,DW,明细事实层,数据模型是,ODS,一致,数据来自,DWD,层,是,DW,事实层,采用维度建模,星型架构,这一层可细分为,dwb,和,dws,数据来自,DW,层,采用维度建模,星型架构,数据来自,DW,层,采用维度建模,星型架构,为其它逻辑层提供数据,为统一数据视图子系统提供数据实时查询,为,EDW,提供各主题业务明细数据,为,EDW,提供各种统计汇总数据,数据挖掘,自定义查询,应用集市,前端报表展现,主题分析,,KPI,报表,数据,ETL,过程描述,通过支付宝分发中心平台,把业务数据抽取落地成文本文件,再装载到数据仓库,ODS,层,不做清洗转换,根据,ODS,增量数据进行,merge,生成全量数据,不做清洗转换,保留原始全量数据,从,DWD,层进行轻度清洗,转换,汇总聚合生成,DW,层数据,如字符合并,,EMAIL,证件号,日期,手机号转换,合并;用代理键取代维度;按各个维度进行聚合汇总,从,DW,层的数据进行粗粒度聚合汇总;按业务需求对事实进行拉宽形成宽表,从,DW,层的数据进行粗粒度聚合汇总;如按年、月、季、天对一些维度进行聚合生成业务需要的事实数据,DW五层模型架构介绍ODS层ST层DM层DW层DWD层,15,DW,模型架构第一层介绍,-ODS,层,功能,ODS,层是数据仓库准备区,为,DWD,层提供基础原始数据,减少对业务系统影响,建模方式及原则,数据保留时间根据实现业务需求而定,可以分表进行周期存储,存储周期不长,数据不做清洗转换和业务系统一样,按主题逻辑划分,数据模型和粒度和业务系统数据模型保留一致(,3NF,),从业务系统以增量方式抽取加载到,ODS,DW模型架构第一层介绍-ODS层功能,16,DW,模型架构第二层介绍,-DWD,层,功能,为,DW,层提供来源明细数据,提供业务系统细节数据的长期沉淀,为未来分析类需求的扩展提供历史数据支撑,建模方式及原则,数据模型与,ODS,层一致(,3NF,),不做清洗转换处理,为支持数据重跑可额外增加数据业务日期字段,可按天、月、年进行分表,用增量,ODS,层数据和前一天,DWD,相关表进行,merge,处理,DW模型架构第二层介绍-DWD层功能,17,DW,模型架构第三层介绍,-DW,层,功能,为,DM,ST,层提供细粒度数据,细化成,DWB,和,DWS,DWB,是根据,DWD,明细数据进行清洗转换,如维度转代理键、身份证清洗、会员注册来源清洗、字段合并、空值处理、脏数据处理、,IP,清洗转换、账户余额清洗、资金来源清洗等,DWS,是根据,DWB,层数据按各个维度,ID,进行粗粒度汇总聚合,如按交易来源,交易类型进行汇总,建模方式及原则,聚合、汇总增加派生事实,关联其它主题的事实表,,DW,层可能会跨主题域,DWB,保持低粒度汇总加工数据,,DWS,保持高粒度汇总数据,数据模型可能采用反范式设计,合并信息等,DW模型架构第三层介绍-DW层功能,18,DW,模型架构第三层介绍,-DW,层,DW模型架构第三层介绍-DW层,19,DW,模型架构第四层介绍,-DM,层,功能,这一层可以是一些宽表,是根据,DW,层数据按照各种维度或多种维度组合把需要查询的一些事实字段进行汇总统计并作为单独的列进行存储,满足一些特定查询、数据挖掘应用,应用集市数据存储,建模方式及原则,尽量减少数据访问时计算,优化检索,维度建模,星形模型,事实拉宽,度量预先计算,分表存储,DW模型架构第四层介绍-DM层功能,20,DW,模型架构第四层介绍,-DM,层,DW模型架构第四层介绍-DM层,21,DW,模型架构第五层介绍,-ST,层,功能,ST,层面向用户应用和分析需求,包括前端报表、分析图表、,KPI,、仪表盘、,OLAP,、专题等分析,面向最终结果用户,适合作,OLAP,、报表模型,如,ROLAP,,,MOLAP,根据,DW,层经过聚合汇总统计后的粗粒度事实表,建模方式及原则,保持数据量小,维度建模,星形模型,各种维度代理键,+,度量,增加数据业务日期字段,支持数据重跑,不分表存储,DW模型架构第五层介绍-ST层功能,22,DW,模型架构第五层介绍,-ST,层,DW模型架构第五层介绍-ST层,23,细化,DW,建模,对,DW,中各个主题业务建模进行了细分,每个层次具有不同的功能。,保留了最细粒度数据,满足了不同维度,不同事实的信息,满足数据重新生成,不同层次的数据支持数据重新生成,无需备份恢复,解决了由不同故障带来的数据质量问题,消除了重新初始化数据的烦恼,减少应用对,DW,的压力,以业务应用驱动为向导建模,通过,ST,、,DM,层提供数据,避免直接操作基础事实表,降低数据获取时间,快速适应需求变更,适应维度变化,明细基础数据层稳定,适应前端应用层业务需求变更,所有前端应用层模型之间不存在依赖,需求变更对,DW,整个模型影响范围小,能适应短周期内上线下线需求,DW,五层模型架构特点,细化DW建模DW五层模型架构特点,24,数据仓库建设规范,表命名规范,程序命名规范,开发模板,通用,SQL,文档,数据仓库建设规范表命名规范,25,数据仓库建设规范,表命名规范,表名命名格式说明,层次,_,主题,_,表内容,_,分表规则,T,表命名格式说明,T_,层次,_,主题,_,表内容,临时表名命名格式说明,tmp_,所属程序名,_,自定义序号,1.10,temp_,操作者缩写,_YYYYMMDD_,表内容,视图命名格式说明,V_,表名,DWB,层视图,仍,以,DWB_,开头,为了兼容日后业务变动,数据仓库建设规范表命名规范,26,数据仓库建设规范,表命名解释,层次,ODS,DWD,DWB,DWS,DM,ST,如,ODS_TRD
展开阅读全文