资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,BI/DW Introduction,James Chen,PSO Sr. Consultant,程序,=,算法,+,数据结构,-Niklaus Wirth,数据结构,离散结构,线形结构,-,数组链表栈队列,树,图,算法,空间复杂度,时间复杂度,用户,内存中数据结构,物理数据结构,E-R,业务流程,二者相辅相成,不同应用侧重不同,经典业务系统模型,Skill set,数据库,C+/J2EE/.net,PowerDesigner,ER_WIN,OO,UML,面向过程,OO Design Workflow,Develop Business Type Model,Identify Business Interfaces,Identify System Interfaces & Ops,Create Initial Comp Specs & Architecture,Discover Business Operations,Refine Interfaces & Ops,Refine Component Specs & Architecture,Define Interface Information Models,Specify Operation Pre/Postconditions,Specify Component Interface Constraints,Business Concept Model,Use Case Model,Business Interfaces,System Interfaces,Interfaces,Interfaces,Component Specs & Architecture,Component Specs & Architecture,Component Specs & Architecture,Business Type Model,Architecture Patterns,Existing Interfaces,Existing Assets,Component Identification,Component Interaction,Component Specification,笑一笑,数据仓库初学者:数据仓库与数据库有什么区别?,某专家:一个有仓一个没仓!,BI/DW,的引出,统计报表需求,数字越来越重要,报表越来越多,效率越来越差,数据仓库的定义,“,数据仓库是在企业管理和决策中面,向主题的,集成的,与时间相关的,和不可修改的数据集合,”,Bill Inmon,数据仓库,(Data Warehouse),是一种专为联机分析应用和决策支持系统提供数据源的结构化的数据环境,数据仓库要解决的问题是从数据库中获取信息的问题。,数据,信息,INFORMATION,INFORMATION,INFORMATION,INFORMATION,影响数据仓库的几个人物,Bill Inmon -,数据仓库,Ralph Kimball - ,数据仓库工具箱,Bernard Liautaud,- ,商业智能,OLTP,与数据仓库系统,RDBMS,关系数据库,SAP/ERP,VSAM,主机系统,EXCEL,Web/XML,OLTP,业务系统,数据仓库系统,数据是当前的,数据总在实时变化中,存储明细数据,优化是针对即时更新的事务处理,支持日常的业务,支持办事人员或行政人员,数据是历史的,数据是静态的,除数据刷新外,数据是汇总的,优化是针对大批量查询而不是更新,支持长远的业务战略决策,支持决策人员和管理人员,面向事务,面向决策,5-10,年,数据集市,分析型,CRM,业务指标分析,数据仓库,BI,系统建设方法 (,1,),直接建立,BI,应用,OLTP,数据源,各种前端应用,KPI,指标,报表,多维分析,即席查询,数据挖掘,数据仓库环境,业务智能层,中央数据仓库,数据仓库,数据集结,数据源,公司数据源,外部数据源,BIW,数据集市,数据仓库管理子系统,数据仓库元数据目录,信息访问和,引用部件,BI,系统建设方法 (,2,),企业数据仓库体系架构,Relational,Package,Legacy,External,source,Data,Clean,Tool,Source Data,Data,Staging,WareHouse,Admin.,Tools,Enterprise,Data,Warehouse,Data Extraction,Transformation,and load,Datamart,Datamart,Enterprise/,Central,Data,Warehouse,RDBMS,ROLAP,RDBMS,RDBMS,Architected,Datamarts,Central,Metadata,Data,Modeling,Tool,End-User,Tool,End-User,Tool,MDB,End-User,Tool,End-User,Tool,Local Metadata,Local Metadata,典型物理架构,ETL_DM1,ETL_DM2,BAS_DW1,BAS_DW2,BAS_OP1,BAS_OP2,Bas_sw01,Bas_sw02,Dx_sp01,Dx_sp02,Dx_sp03,元数据管理服务器,BAS_SM1,BAS_SM2,70T!,企业数据仓库的目的,数据整合,-,建立一个企业统一的信息平台,建立统一的业务数据定义,建立唯一的统计分析数据源,快速访问,采用适合企业,BI,应用的数据组织方式,新需求的开发快,数据获取的效率快,业务管理层,业务操作层,战略层,底层数据,低粒度汇总,高粒度汇总,建设数据仓库的主要任务,数据仓库建模,ETL,前端展现组,数据挖掘,元数据,数据仓库引擎,NCR Teredata,ORACLE 9,以上,DB2 EEE,Sybase IQ,MS SQL Server,维模型的设计,每个维可以由一个或多个维层次或聚合路径组成,Dimension 1,事实,Dimension 2,Dimension 4,measure 1,measure 2,.,supportive attributes,.,Dimension 3,aggregation path or,dimension hierarchy,dimension key 1,dimension key 2,.,aggregation levels,IWS,模型的特点,简单视图,实例,仓库底层设计考量(一),慢速变化维问题,快速变化和慢速变化,仓库底层设计考量(二),粒度问题,一天变化多次,入库时间,仓库中间层设计考量,基于用户标识,多个粒度汇总,综合各个数据集市,效率考虑,仓库集市层设计考量,面向应用,报表集市,挖掘集市,主题集市,KPI,集市,维模型,以最细粒度数据为主,表加物化视图,数据仓库与数据集市,数据源,CUBE,报表,事实表,维表,维表,维表,维表,数据仓库,事实视图,维视图,维视图,维视图,维视图,业务驱动,数据驱动,数据集市,设计技巧,星型还是雪花?,组合代理键,慢速变化维,维度的不同层次处理,聚合表的设计,.,ETL,过程,源表结构,-,目标结构,工具?自己编码?,-,业务逻辑的任务已经很大,实时任务和批量任务,CDC,的处理,ODS,的处理?,BO Date Integrator,Informatica PowerCenter,Datastage,Sagent,数据源,大数据量,变化数据,关联数据,手工数据,抽取时机和最迟到达时间!,数据源考量,-,大数据量,二十余种清单,上万个文件,大小不一,一天几十,GB,的数据,数据源考量,-,变化数据,实时变化,未存历史,数据源考量,-,关联数据,没有,transaction,几个文件不一致怎么办?,数据源考量,-,手工数据,外部录入?,OLTP,系统?,天气,社会指标,集团客户信息,操作型,CRM,数据源考量,-,历史数据更新,修改昨日数据,批错价,/,延迟话单等,ETL,抽取,/,转换,/,加载,源数据的理解,加载时间,4,小时,ETL,实现,工具,Loader,汇总(数据库汇总还是文件汇总),调度,ETL-,调度,一天几十,GB,的数据,并行度,/,任务大小,/,资源,/,优先级,调度,清单类(大数据量),-,文件的拆分和合并,/,实时处理,业务类(实体之间的关系复杂),-,稽合,帐务类(数据准确),-,验证,参数类(变化影响其他实体),-,告警,/,事先处理,其他任务,月末处理,前端展现,固定报表,多维分析,即席查询,仪表盘,数据挖据,BO(CR),Hyperion(Brio),Cognos,Microstrategy,仪表盘,OLAP,分析,报表,即席查询,固定报表,格式灵活多变,Crystal Report,MSTR,Brio,ReportNet,多维分析,MOLAP - Cognos PowerPlay,Hyperion Essbase,ROLAP - BOE, MSTR,HOLAP - BO - MS OLAP,切片,旋转,切块,钻取,OLAP,分析,多角度、多层次对同一主题进行分析,通过旋转、钻取、切片等技术探察数据,旋转:按不同顺序组织各个维,对结果进行考察,钻取:在一个维内部沿着从高到低或从低到高的方向考察数据,(,有上钻和下钻两种,),切片:在确定某些维数据的情况下对其他维进行观察,有,MOLAP,、,ROLAP,、,HOLAP,三种实现方式,OLAP,设计,-,指标还是维度,性别,年龄,长途类型,通话时段,客户数,通话时长,性别,年龄,客户数,通话时长,长途类型通话时长,通话时段通话时长,1-2,点通话时长,即席查询,语义层,效率很关键,BO,语义层,仪表盘,仪表盘、,KPI-EPM,整合了企业的整个绩效、把告警、报表、分析穿在了一起,BO EPM,Hyperion BPM,数据挖掘,机器学习,数理统计,数据库,预测、特征分析、客户分类,SASSPSS,数据挖掘实施的体系结构,数据仓库,数据挖掘,引擎算法,数据选择,知识库,评价,修改,知识,建模,分析员,领域知识,元数据,元数据管理,什么是元数据?,元数据和开发文档有何区别?,为什么单单在数据仓库中如此重视元数据?,文档,语音计费,GPRS,计费,文档,帐务,文档,结算,营业,文档,文档,客服,文档,MIS,网管,HR,文档,文档,文档,元数据管理,(,续,),业务元数据,业务元数据用业务名称、定义、描述和别名来表示数据仓库和业务系统中的各种属性,直接供业务分析人员使用。,技术元数据,技术元数据描述了数据源、数据转换、抽取过程、加载策略以及目标数据库的定义等。,元数据管理,(,续,),CWM 1.0,数据源,ETL,数据仓库,数据集市,OLAP CUBE,元数据管理,(,续,),能分析什么?,Where Used,Depends On,事先还是事后?,自动化修改?,典型的项目组织架构,项目经理,首席业务分析师,ETL,组,组长;设计师、软件工程师,项目,管理组,开发组,首席架构设计师,项目经理助理,项目管理,数据仓库组,组长;设计师、软件工程师,数据展现组,组长;设计师、软件工程师,数据挖掘库组,组长;设计师、软件工程师,项目,领导小组,客户代表,公司领导,质量经理,支持组,系统组,培训组,客户代表,测试组,组长;测试工程师,项目组织架构,配置管理组,谢谢,
展开阅读全文