资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,Sybase DW/Business Intelligence,Sybase,中国有限公司,Sybase数据仓库解决方案,电信行业,议程,数据仓库解决方案概述,Sybase,数据仓库技术解决方案,数据仓库设计工具,抽取、转换、清洗和装载工具,数据存储、管理服务器,数据分析和展现工具,数据字典(元数据)的管理工具,“数据仓库是在企业管理和决策中,面向主题的,集成的, 与时间相关的,和不可修改的数据集合”,Bill Inmon,数据仓库定义,OLTP系统,财务系统,业务系统,计费系统,5-10 年,过去,详细数据,当前,详细数据,轻度,汇总数据,高度,汇总数据,数据集市,用户分析,网络资源分析,数据仓库,数据仓库/决策分析系统,网管系统,数据仓库是完全不同的数据库系统,操作(业务)系统特性,事务处理性能是第一位的,支持日常的业务,事务驱动,数据是当前的并在不断变化,存储详细数据 (每一个事件或事务),面向应用,针对快速预定义的事务优化设计,可预见的使用模式,支持办事人员或行政人员,信息(分析)系统特性,支持长远的业务战略决策,分析驱动,数据是历史的,数据是静态的,除数据刷新外,数据反映某个时间点或一段时间,数据是汇总的,面向主题,优化是针对查询而不是更新,支持管理人员和执行主管人员,DW/BI 在电信行业的应用 - How ?,立足于现有的OLTP系统,当前数据和历史数据,集中整合之后,构建一个庞大的数据仓库,面向业务分析和决策层,运用多维分析方法,充分挖掘数据中的信息,应用DW/BI的三步曲,数据抽取,数据管理,数据分析,INFORMATION,信 息,数据仓库(,Data Warehouse),是一种专为联机分析应用,和决策支持系统提供数据源的结构化的数据环境,数据仓库要解决的问题是从数据库中获取信息的问题。,信 息,INFORMATION,DW/BI 在电信行业的应用 - 小结什么是数据仓库(Data Warehouse) ?,业务系统,外部数据,财务,计费,网管,Information Access Infrastructure,通用信息访问、处理层(基础数据库),企业级数据仓库,Global Catalog,集成的信息管理,设计和元数据维护,决策支持应用,Data,Marts,Data,Marts,Data,Marts,Data,Marts,Data,Marts,Data,Marts,数据仓库的实际构造示意图,议程,数据仓库解决方案概述,Sybase,数据仓库技术解决方案,数据仓库设计工具,抽取、转换、清洗和装载工具,数据存储、管理服务器,数据分析和展现工具,数据字典(元数据)的管理工具,Sybase数据仓库相关产品的技术构成,Relational,Package,Legacy,External,source,Data,Clean,Tool,Source Data,Data,Staging,WareHouse,Admin.,Tools,Enterprise,Data,Warehouse,Data Extraction,Transformation,and load,Datamart,Datamart,Enterprise/,Central,Data,Warehouse,RDBMS,ROLAP,RDBMS,RDBMS, Star Schema,Architected,Datamarts,Central,Metadata,Data,Modeling,Tool,End-User,Tool,End-User,Tool,MDB,End-User,Tool,End-User,Tool,Local Metadata,Local Metadata,Sybase数据仓库相关产品介绍,一个集成化的产品集,集成的主要产品,Integrate,Enterprise Connect,Replication Server,PowerMart,Design,Warehouse Architect,Manage,Sybase ASIQ,Visualize,Brio,Cognos,Administer,Warehouse Control,Center,Warehouse,Control,Centre,议程,数据仓库解决方案概述,Sybase,数据仓库技术解决方案,数据仓库设计工具,抽取、转换、清洗和装载工具,数据存储、管理服务器,数据分析和展现工具,数据字典(元数据)的管理工具,设计: 成功的关键,数据库的设计对数据仓库系统的整体性能、装载和,建立索引的时间以及数据量的增长等的影响超过,任何其它方面。,数据仓库设计工具WarehouseArchitect,为数据仓库的设计提供三大功能:,多维建模,度量、维、属性,事实表,维表,维层次表,事实层次表,设计向导,聚合(Aggregation Wizard),分区(Partitioning Wizard),逆向工程数据源,优化代码生成,目标数据仓库引擎(IQ,RDBMS),OLAP,分析环境,Time identifier = Time identifier,Product identifier = Product identifier,Customer identifier = Customer identifier,Store identifier = Store identifier,Customer,Customer identifier,double,Customer name,char(30),Sales Fact,Product identifier,double,Time identifier,double,Customer identifier,double,Store identifier,double,Sales total,real,Profits,real,Store,Store identifier,double,Store name,char(50),Time,Time identifier,double,Date,timestamp,Month,char(50),Quarter,double,Year,double,Product,Product identifier,double,Product description,char(80),设计:WarehouseArchitect,议程,数据仓库解决方案概述,Sybase,数据仓库技术解决方案,数据仓库设计工具,抽取、转换、清洗和装载工具,数据存储、管理服务器,数据分析和展现工具,数据字典(元数据)的管理工具,数据抽取、转换、清洗、集成,挑战,多个、多种异构数据源,硬件,OS,RDBMS,文件,数据不规范,需要做大量的清洗和整合,转换规则复杂,繁多,繁琐的日常性工作,占80%工作量,数据质量保证,数据增量抽取,抽取工作过程化,自动化,数据抽取、转换、清洗、集成,成功的关键,支持多个、多种异构数据源,轻松方便地设计数据的清洗,转换和整合规则,日常事务性工作自动化完成,有完善的数据质量保证体系,有完备的数据增量抽取,直观,面向过程化设计;自动化的执行,开放性,可扩展性,易于实施和维护,数据抽取、转换、清洗、集成,解决的方案,手工编程实现,使用工具设计和实施,PowerMart/PowerCenter,开发环境,一系列工具用于设计、执行和维护,数据的抽取、转换和装载流程,抽取转换引擎(服务器),自动执行,集成:,PowerMart,Source,Databases,Target,Database,Designer,Server Manager,Repository Manager,Warehouse,Designer,Mapping,Designer,Transformation,Developer,Source,Analyzer,Repository,Server Engine,Sybase,Informix,Oracle,Microsoft,IBM/UDB,ODBC,DB2,SAP,PeopleSoft,VSAM,Flat Files,Web Logs,XML,IBM MQ,Gateways,Sybase,Informix,Oracle,Microsoft,ODBC,IBM/UDB,SAP BW,PeopleSoft EPM,Flat Files,Gateways,议程,数据仓库解决方案概述,Sybase,数据仓库技术解决方案,数据仓库设计工具,抽取、转换、清洗和装载工具,数据存储、管理服务器,数据分析和展现工具,数据字典(元数据)的管理工具,数据存储、管理,挑战,数据规模,查询性能,装载速度,易于管理,存取访问,成功的关键,快速,高效数据存储技术,出色的查询性能 - 特殊的索引,技术,并行查询,可伸缩性 - GB 到 TB 级,易于管理 - 方便,灵活,GUI,存取访问 - 数据随时可用,数据管理,解决的方案,通用的关系数据库系统,专门的数据仓库服务器,Sybase IQ,专门为数据仓库/数据集市设计的关系型数据库,专门针对OLAP/DSS而优化的索引和查询处理技术,Adaptive Server IQ,数据存储: Adaptive Server IQ,无处不索引(Index EVERYWHERE),数据压缩(通常达到原始数据的 70 - 75%),垂直存储技术(Vertical Partitioning),专利的Bit Wise索引技术跨越Bitmap的限制,多种索引类型:FP,LF,HNG,HG,低级数的限制从100扩充到1000,预连接的索引提供额外的显著提高性能手段(Join Index),支持任意设计模式,星型、雪花、雪暴、星座模式,普通关系模式,支持任意加载方式,文件、内部数据、外部数据库直接加载,开放的接口,计算“NY”,州,A类商店的,平均销售额,当表的记录数从几万条变为千万和上亿条时,,传统RDBMS技术面对的问题:,表扫描的性能极端低下,冗余设计代价高昂、查询读取的无效字段过多,低级数类型数据上索引的失效,普通索引,加载和空间代价,造成不能任意建造,即席查询的,SQL,顺序对性能有显著影响,数值型比较和运算,无恰当手段加速处理,传统RDBMS不适合数据仓库,IQ的特殊存储方式-垂直存储(按列存储),Sybase IQ:,数据是按列存储的,而不是按行存储,好处:,只存取查询所需的数据,数据类型是一致的,因而可以很容易被压缩,数据库易于修改和管理,Sybase IQ:,只读完成查询所 涉及到的列,计算在纽约的“A”,类商店,的平均销售额,好处:,无须使用其他的技术,Sybase IQ 就可以减少I/O 超过 90%,IQ的特殊存储方式-垂直存储(按列存储),“How many MALES are NOT INSURED in CALIFORNIA?,Gender,M,M,F,M,M,-,800 Bytes/Row,10M,ROWS,State,NYCACTMA,CA,-,RDBMS,Insured,YYN,Y,N,MYCA,MNCA,FYNY,MNCA,1,2,4,3,Gender,Insured,State,+,+,1,1,0,1,1,1,0,1,0,1,0,1,10M,Bits,10M Bits x 3 col / 8,16K Page,=,235,I/Os,800 Bytes x 10M,16K Page,=,500,000,I/Os,基本上只能使用表扫描,查询过程读取了太多的无效数据,IQ,Example: I/O 的明显减少,IQ的索引特点,索引即是数据,没有索引和数据的分别,任何一列可以建立多个索引,系统保证至少会存在一个索引(FP),索引的选择和设计主要基于:,数据的级数(离散值的个数),在查询中的使用方式,和SQL语句的顺序无关,索引的种类,Fast Projection(FP),数据压缩存储,根据数据的特点会自动使用三种方式中的一种,Low Fast (LF),Bit map 索引,High Non Group (HNG),Bit-wise 索引,High Group (HG),G-Array (包括一个改进的B-tree),FP Index normal FP,级数(取值个数) 65536,数据被压缩存储,Color,Red,Blue,Green,Red,FP Index - FFP,级数 256,内建一个1-byte的参照表,Data Values,Red,Blue,Green,Red,Color,Red,Blue,Green,1,2,3,1,1,1,2,3,3,3,2,Lookup Table,Data,LF Index,传统的 Bit Map 索引,级数小于1000,可以唯一,使用的可能性,Joins,Group by,MIN, MAX, SUM, AVG functions,Where clause predicates,Equality / Inequality, Ranges, IN lists,.,冗余设计时数据量比想象中要小得多,每一个取值都有一个相应的位,可以适应新的取值出现和行的增加,查询:,select count(*) from customers where state =AL,LF Index,HNG Index,Bit-Wise Index,数据按照二进制存储,垂直分布和处理,Sybase的专利技术,cannot be used with certain data types,使用最佳范围,range searches for high cardinality columns,运算 (sum and average functions),适合大量二进制的存储,数据垂直分片 即每一个位都可以在内部被独立操作,由于肯定存在大量的位同时为1或0,因此,IQ,在内部处理时会自动做数据压缩,HNG - High Card Bit-Wise Index,Sales in binary form,8 bit,4 bit,2 bit,1 bit,0,1,1,0,1,0,0,1,0,1,0,1,1,0,1,1,1,0,0,1,0,0,1,1,0,1,1,1,1,1,0,0,Sales in binary form,8 bit,4 bit,2 bit,1 bit,0,1,1,0,1,0,0,1,0,1,0,1,1,0,1,1,1,0,0,1,0,0,1,1,0,1,1,1,1,1,0,0,HG Index,在Bit-Wise的基础上增加一个B-Tree,并保证树在加载时不会重建,最佳使用场合:,Joins,Select Distinct, Count Distinct,Group By,DateZipStateClassSales,3/16NYA6,4/19MAA9,5/15NYB5,6/111CTA11,7/16NYB9,9/23RIB3,8/37CTA7,2/26NYA12,1 10,4 6,4 5 6,1,5,8,.,1,0,0,0,1,0,0,1,突破性的速度,闪电般的快速查询,快速装载,无限的灵活性,任何查询,任何模式,非常经济,压缩的数据存储,支持多用户查询,Sybase IQ,Adaptive Server IQ 12:专门设计的数据仓库服务器,IQ12的技术参数,Column limit,- now 16,000 per table,(up from 255 - Great for SAS & SPSS customers),Row limit,- now 281,474,976,710,700,(thats 281 Trillion Rows and change),Device size,- up to 128GB,(depending on OS),Device limit,- now 65,524,(up from 2,000),Database Size limit,- 8.4 Petabytes,Sybase IQ 真正的数据仓库,Andyne,Brio,Business,Objects,Gentia,Information,Advantage,Information,Discovery,InfoSpace,Linguistic,Technology,Teleran,Technology,Seagate,Software,Mathsoft,Any Data, Any Time, Anywhere,Cognos,Adaptive,Server,IQ,议程,数据仓库解决方案概述,Sybase,数据仓库技术解决方案,数据仓库设计工具,抽取、转换、清洗和装载工具,数据存储、管理服务器,数据分析和展现工具,数据字典(元数据)的管理工具,信息生产者,信息消费者,BrioQuery Designer,BrioQuery Explorer,BrioQuery Navigator,Brio.Insight,Brio.Quickview,Brio Enterprise Server,客户机服务器,Web/Intranet,高级用户,活跃的分析人员,报表查阅者,信息技术人员,Brio.Enterprise 6.0 产品家族,Brio Enterprise 功能服务,功能服务,BrioQuery,查询,OLAP 查询,在线分析 (OLAP),报表,EIS/脚本,制图,审核,两层安全防护,Broadcast Server,信息发布,作业调度,批处理查询/报表,事件驱动处理,报表广播,OnDemand Server,零管理客户端,Web查询,适应型报表,多层安全防护,集群服务器支持,SSL (安全套接层加密),OnDemand,Server,Web Server,BrioQuery,IQ,数据仓库,Brio.Insight,Brio.Quickview,Brio.FreeView,Broadcast,Server,Email Server,File Server,数据源-IQ数据仓库,Transformer,Impromptu,*.iqd,任何数据源(关系型、平面型,数据仓库),自动生成PowerCube,用户定义的业务规则和维度,10:1的数据压缩,图形化的浏览多维数据,完全交互式的报表探察,PowerPlay: OLAP 环境,Cognos BI,产品结构,Data,Warehouse,PC Database,Oracle,Sybase,Informix,SQL Server,ODBC Gateway,Impromptu,.DBF,.DB,.DBF, .DB, .XLS,.WKS, .CSV,Portfolio,Transformer,Authenticator,.MDC,PowerCubes,.PBB,PowerPlay,.PYH .MDL,.IQD,.PPR,.IMR,议程,数据仓库解决方案概述,Sybase,数据仓库技术解决方案,数据仓库设计工具,抽取、转换、清洗和装载工具,数据存储、管理服务器,数据分析和展现工具,数据字典(元数据)的管理工具,元数据管理:什么是元数据,提供数据对象的准确、全面、一致的定义:,什么是 “customer”的定义,其内容是什么?,提供物理数据到企业模型的映射关系,如:,“customer number” 的正确格式是什么,“product status”有哪些取值?,不同系统中相似数据的合并使用规则是什么?,提供数据源和抽取信息,提供数据项的定义和相关描述,数据的使用规则,Logical Design Tools,Corporate,Data Warehouse,Oracle, Sybase,SQL/Server, DB2/MVS,Meta Data,Data,Data Marts,Oracle, Sybase,SQL/Server,DB2/MVS,Operational/,Legacy Data,Physical Schema Import,Transformation Import,Logical Tool Import,WCC,Production,Directory,Oracle, Sybase,SQL/Server,WCC Module,Meta Data Manager Module,WCC,Working,Directory,Oracle, Sybase,SQL/Server,Legend,Meta Data Validation, Synchronization, & Promotion,元数据管理:Control Center,Sybase数据仓库相关产品的技术构成,Relational,Package,Legacy,External,source,Data,Clean,Tool,Source Data,Data,Staging,WareHouse,Admin.,Tools,Enterprise,Data,Warehouse,Data Extraction,Transformation,and load,Datamart,Datamart,Enterprise/,Central,Data,Warehouse,RDBMS,ROLAP,RDBMS,RDBMS, Star Schema,Architected,Datamarts,Central,Metadata,Data,Modeling,Tool,End-User,Tool,End-User,Tool,MDB,End-User,Tool,End-User,Tool,Local Metadata,Local Metadata,PowerMart,Sybase IQ,Sybase IQ,Cognos,PowerMart,Warehouse,Architect,WCC,Brio/BO,Sybase ASE,
展开阅读全文