资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,POWER,大数据解决方案介绍及案例分享,许栋,IBM Power,资深系统架构师,Agenda,Power,,为大数据而设计,Power,大数据方案介绍,应用场景和案例分享,3,现实世界中的数据量呈爆炸式增长,46,亿,移动电话用户,13,亿,RFID,标签,in 2005,30,亿,RFID,标签,by 2010,20,亿,Internet,用户,by 2011,Twitter,每天处理,7 terabytes,数据,Facebook,每天处理,10 terabytes,世界气象数据中心,220 Terabytes,网页数据,9 Petabytes,其他数据,资产市场,数据量增长,1,750%,2003-06,4,数据爆炸的时代,赢得数据才能赢得世界,数据是新的自然资源,基于数据的决策,更加复杂更加重要,数据的爆炸式增长,超出系统能力,大数据计算需要什么样的硬件平台?,OLAP,DW,BigData,SQL,NoSQL,NewSQL,RDBMS,Hadoop,Spark,批处理,交互分析,流计算,更大容量更低成本,更快的处理速度,支持多样化的计算类型,横向扩展的能力,更大更多的磁盘,更少机器更少空间和耗电,更低的造价,游戏,Map-Reduce,HPC,图像渲染,云存储,工业仿真,计算密集,消重,/,归档,风险分析,IO,密集,流计算,实时分析,/,交互分析,更快的,CPU,更多的线程并行,更大的内存容量和带宽,更大的,IO,带宽,Flash,加速,大数据处理技术的发展,对硬件提出了更高的要求,灵活的硬件配比支持从计算密集到,IO,密集多种计算类型,灵活定制硬件创新,,CPU,、,GPU,和混合计算,多种计算负载的混合调度,6,认知计算能力,持续数据加载性能,海量,IO,带宽,低延迟,极端,Flash,性能加速,网格扩展存储,私有云,公有云,Traditional IT,混合云,为,Big Data,而设计,软件定义,+,云化,开放和协作创新,Power8,基于云的实时、敏捷、高效和开放的架构,才能满足新计算时代的需求,Power8 -,迄今最快的,CPU,Power,更强大的计算能力,意味着更快的数据洞察,查询报告,预测分析,认知计算,大数据和分布式并行计算场景,仍然需要更强大的,CPU,Power8,性能对比测试,test machine,CPU,Memory(GB),Core Number,TPS,Per core performance(TPS),PK,DL 380p,E5-26502.2Ghz,64,2*6=,12,core physical box,1900,158,1,Power8282-22A,Power83.93GHz,16,dedicated,1,core LPAR,790,790,5.0x,SPECjEnterprise2010,benchmark,1.76x,core to core advantage than SPARC T5,Oracle Siebel CRM 8.1.1.x,benchmark,6.7x,core to core advantage than SPARC T5,1.76x,6.7x,Power8 ,业界最高的,8,并发超线程,Power8,更多的超线程,意味着更高的并发性,更多用户,更多活动作业,SMT8,技术允许在同一个物理,CPU,核心上同时运行,8,个独立的指令或线程,比,Power7,的,SMT4,高了一倍,是,Intel,上的超线程技术的,4,倍,可以按需在不同模式见动态转换:,SMT1 / SMT 2 / SMT4 / SMT8,Power8,更大的内存,更宽的内存带宽,更快的内容读写,意味着更适合内存计算场景和计算密集型场景,更大的内存数据库,更大的,OLAP,多维立方体,更快的内存思想性分析,更高效的实时数据分析,Power8 ,超大内存带宽,较,POWER7,内存带宽提升,2.3,倍,是,x86,的,4,倍,每处理器支持,1TB,内存,高达,192 GB/sec,内存带宽,单台,Power8,服务器最多可支持,230.4 GB /sec,内存带宽,史无前例的片上,96MB L3 cache,创新内存缓存芯片,进一步提高内存读写速度,Power8 ,更大的,I/O,带宽,更快的,I/O,读取意味着更适合数据密集型场景,更低的数据读写延迟,更高的数据读写速度,创新,I/O,协处理硬件,软件功能硬件加速,较,POWER7,内存带宽提升,2.3,倍,内置,PCIe Gen 3,支持,直接处理器集成,取代专属,GX/,桥接,低延时,Gen3 x16,带宽,(32 GB/s),PCIe Gen3,x16,x8,x16,x8,Power8 I/O,带宽测试,Power,灵活配比方案,支持更多计算类型,Small POD,Medium POD,Large POD A,Large POD B,Drive Type,2.5,”,10K RPM 1.2 TB SFF SAS,2.5,”,10K RPM 1.2 TB SFF SAS,3.5,”,7.2K RPM 4 TB LFF SAS,+,2.5,”,10K RPM 1.2 TB SFF SAS,3.5,”,7.2K RPM 4 TB LFF SAS,+,2.5,”,10K RPM 1.2 TB SFF SAS,Number of Drives,12,36,60 LFF + 12 SFF,60 LFF + 24 SFF,Available Storage,14.4 TB,43.2 TB,254.4 TB,268.8 TB,Small POD,1 P8 S822L w/ Internal Drives,Medium POD,1 P8 S822L w/ EXP24S,Large POD B,2 P8 S822L w/ 1 DCS3700,Large POD A,1 P8 S822L w/ 1 DCS3700,Power,大数据最佳实践,从计算密集型到数据密集型都有灵活的配比方案,性能、容量和成本的最佳平衡,Compute,Dense,Storage,Dense,Power8,无处不在的,RAS,处理器指令重试,备用处理器恢复,可选择动态固件更新,Chip kill,内存,ECC,二级缓存、三级缓存,带故障监控功能的服务处理器,热插拔磁盘托架,热插拔并发维护,PCIe,插槽,热插拔冗余电源和散热风扇,动态处理器重新分配,PCI,插槽上的扩展错误处理,Power8,远超,x86,的高可靠设计,Custom,Hardware,Application,POWER8,CAPP,Coherence Bus,PSL,FPGA or ASIC,可自定义的硬件应用程序加速器,特定的系统软件、中间件或用户应用程序,写入,PSL,提供的持久接口,POWER8,PCIe Gen 3,Transport for encapsulated messages,Processor Service Layer,(PSL),向应用程序提供成熟的、稳定的接口,降低,CAPP,的复杂性和工作负载,虚拟寻址,加速器可以与处理器一样直接对内存进行寻址,与处理器运行程序一样使用指针,消除操作系统和设备驱动程序的额外开销,Power8,创新,CAPI,接口,开放定制硬件加速,硬件管理的缓存一致性,使得加速器能作为正常线程参与“,Locks”,,降低,IO,通信模型中的延迟,基于,Power8 CAPI,加速接口,为大数据进行硬件创新,Agenda,Power,,为大数据而设计,Power,大数据方案介绍,应用场景和案例分享,企业级市场的大数据应用机会,Key Industry Opportunity and Trends,Telecom, Banking and Government contribute the largest incremental Big Data & Analytics market size from 2013 to 2017 in GCG,More rational than last year, not only focusing on Hadoop platform,Telecom, Banking, Govt sectors will have more demands for advanced BD&A solutions,Help customers begin their Big Data Journey,Big data as services began to emerge in the market,大数据的主要应用类型,实时性高,实时性低,简单查询,复杂分析,内存数据库,内存分析,NoSQL,实时查询,流式计算,M-R,批量分析,MPP,数据仓库,多应用混合大数据平台,海量数据存储,海量数据存储,IBM,基于,Power,的大数据方案,实时性高,实时性低,简单查询,复杂分析,内存数据库,内存分析,NoSQL,实时查询,流式计算,M-R,批量分析,MPP,数据仓库,多应用混合大数据平台,Power+CAPI+,Flash+NoSQL,Power+Stream,Power+DB2 BLU,Power+DB2 DPF,Power+GBase,Power+Hadoop,Power+SequoiaDB,Power+Symphony/GFSP+Hadoop,Spectrum Storage,Power+GPFS,The Market:,Explosive growth of new mobile, social apps requiring lightening fast response at high volume,Enabled by in-memory NoSQL, Key Value Stores like Redis,Ordered (key, value) pairs provide type of in-memory, lightening fast distributed hash table,Plays an important role in many large websites,GitHub, Amazon, Facebook, Twitter & more,The Issue: x86 memory limited by max RAM,Scale-out x86 servers limited memory size,Results in costly, complex infrastructure,Load Balancer,500GB Cache,Node,500GB Cache,Node,500GB Cache,Node,500GB Cache,Node,1U x86 server (24),512 GB memory,The POWER8 + CAPI Flash as RAM Advantage:,New FLASH as RAM for Redis in-memory apps,Provides means for large FLASH exploitation,Lower cost memory, greater workload density,Dramatically reduce costs to deliver services,Can be offered as a cloud-based service or as an on-premise solution for enterprises,24:1 serverconsolidation,3,Up to 3x lower TCA,24U,Power S822L/S812L,Ubuntu 14.10,FlashSystem 840,2TB to 40 TB Flash,4U,The Solution: POWER8 + CAPI FLASH as RAM,-,Up to 40 TB in 4U,19,Power8+CAPI+Flash,,,NoSQL,内存数据库方案,Load Balancer,500GB Cache,Node,10Gb Uplink,POWER8 Server,Flash Array w/ up,to 40TB,Differentiated NoSQL,(POWER8 + CAPI Flash),New memory tier for POWER8 server,Up to 40 TB for NoSQL based applications,Cluster solution in a box,Infrastructure Attributes,192 threads in 2U Server drawer,40 TB of memory based Flash per 2U Drawer,Shared Memory & Cache for dynamic tuning,Elimination of I/O and Network Overhead,Todays NoSQL in memory (x86),Infrastructure Requirements,Large Distributed (Scale out),Large Memory per node,Networking Bandwidth Needs,Load Balancing,Power CAPI-attached Flash model for NoSQL regains infrastructure control and reigns in the cost to deliver services.,Power8,创新,NoSQL,方案与现有,NoSQL,方案比较,10Gb Uplink,Backup Nodes,500GB Cache,Node,500GB Cache,Node,500GB Cache,Node,512GB Cache,Node,24:1,Reduction in infrastructure,2.4x,Price reduction,12x,Less Energy,12x,Less rack space,40TB,of extended memory,4U,大数据JAVA计算过程使用GPU加速,提升5倍的性能,Power8+JAVA+GPU,,大数据硬件加速方案,其他,Power8 CAPI,开放硬件创新方案,提供无限可能,Google Designed innovation server base on Power8 chip,Key-Value-Store,35x,performance per watt improvement,高性能网络加速卡减少,10x,延迟,10x,reduces lines of C code by,40x,compared to non-CAPI,250x,Faster with CAPI FPGA + POWER8 core for Monte Carlo Simulations,TMS Flash memory storage,Coherently attached,High speed & converged networking,Accelerator Switchboard,Network virtualization,Field Programmable Gate Array (FPGA)Coherently (CAPI) attached,GPU加速,高性能网卡加速,Flash加速,蒙特卡罗分析硬件加速,硬件压缩,硬件加解密 .,Power+Stream,流计算方案,23,大数据平台实时分析平台,一个处理流数据的,低延迟,平台,毫秒级,甚至微妙级端到端的延迟,一个,可高度扩展,的,用于,实时分析,的,高性能,平台,通过横向增加硬件获得近线性的处理能力扩展,高达,125,个节点扩展,一个,灵活的,、,动态的,平台,Streams,应用灵活部署,支持动态部署新的分析应用,Millions of events per second,Microsecond Latency,Traditional / Non-traditional,data sources,Real time decisions,Powerful,Analytics,Algo,Trading,Telco churn,predict,Smart,Grid,Cyber,Security,Government /,Law enforcement,ICU,Monitoring,Environment,Monitoring,Power+Stream,流计算方案,编译时,Operators,自动融合:,高效利用,CPU,,调整力度更细,分布式运行,快速的数据交换,允许自动或人工调整,良好的 扩展性,流处理语言:,可重用的,operators,快速的动态应用部署,连续的“管道”处理,灵活、高性能的数据传输,极低延迟,极高数据速率,易扩展,内置,adaptors,用户可使用熟悉的,C+,和,Java,进行扩充,使用为您带来竞争优势的数据:,几乎能处理任何数据类型,使用一些传统方式无法处理或处理成本太高,动态分析:,运行时程序拓扑的变动,创建新任务,动态数据流,Power+DB2 BLU,内存分析方案,实现10TB 数据亚秒级查询,系统,- 32,核,,10TB,的表,含,100,个列,,10,年的数据,查询:,2010,年有多少事务,SELECT COUNT(*) from MYTABLE where YEAR = 2010,结果:亚秒级,10TB,查询!每个,CPU,核心只检查相当于,8MB,的数据,Stand Alone,DB2 BLU: Ultra Fast Analytics,Power: Ultra Fast Infrastructure,Solution,Advantage,Architecture,:,Open Solution is more preferred in China customers,Technology,: Dynamic In-Memory, Actionable Compression, Parallel Vector Processing, Data Skipping, etc.,Performance,:,DB2 BLU on Power 7x better performance than SAP HANA,Price,:,DB2 BLU on Power,1/9 cost of SAP HANA,Optimized,Each Other,DB2 on Power = Fast on Fast, DB2 + Power = Excellent + Excellent,Sizing,720(8c, 128GB) 2.5-5TB,740(16c, 256GB) 5-10TB,750(32c, 512TB) 10-20TB,720(4c, 64GB) 2.5TB,38x,Average Acceleration of database queries for reporting,(vs. previous version),Power+DB2 BLU,内存分析方案,客户,查询速度提高,某大型金融服务公司,46.8,倍,某第三方软件供应商,37.4,倍,某分析软件业务公司,13.0,倍,某全球零售公司,6.1,倍,某大型欧洲银行,5.6,倍,分析查询速度,平均提高,10-25,倍,“,It was amazing to see the faster query times compared to the performance results with our row-organized tables.,The performance of four of our queries improved by over 100-fold! The best outcome was a query that finished 137x faster by using BLU Acceleration.,”,- Kent Collins, Database Solutions Architect, BNSF Railway,Power+DB2 BLU,内存分析方案,vs,传统基于磁盘的数据分析,关注点,DB2 BLU on POWER,SAP HANA,硬件平台,Power,X86,性能,7X advantage (OLAP),总体拥有成本,computing resources: 10X advantage,memory footprint: 10X advantage,storage footprint: 10X advantage,TCO: 9X advantage,数据容量,单节点,5-20TB,最佳,无需全部导入内存,最多,56TB,,需准确预估,超出可能导致严重性能问题,架构,已经验证的部署,DB2,数据库的成熟平台,支持现有平台扩展及利旧,大中华区只有少量实施案例,全新系统架构,备份与安全,对存储没有特别要求,可以利用现有各种备份和存储灾备技术,备份主要采用磁盘备份,目前还不支持大多数常用备份软件,Power+DB2 BLU,vs,SAP HANA,Power+DB2 DPF,MPP,数据仓库方案,大数据时代,,MPP,数据库仍然是不可或缺的重要部分,MPP,作为结构化数据和汇总数据的实时查询、交互分析和报表展现的重要载体,DB2 DPF,作为,MPP,的代表,具有广泛的优点,是,DW,均衡架构的最佳实现,,,CPU0,Memory,CPU1,CPU2,CPU3,DB2,Partition0,DB2,Partition1,DB2,Partition2,DB2,Partition3,CPU0,Memory,CPU1,CPU2,CPU3,DB2,Partition4,DB2,Partition5,DB2,Partition6,DB2,Partition7,CPU0,Memory,CPU1,CPU2,CPU3,DB2,Partition0,DB2,Partition1,DB2,Partition2,DB2,Partition99,.,SMP+MPP,架构的,DB2 DPFDW,垂直扩展,:,扩展操作系统资源数量以及内部的每个,DB2,分区节点的资源数量,水平扩展,:,扩展操作系统数量以及,DB2,分区节点的数量,Power+DB2 DPF,,可灵活选择硬件平台,达到性能、扩展性和价格的最佳平衡,高端方案,中端方案,低端方案,主机,高端,Power,中低端,Power,Powerlinux,数据库软件,DB2 DPF,DB2 DPF,Oracle RAC,或单机版,DB2 DPF,架构,SMP+MPP,小型,SMP+MPP,小型,SMP+Shared Disk,或小型,SMP,MPP,扩展方式,垂直扩展或水平扩展,DB2,一般垂直扩展升级为高端,POWER,方案,或可水平扩展,Oracle,可垂直升级为高端方案,很难水平扩展,水平扩展,存储,中高端存储,中低端存储,中低端存储,适用场景,超大规模主,DW,、数据集市集中库,中型数据集市、,ODS,小型数据集市,数据量,(非压缩),可超过,1 PB,,全球生产案例可达,3 PB,;国内案例:,128,节点,800TB,数十,TB,至数百,TB,数十,TB,至上百,TB,优缺点,优势:支持超大规模结构化,DW,,很好的性能和扩展能力,优势:对于适用数据量,性能好,缺点:水平扩展需要数据重分布影响生产性能;,Oracle,很难水平扩展,优势:对于适用数据量性价比好,缺点:无垂直扩展,水平扩展需数据重分布,Power+DB2 DPF,vs,一体机,序号,测试场景,测试目的,ISAS vs Exadata,1,数据加载测试,测试数据库数据加载效率,占优,2,数据压缩测试,测试数据库对数据压缩率,占优,3,大数据表查询,select count(*),测试数据库对大表的查询效率。使用全表扫描。,不占优,4,多表关联查询(,5,表、,10,表),测试数据库多表复杂关联的效率,占优,5,多表关联查询(,2,表),测试数据库多表复杂关联的效率,占优,6,宽表查询,测试数据库对宽表的汇总查询效率,占优,7,聚合函数,测试数据库对于表的聚合函数汇总效率,占优,8,数据的,distinct,去重,测试数据库,distinct,去重的效率,占优,9,复制一张表的某些字段和一部分数据,CTAS,类型操作的效率,占优,10,存储过程用例,测试生产系统常用业务组合的效率,占优,11,并发的查询用例,测试生产系统常用业务组合的效率,占优,12,多任务查询用例,测试生产系统常用业务组合的效率,占优,13,多个巨量,SQL,并发测试,测试生产系统常用业务组合的效率,占优,14,卸载数据,测试数据库自有的数据库导出工具数据导出性能,占优,15,数据的,insert,操作,测试数据库的,insert,操作效率。,占优,16,数据的删除操作,删除部分数据,测试数据库大表的删除速度,占优,17,数据的,rollback,操作,测试数据库大表的删除后,rollback,的效率,占优,18,数据的删除操作,整表删除,测试数据库大表的删除效率,,truncate table,占优,占优比例,94%,2012年在某移动客户进行的对比测试,证明Power+DB2 DPF具有超越一体机性能的能力,且性价比更高,客户可灵活设计硬件架构。,DB2 DPF,vs,其他,MPP,数据库,2013年在某移动客户进行的对比测试,DB2 DPF在几乎所有场景的性能表现均超越了其他MPP产品。,8,节点,+SSD,盘,8,节点,+,磁盘,16,节点,4,地市融合业务场景,32,Power,海量非结构化数据分析方案,HDFS,Map-Reduce/Yarn,GPFS,Symphony,HBase,Spark,物理层,平台层,工具层,Hive,Storm,BigSQL,Stream,Pig,BigSheet,SewuoiaDB,SPSS,Powerlinux,:,企业级环境的最佳选择,性能与成本最佳平衡的新一代硬件平台,标准,linux,Redhat / Suse,全面支持,更加成熟、可靠与更高性能的分布式文件系统,领先的大数据计算调度平台,多租户管理,更智能调度,更高性能、,SLA,管理,支持更多大数据计算类型,成熟的流计算和实时分析解决方案,企业级,SQL on Hadoop,方案,同样支持商业分析软件,完全支持开源大数据版本,Powerlinux,是大数据计算的理想平台,多线程,:,POWER7+,每处理器核心有,4,线程,而,Intel,的处理器只有,2,线程,高吞吐,:,POWER7+,有非常大的内存和,I/O,带宽,(,沃森成功的关键,),依赖,Java,应用,:,POWER7+,提供了高度优化的,JVM,企业用户的大数据建设方向是:资源共享的大数据中心,34,管理和运维方面的需求,共享资源,提高资源利用率,提高投资收益,资源统一调度,为每个应用弹性供给,资源统一管理,应用统一管理,用户统一管理,数据安全统一管理,统一的企业大数据中心平台,业支,网运,O,域分析,B,域分析,开发商,A,应用,1,开发商,A,应用,2,开发商,B,应用,1,开发商,C,应用,2,任务,1,任务,1,任务,3,任务,4,任务,5,任务,6,任务,7,任务,8,业务和开发的需求,统一的基础平台层,统一的数据和应用接口,便于应用开发的标准化和开放化,独立的基础平台层,便于灵活引入各种力量进行应用层的开发创新,数据和应用的共享和重用,提高开发效率,推动应用的迭代创新,其关键是实现面向多租户的任务调度和资源管理,IBM,面向多租户的大数据共享平台实现场景,IBM,多租户大数据平台技术实现框架,Platform Computing Symphony EGO (DCOS),(dynamic cluster resource management supporting diverse tenants),HDFS / GPFS / GPFS FPO,(reliable, distributed storage your choice of distributed, or fast parallel POSIX file systems),ABB application backbone,Big Insights instance, Streams, Hbase, Oozie, Native SQL apps, Mongo DB, Cassandra,Platform Symphony,Platform Symphony,SOAM, PSMR,IBM Platform Cluster Manager,(provisioning and management,of distributed environments),HPA, Big Data, Analytic,SPSS, Algo, R Big SQL, Pig, Hive, Data Explorer, .,Platform LSF,Platform LSF,Serial,Batch,MPI,Parallel,Session,oriented,HPC & Batch anywhere,R, SAS, MatLab, DataStage,Flow Management,Hypervisor,Platform Resource Scheduler,Existing Data Center Provisioning Technologies,Puppet,RPM,TPM,Kick-start,Platform PPM,Parallel SOA,Data Affinity,Parallel Recursion,Map Reduce,Platform PPM,Batch anywhere,SAS, Integration w/Autosys, Ctrl M,DAG,Platform Symphony Advanced Service Controller,YARN,API,Platform Advanced Service Controller,MR,AMR,Streams,Data Expl,Cognos,BigSQL,(online),HBase,(online),YARN,(Hadoop 2.x RM),MR Batch,Tez,Storm,ABB,Apps,IBM Symphony支持多种高性能计算,高性能分析,大数据和其它分布式框架,实际生产环境验证的多租户,共享资源框架。支持包括,Hadoop,在内的分布式负载。,Symphony,能够支持多租户,支持资源的有效共享,资源在多应用之间有效共享、调配,资源计划示例,37,IBM Symphony,提供面向多租户的资源调度,多租户间基于策略的资源共享,多应用间可配置的资源共享策略,尊重资源拥有者,可独占,支持资源分组,应用可使用多个资源组,每组配置共享策略,基于时间的共享策略,可配置资源借出、借入策略,可配置抢占策略,具有保证租户,SLA,机制,去除资源共享的业务障碍,多种负载、计算框架资源共享:可同时调度并执行,MapReduce,分析框架、,SPARK,内存计算、,Stream/Storm,流式计算、,Hbase/MPP/NoSQL,数据库、,SOA,实时计算,,R/SAS,等传统,BI,分析及,ETL,应用等,7,种类型的负载,Symphony,支持多维度精确资源管理和调度,可以为每个租户定义多维度资源调度因子,当前最多支持,4,个,(Cores, Memory, Swap, Tmp,磁盘个数等,),通过负载在每个倾斜维度的充分利用,提高增提资源利用率,Dominant Resource Fairness(DRF),算法最大化资源任务分配,Example:,假设集群包含,8 cores, 40GB memory,App1,为计算密集型,每个任务需要,4 cores, 2.5GB,App2,为内存密集型,每个任务需要,1 core, 10GB,1 core, 5GB,1 core, 5GB,1 core, 5GB,1 core, 5GB,1 core, 5GB,1 core, 5GB,1 core, 5GB,1 core, 5GB,Without MDS,(,可同时运行,3,个任务,: 1 App1, 2 App2),With MDS,(,可同时运行,4,个任务,: 1 App1, 3 App2),1 core,5GB,1 core,5GB,1 core,5GB,1 core,5GB,1 core,5GB,1 core,5GB,1 core,5GB,1 core,2.5 GB,2.5 GB,App1, Task1,App2, Task1,App2, Task2,App2, Task3,Legend,Multi-Dimensional Resource Scheduling (MDS),IBM,方案,vs,纯开源方案,相对于基于纯开源,Hadoop,修改的方案,,IBM Symphony,软件有以下特点:,三级粒度资源管理和调度能力,支持资源分组。,多样化的资源调度策略,如支持优先级、独占、按,比例,共享、点对点借还、抢占、按时间预留等。,完善的用户,/,租户定义和管理机制,。,端到端的资源,SLA,保障机制,。,对于服务器,CPU/Mem/IO,资源的细粒度精确管控能力,多维度调度资源,提高整体使用率。,基于用户的数据共享和安全隔离机制,健全的图形化监控管理用户界面,对开源版本,Hadoop,及各种新型数据工具的开放兼容能力,支持一个平台同时运行多个,Hadoop/YARN,版本及实例。,对多种,OS,和硬件平台的开放兼容和异构支持能力,Symphony,基于,c/c+,编写,经过多年优化,比纯开源,Hadoop,性能更好,Symphony,具有更高性能,作业调度使用更高效的推送方式,而非轮询方式,相对开源实现在不同的场景下有,40%-66,倍的性能提升。,具有完整的报表功能,多角度搜集、分析分布式文件系统、并行执行框架、资源、作业数据,分析平台利用情况,发现性能瓶颈。,企业级技术支持,IBM Symphony,在大数据方案中的核心价值,灵活,-,多租户环境实现资源共享,高效,-,更快速地得到计算,/,分析结果,强大,-,低延迟,高性能,高可扩展,经济,-,降低,TCO,(基础设施和管理开销),成熟,-,经过大规模生产验证的解决方案,开放,-,丰富的,API,和应用支持,整合,-,集成管理工具,支持多集群和云环境,贴心,-,强大的本地开发和技术支持团队,资源调度,C,工作负载管理,C,C,C,C,C,C,C,C,C,C,C,D,D,D,D,D,D,D,D,D,D,D,D,C,C,C,C,C,C,A,A,A,A,A,A,A,A,A,A,A,A,A,A,A,A,B,B,B,B,B,B,B,B,B,B,B,B,B,B,B,B,B,B,各种商业软件,B,自开发应用,C,大数据分析,MapReduce /,内存计算,D,快速响应,灵活扩展,经济高效,Spectrum Storage /Power+GPFS,海量数据存储中心方案,统一的企业内部存储云,云化各种存储介质,提供统一的通用存储服务,GPFS as unified data plane on top of different storage systems,Providing an unified interface for SDS control plane, with:,Unified namespace for distributed applications (the nature of GPFS as cluster filesystem),Matured enterprise storage features independent to the storage systems,NFS,Map Reduce Connector,OpenStack,Flash,Disk,Tape,POSIX,Client workstations,Users and applications,Compute Farm,GSS,CIFS,Cinder,Swift,Glance,Manila,VMware,SRM,VADP,VAAI,vSphere,Single name space,IBM Spectrum Scale,Share NothingCluster,Site A,Site,B,Site C,GPFS AFM,IBM InterCloud Store,Universal Cloud gateway connects IBM public cloud, Amazon S3, Azure and other storage providers,ICStore,Agenda,Power,,为大数据而设计,Power,大数据方案介绍,应用场景和案例分享,某运营商流计算案例,-Streams,44,网络质量实时监测,数据规模大,大于,10,万,/,秒的信令,实时洞察网络质量指标,实时分析,CDR,短频话单分析,短频话单分析并按小区,/,号段统计,切换频话单,异常话单,单通话单,掉话率分析,测试结果(,CDR/,秒),配置:,2GHz * 4,核,* 2,台服务器,单节点:,702083,两节点:,140000,按小区或号段纬度统计短频话单:,1,、占用时长小于,15,秒的通话,且同一主叫和被叫的两通通话间隔小于,20,秒重复小区切换话单,.,2,、剔除业务台号码;,3,、按照小区维度统计满足条件,1,、,2,的话单数,包含设备和业务种类多,涉及指标多,数据量大不断的增大等挑战需要有一个实时分析平台解决实时分析网络质量问题,优化网络设备提高客户满意度,某运营商数据仓库案例:,Power+DB2 DPF,128,节点的典型,shared-nothing MPP,数据仓库,数据库可用容量已超过,500TB,。,45,某运营商移动流量经营和大数据分析平台,硬件配置,:,IBM Power 70*7R1,Redhat v6.4,6 Cores, 128GB Mem,Internal Disk: 2 * 300GB, 4 * 1.2TB,EXP24s: 24 * 1.2TB SAS disk,Network Adapter: 2 x 1000Gbps, 2 x 10000Gbps,开源软件部分清单,:,Hadoop 2.3.0-cdh5.0.0,HBase 0.98.,Spark(Spark stream),HDFS 2.3.0-cdh5.0.0,某省移动企业级多租户大数据平台,30,台,7R1,单台,7R1,配置:,8core128GB,54SAS HDD,410GE+41GE,面向多租户资源,SLA,的统一平台,应用之间,用户之间的资源的共享和隔离,跨,O,域和,B,域的共享资源大数据平台,多个开发商并行开发并行运行,每日处理数据超过,50TB,资源隔离,:,应用之间的隔离,避免某些应用发生异常,抢占过多资源,资源共享,:,应用之间的资源共享,提高资源的利用率,Citi,银行,Symphony,网格计算平台,在爱,Citi,网格运行分析,Citi ,计算和数据结合型网格系统,主要为风险分析,在一个共享的网格资源里运行着,200,以上不同的,IB,和零售分析应用,全球动态共享的,40,000,cores,能够持续维持,70%,以上的利用率,超强的管理效率,管理者与主机的比为,1:400,作业吞吐量,400,000,000,作业,/,天,14,条不同的业务线共享着全球的,HPC,资源,为每个商业业务单元确保,SLA,s,时间指标,实现广泛的资源共享,4,个数据中心包含了异构的,Linux & Windows,主机,一处在伦敦,一处在香港,还有两处在美国,处理国内增长的风险,定价应用和其他的商务应用,与,SAS, Murex,等集成,.,异构的工作内容,(,批处理, SOA,计划部署,Map Reduce),自定义服务,报表和退款,实时的监控和管理主机,所有全球资产的完全可视化,针对整个企业相关应用和风险控制的全球资源分配方案,在数据中心和功能域基础上的有关,LOBs,和应用的弹性的资源分配模式,横跨整个地域的有关,LOBs,和应用的全球资源共享视图,48,Power+DB2 BLU,内存分析案例,企业,ETL,应用,DB2,BLU,加速原来,Row,数据库中需要执行,2,小时,20,分的,ETL,过程缩减到,3,分,30,秒即可完成,整体提升性能,30,倍,,硬件环境:,Power7,16Cores,;,128GB,Our BI solution is built on a Cognos/DB2,With BLU Acceleration, we have been able to reduce the time spent on pre-aggregation from one hour to two minutes. BLU Acceleration is truly amazing.,Yong Zhou, Sr. Manager of Data Warehouse & Business Intelligence Department, Taikang Life Insurance,企业数据仓库应用,承担全行报表表查询,数据供给,作为企业入门级数据仓库系统与,Row,数据库相比性能提升,15,倍。,节省,70%,的存储空间,,90%,的表压缩率达到,90%,以上,其中最大的单表,120G,压缩后为,15GB,一张,1400,万记录的表与一张,400,万记录的表做,left,join,,,3,秒内显示结果,.,*,硬件环境,: Power7,4Cores;,3,2,GB,谢 谢,演讲完毕,谢谢观看!,内容总结,POWER大数据解决方案介绍及案例分享。数据量增长1,750%, 2003-06。更加复杂更加重要。批处理交互分析流计算。灵活的硬件配比支持从计算密集到IO密集多种计算类型。较POWER7内存带宽提升2.3倍,是x86的4倍。创新内存缓存芯片,进一步提高内存读写速度。从计算密集型到数据密集型都有灵活的配比方案。Key-Value-Store。使用一些传统方式无法处理或处理成本太高。对存储没有特别要求,可以利用现有各种备份和存储灾备技术。备份主要采用磁盘备份,目前还不支持大多数常用备份软件。扩展操作系统数量以及DB2分区节点的数量。大数据表查询select count(*)。多表关联查询(5表、10表)。测试数据库自有的数据库导出工具数据导出性能。数据的删除操作整表删除。Symphony能够支持多租户,支持资源的有效共享。Hadoop 2.3.0-cdh5.0.0。Spark(Spark stream),
展开阅读全文