大数据智能分析解决方案课件

上传人:2127513****773577... 文档编号:242495018 上传时间:2024-08-25 格式:PPTX 页数:64 大小:10.83MB
返回 下载 相关 举报
大数据智能分析解决方案课件_第1页
第1页 / 共64页
大数据智能分析解决方案课件_第2页
第2页 / 共64页
大数据智能分析解决方案课件_第3页
第3页 / 共64页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2019/7/4,#,智慧楼宇智慧安防一体化管控平台建设方案,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2019/7/4,#,智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案智慧小区云服务平台整体解决方案,大数据智能分析解决方案,大数据智能分析解决方案,1,目录,大数据与分析概述,高性能运算,Symphony,解决方案,DB2 BLU,助力高性能数据集市,大数据案例分析,目录大数据与分析概述,大数据与分析概述,大数据与分析概述,“,上个月在瑞士达沃斯举行的世界经济论坛上,大数据是一个热点话题。在论坛的一份报告大数据,大影响中声明:,数据已成为一类新的经济资产,就像货币或黄金一样,.,“,公司被数据淹没了,从客户的习惯到供应链的效率。但是许多经理却不能理解这些数据的意义,.,”,“,越来越多的企业使用大众媒体去分析公众对产品的反馈,例如Facebook或Twitter,也有使用网站资源试着“了解客户,是什么让他们选择他们想要的东西” 负责IBM预测分析项目的迪阿德瓦说。,“,大数据已抵达Seton医疗保健家庭,幸运的是,通过使用这个分析工具,每年超过200万复杂病例的患者得到了帮助,”,“,数据是新型石油,”,未开采的石油,没有什么价值。 加工及提炼后,将助力世界。,“,现在,,沃森 正投入到工作中,消化了数百万页的研究,结合最佳的临床实践和监测结果,以协助医生治疗癌症患者,.,”,奥斯卡情感测量 一种工具,是由洛杉矶时报、IBM和南加州大学安创新实验室共同开发的,分析意见,“主要针对Twitter上共享的百万条奥斯卡奖项比赛的公共信息做出的分析意见.”,“,数据是新型石油,.,”,Clive Humby,“公司被数据淹没了从客户的习惯到供应链的效率。但是许多经理,大数据来自哪里?,截至 2011 年末,网络上,有,超过,20,亿,人,现在有,300,亿,个,RFID,记(,2005,年时有,13,亿),全球有,46,亿,台照相手机,每年售出,数亿台支持,GPS,的,设备,在,2009,年有,7600,万,台智能仪表,至,2014,年将达到,2,亿台,每天有超过,3,亿,活跃用户,每天有超,过,25,TB,日志数据,每天有 超过,1,亿,条消息,大数据来自哪里? 截至 2011 年末网络上有超过 20,大数据的特点,综合分析覆盖面越来越宽的,种类,应对日益增长的,速度,有效地处理日益增长的,数量,建立大数据来源的,真实性,三分之一,商界领袖感到无法信任那些帮助他们做决策的信息,50x,35 ZB,2020,2010,300,亿,RFID,传感器和计数器,世界上,80%,的数据是非结构化的,大数据的特点综合分析覆盖面越来越宽的种类应对日益增长的速度有,大数据会影响到您业务的方方面面,了解关于您客户的一切,从渠道交互到社交媒体,通过分析所有数据来源帮助您了解您的每位客户,零延迟操作,分析所有可用的操作数据并且实时做出反应,从而优化流程。通过成本效益技术降低,IT,成本。,在速度和规模上实现新产品创新,捕获所有来源的反馈,分析庞大的市场环境,研究大量的数据,从而推动创新。,即时的欺诈和风险意识,通过分析所有可用数据来打造更好的欺诈,/,风险模型,用流数据交易分析来实时监测欺诈,利用仪表化资产,监控资产通过实时数据反馈来预测和预防维修问题,并且开发新产品和新服务。,大数据会影响到您业务的方方面面了解关于您客户的一切,大数据主要与大型数据集相关,在大数据的新世界中,我们必须更换所有陈旧系统,大数据就是,Hadoop,较为陈旧的事务数据已经不再重要,数据仓库已是昨日黄花,大数据适合熟知互联网的企业。传统业务与大数据毫无关系,我们不具备相应的需求、预算或者技能,因此我们不必为此担心,人们对于大数据的观点是怎样的,大数据主要与大型数据集相关 人们对于大数据的观点是怎样的,研究显示了实施大数据的,4,个阶段,大数据采用,当基于当前的大数据活动级别而划分为,4,个小组时,受调查者在组织行为上表现出显著的一致性,受调查者总数,n = 1061,由于舍入原因,各个比例总和不等于,100%,6,%,部署两个或更多大数据计划,继续应用高级分析,占总受调查者的百分比,执行,22,%,试点大数据计划,以验证价值和需求,占总受调查者的百分比,试点,47,%,基于业务需求和挑战开发战略和路线图,占总受调查者的百分比,探索,24,%,专注于知识收集和市场观察,占总受调查者的百分比,学习,研究显示了实施大数据的4个阶段大数据采用当基于当前的大数据活,智慧分析,数据仓库,大数据平台,加速器,流计算,数据,仓库,Hadoop,系统,信息整合与治理,应用开发,发现,系统,管理,内容管理,数据仓库,流计算,Hadoop,系统,信息整合与治理,大数据平台,系统、存储和云,业务分析,内容分析,决策管理,风险分析,绩效管理,商业智能与预测分析,大数据分析,内容分析,预测分析,决策管理,社交媒体分析,分析整合与治理,IBM,提供了全面的、整合化的大数据和分析方法,智慧分析数据仓库大数据平台加速器流计算数据 Hadoop,Hadoop,系统,管理多样化海量数据,企业级应用增强了开源,Hadoop,能力,流计算,用于分析流动的数据,能够处理分析多种数据,通过高级分析运算符来支持结构化,非结构化,视频,音频等,数据仓库,工作负载均衡的,MPP,架构,支持高性能的,OLAP,及,混合型的操作和分析负载,数据可视化,企业级搜索引擎,图形展现海量分析结果,IBM,大数据平台,Hadoop 系统IBM大数据平台,BAO,方案整体技术架构,从哪里来?,是谁?,到哪里去?,BAO方案整体技术架构从哪里来?是谁?到哪里去?,大数据解决方案出现之前传统的计算模式,数据源,数据抽取,数据仓库,场景模型,策略,/,计划,平衡计分卡,预测,/,预报,绩效分析,价值分析,数据集市,数据分析,前端展示,风险分析,企业数据仓库,数据仓库,事实表,ETL,工,具,数据管理,基于门户的,Web,页面,固定报表,多维分析,即席查询,数据集市,MOLAP,Relational,立方体管理,行业情报,ERP,HR,SCM,CRM,Statistics,外部数据,财务预算数据,员工状态,设备状态,客户信息,分析报告,ETL:,抽取、转换和加载,大数据解决方案出现之前传统的计算模式数据源数据抽取数据仓库预,数据源,数据抽取,数据仓库,场景模型,策略,/,计划,平衡计分卡,预测,/,预报,绩效分析,价值分析,数据集市,数据分析,前端展示,风险分析,企业数据仓库,数据仓库,事实表,ETL,工,具,数据管理,基于门户的,Web,页面,固定报表,多维分析,即席查询,数据集市,MOLAP,Relational,立方体管理,行业情报,ERP,HR,SCM,CRM,Statistics,外部数据,财务预算数据,员工状态,设备状态,客户信息,分析报告,ETL:,抽取、转换和加载,电商、微博、社交网站、平安城市等产生大量社交数据、日志、图片、视音频数据,.,海量数据汇总、统计耗时太长,满足不了业务部门的时效性需求;,传统计算模式遇到的困难,某些业务部门需要实时数据分析,数据一边产生,一边进行分析,以应对市场压力,数据产生速度快,数据量巨大,种类繁多,非结构化数据占了,80%,以上,数据源数据抽取数据仓库预测绩效分析价值分析数据集市数据分析前,Hadoop,并行计算模式,HDFSHadoop Distributed File System。,HDFS,为了做到可靠性(,reliability,),创建了多份数据块(,data blocks,),的复制(,replicas,),,并将它们放置在服务器群的计算节点中(,compute nodes,),,MapReduce,就可以在它们所在的节点上处理这些数据了。,MapReduce,Hadoop 并行计算模式HDFSHadoop Distr,大数据技术与传统数据处理技术的关系,超越和补充传统数据处理技术,实时,数据处理,Internet,级别,海量数据,存储与分析,传统,数据仓库,In-Motion Analytics,Data Analytics, Data Operations & Model Building,Results,Internet Scale,Database &,Warehouse,At-Rest Data Analytics,Results,Ultra Low Latency Results,InfoSphere Big Insights,传统,/,关系型 数据源,传统,/,非关系型数据源,传统,/,关系型 数据源,传统,/,非关系型数据源,大数据技术与传统数据处理技术的关系 超越和补充传统数据处理,高性能运算,Symphony,解决方案,高性能运算Symphony解决方案,大数据常见应用场景举例,影像管理(各类单据的扫描件、地图影像),非结构化,/,半结构化数据存储和分析(,XML,文件、文本日志文件),典型应用: 测绘行业系统、地图服务提供商产品、公安部、银行,/,税务票据管理、电信详单日志分析、各类终端采集数据分析,常见痛点:存储成本,/,性能,关系型数据库性能,/,功能问题。,业务,/,产品,/,服务创新,典型应用:,CDR,分析,舆情分析,,LBS,,广告精准投放,移动终端服务,/,智慧,XX,(电表数据分析、,HIS,,电子支付),精益生产、反洗钱,常见痛点:实时性、数据来源多样、数据量大,计算密集型应用,高性能计算技术非常适用,典型应用:保险精算、银行风险分析、信用卡欺诈分析,常见痛点: 实时性、多种数据源要形成统一视图,大数据常见应用场景举例影像管理(各类单据的扫描件、地图影像),大数据智能分析解决方案课件,IBM,大数据平台,优势,1,-高性能,国内运营商进行的基于,Hbase,的数据查询测试,取得,3,15,倍的性能优势,国内运营商进行的基于,Hive,的数据分析测试,取得,9,11,倍的性能优势,数据加载场景每核加载速度为,x86,核的,11.18,倍,数据分析场景每核分析速度为,x86,核的,9.63,倍,IBM大数据平台优势1-高性能国内运营商进行的基于Hbase,为什么,Symphony,更快?,Job Tracker/Task Tracker,用,C+/C,编写,资源管理和任务管理解耦,.,支持,300,并发,job trackers; 1000,并发,jobs/job tracker,SOA,架构,,共享服务,(reuse JVM across many tasks),使用,TCP,原语和二进制编码,,取代,http and text/XML,Push,protocol avoids task tracker pulling tasks and the delay caused by,pulling,interval,专利的,asynchronous persistency protocol,以保证可靠性和性能,21,Note: Hadoop Results were published by,Cloudera at Hadoop World event Dec, 2011.,Hadoop jar example.jar sleep mt 1 rt 1 m,5000 r 1,Tested on 10 hosts,为什么Symphony更快?Job Tracker/Task,IBM,大数据平台优势,2,-高可靠,从,硬件、文件系统和分布式计算框架所有层面,采用高可靠设计架构,杜绝基于开源产品的不可靠问题,Symphony,计算框架:经过接近,20,年全球成功企业应用考验的高可靠性框架,不仅本身,可靠性高,不存在单点故障,,而且通过对下层硬件资源的先进管理功能,实现物理资源与逻辑资源的解耦,实现,资源的动态加减和黑名单,等机制,彻底解决硬件故障的,透明,failover,问题,GPFS-FPO,文件系统:经过,20,多年全球无数应用验证的分布式文件系统,成熟、可靠,,GPFS-FPO,采用,去中心化设计,(元数据分散存储),,天生不存在,NameNode,的单点故障和可靠性瓶颈问题,PowerLinux,在,RAS,特性方面,全面领先,X86,平台,IBM大数据平台优势2-高可靠从硬件、文件系统和分布式计算框,IBM,大数据,平台优势,3-,好维护,IBM大数据平台优势3-好维护,IBM,大数据平台,优势,4,-高度兼容性,Symphony,和,GPFS,具有最广泛的兼容性,只要是基于,Hadoop,架构标准接口开发的软件都可以,100%,兼容,,如,Hadoop Hbase, Pig, Hive, Java MR, Oozie,等各种知名的,Hadoop,开源方案,不仅兼容开源方案,还支持各种,商业分析软件,,如,SAS,、,SPSS,、,Murex, Algorithmics, Sugard, Calypso, TillingHast,等,兼容各种,Java,、,R,、,C/C+,等,各种开发语言,,兼容,各种文件系统及数据库,,如,HDFS, GPFS-FPO,RDMBS, MPP,等,兼容,Linux,、,Windows,、,AIX,等,各种,OS,平台,,兼容,X86,、,Power,等,各种硬件平台,,支持虚拟机和物理机混合组网使用,IBM大数据平台优势4-高度兼容性Symphony和GPFS,IBM,大数据平台,优势,5,-技术支持,核心产品由,IBM,自主开发,拥有完全的技术研发与支持力量,全球,26,个研发和销售机构,,300+,的研发团队分布在北京和西安两地,强大的,QA,和服务支持团队,强大的本地售后支持力量,专业的定制化开发团队,业界公认的大型网格,/,工作负载管理的领导者,全方位的技术支持服务,评估,规划与咨询服务,建设,设计与实施服务,管理,管理与维护支持服务,IBM大数据平台优势5-技术支持核心产品由IBM自主开发,拥,IBM,大数据平台优势,6,-高效可靠文件系统,IBM大数据平台优势6-高效可靠文件系统,GPFS-FPO,替换,HDFS,,更可靠、更高效,对于需要随机,I/O,的,SQL,查询,JAQL,查询等,对于需要线性排序的,sort,操作来说,BigInsights,提供,2,至,3,倍与开源,Hadoop,技术的性能,文件索引等查找效率,17,倍于开源,Hadoop,技术,得益于,Client Cache,能力,HadoopIndexing (HDFS),DatabaseUpload (ext3),Web ServiceLayer,Copy,Fetch,HDFS:,Extra copy overhead and network fetch, separate clusters for analytics and database,Hadoop Indexing + Database Upload (GPFS),Web ServiceLayer,Cache,GPFS:,Single cluster for analytics and database, no copying required, caching for web layer,Workload Isolation,Proven data integrity,Replicated metadata services,Yahoo keeps 3 copies of 3 versions of HDFS because of unknown data integrity,1,Quantcast deletes files once HDFS is 50% full,2,1 Care and Feeding of Hadoop Clusters, Marc Nicosia, Usenix 20092 The Komos Distributed File System, Sriram Rao, Quantcast Inc.,GPFS-FPO Key technology,Locality awareness,Write Affinity,Metablocks,Pipelined replication,Distributed recovery,超过,20,年发展的成熟的企业级文件系统,vs HDFS,4,年发展历史,IBM,企业级支持的商用软件,vs HDFS,开源软件,POSIX,兼容,同时支持传统文件访问和,Hadoop,应用,vs HDFS,不兼容,POSIX,内建的安全特性和高可用性,(,集群管理节点,e.g.) vs HDFS namenode,单点,跨数据中心复制容灾,vs HDFS,无远程复制,GPFS-FPO替换HDFS,更可靠、更高效对于需要随机I/,GPFS-FPO,去,中心化设计,高性能与高可靠,GPFS-FPO去中心化设计,高性能与高可靠,可扩展的,IBM Systems,Configuration,初始配置,半机柜配置,1,st,Thru 4,th,满机柜,附加满机柜,Usable Storage,Up to 108TB,Up to 324TB,Up to 684TB per rack,Up to 720TB per rack,User space,Up to 36TB,Up to 108TB,Up to 228TB per rack,Up to 240TB per rack,可扩展得多个入门方式,从很小的规模起步逐步扩大,支持多种工作负载的灵活的,CPU,内存,存储和网络,选项,可扩展的IBM SystemsConfiguration初始,IBM PowerLinux 7R1,便捷、高效的入门级产品,可靠设计,Single socket , 2U rack,8-core 3.55GHz POWER7 processor,Up to 128 GB memory with 8/16/32 GB DIMMs,First 32 GB included in base package,高扩展性和强大虚拟化能力,Up to 24 SFF hard drives per 2U storage expansion drawer (L1S),PowerVM exploiting integrated hypervisor,8246-L1C / 8246-L1S,GA on August,Virtualization & Management,Operating Systems,Linux only POWER7,One socket, 2U rack,IBM PowerLinux 7R1 便捷、高效的入门级产,IBM PowerLinux 7R2 -,高性能、灵活配置,Operating Systems,Virtualization & Management,高系统密度,Two Socket, 2U Rack,16-cores 3.3 GHz and 3.55GHz POWER7 processor,256 GB maximum memory with 2/4/8 GB DIMMs,-,First 32GB included in 3.55GHz processor base package,- First 64GB included in 3.3GHz processor base package,Up to 20 7R2s in a single 42U rack,强大的,I/O,和硬盘扩展性,Up to 24 SFF hard drives per 2U storage expansion drawer,PCIe (Gen 1) Expansion Drawers 4U two flavors,(L2S only),高效的虚拟化能力,PowerVM exploiting integrated hypervisor,Support up to 10 VMs / core, 160 VMs / server,Linux only POWER7,Two socket, 2U rack,8246-L2C/8246-L2S,GA on June,IBM PowerLinux 7R2 -高性能、灵活配置O,IBM Storwize V7000 ,在单一系统整合了块和文件存储,自动存储分层,基于实时应用分析模式的先进的技术,可以自动在存储层之间迁移数据,新一代图形化界面(,GUI,),易于使用的数据管理图形化用户界面,拥有极其简便的“点选式”系统管理功能,性能,针对在线备份、测试和数据挖掘,支持更快和更高效的数据拷贝,Virtualized Storage System,300% Performance Improvement,Automatic migration to high-performing SSD,s,IBM Storwize V7000 在单一系统整合了块,XIV,系列为应用程序提供顶级的性能,Oracle Data Warehouse (IOPS),Oracle DHW Workload,Watch the video:,XIV Gen 3 “Straight Talk on Performance”,SAS Business Analytics Workload,Analytics reports created,XIV 系列为应用程序提供顶级的性能Oracle Data,Flash,无处不在的优化和调节是解决方案的主题,Flash,将被同时部署在整体架构的每一层,存储子系统,网络设备,PCIe,设备,Application,Server,Application,Server,Storage system,Network,Storage,based,Remote,replication,SSD,SSD,VM,VM,VM,VM,VM,VM,Ephemeral Storage,High perf, working set,Data Mover,Easy Tier Coordination,DRAM,SSD,Why,?,性能敏感的应用程序,HDD,的性能优势,Flash,超越内存的性价比优势,分离的缓存和分层的协调是至关重要的,效率,数据完整性,/,缓存一致性,DRAM,Flash无处不在的优化和调节是解决方案的主题Flash 将,DB2 BLU,助力高性能数据集市,DB2 BLU助力高性能数据集市,使用,DB2 BLU on Power,构建高效内存数据集市,DB2 BLU,是一种能极大提高,OLAP,业务性能的新技术,DB2 BLU,为,DB2,数据库添加列式存储功能,充分利用,CPU,架构的新运行时技术,直接内置在,DB2,内核中,高达,10,倍的压缩比,极大提升,OLAP,查询性能,DB2 BLU,利用,SIMD,处理指令获得更好的性能,使用DB2 BLU on Power构建高效内存数据集市 D,Cognos BI,,带有,BLU Acceleration,多平台软件,分析 数据集市,(BLU,表,),Oracle,或,Teradata,仓库的性能较差,创建表,,加载并启动,!,即时性能提高,处理,TB,级数据,无需创建和调优索引,/,聚合,多平台软件的灵活性,Cognos BI,,带有,BLU Acceleration,DB2 BLU on Power,用例,1,企业数据仓库卸载,数据集市加速,EDW,应用程序,OLAP,应用程序,轻松创建和加载,BLU Acceleration,内存中集市,Cognos BI 多平台软件分析 数据集市(BLU 表,多平台软件,分析 数据集市,(BLU,表,),ERP,或其他事务性系统,轻松创建和加载,BLU Acceleration,内存中集市,事务性数据库,DB2 BLU on Power,用例,2,分析数据集市,从事务性数据库,创建表,,加载并启动,!,即时性能提高,处理,TB,级数据,无需创建和调优索引,/,聚合,多平台软件的灵活性,业务线分析数据集市,多平台软件分析 数据集市(BLU 表)ERP 或其他事务,大数据智能分析解决方案课件,运营,只需加载数据就可以启动,像所宣称的那样易于评估和执行,BI,开发人员和,DBA -,更快地交付成果,无需配置或物理建模,无需索引或调优,-,开箱即用的性能,数据架构师,/DBA,可专注于业务价值,而不是物理设计,ETL,开发人员,无需聚合各个表,-,更简单的,ETL,逻辑,更快的加载和转换速度,业务分析师,真正的即席查询,-,无调优,无索引,针对大型数据集提出复杂的查询,DB2 BLU,七大特点之一,:简单易用,运营DB2 BLU七大特点之一 :简单易用, 2013 IBM Corporation,DB2 BLU,七大特点之二,:卓越的压缩,更少的数据存储空间,同未压缩数据比较,平均可以节省,95%,的数据存储空间,只需要存储表数据,不需要额外空间来存储索引等其它类型数据,应用了多种压缩技术,所有操作都在压缩数据上进行,针对不同数据类型应用最优的压缩算法,更多的细节参考后面的内容, 2013 IBM CorporationDB2 BLU七,42,没用,SIMD,技术的,CPU,每条指令职能处理一个数据,DB2 BLU,七大特点之三,:充分利用,CPU,的,SIMD,特性,利用,Single Instruction Multiple Data (SIMD),特性增加性能,DB2 BLU,能够在一个指令中同时对多个数据进行操作,包括比较,,Join,分组和数学计算,Compare = 2005,Compare = 2005,Compare = 2005,2001,指令,结果,数据,2002,2003,2004,2005,2005,2006,2007,2008,2009,2010,2011,2012,ProcessorCore,Compare = 2005,2001,指令,结果,数据,2002,2003,2004,2005,2006,2007,Compare = 2005,Compare = 2005,Compare = 2005,Compare = 2005,Compare = 2005,Compare = 2005,2005,ProcessorCore,42没用SIMD 技术的CPU每条指令职能处理一个数据DB2,DB2 BLU,七大特点之四,:,内核友好的并行化,更加关注于服务器的硬件设计因素,DB2,BLU,中对表的查询将自动以并行化的方式处理,将,CPU,缓存,高速缓存块(,cacheline,)的效率最大化,QUAD CORE,CPU,QUAD CORE,CPU,QUAD CORE,CPU,QUAD CORE,CPU,DB2 BLU七大特点之四 :内核友好的并行化 更加关, 2013 IBM Corporation,44,DB2 BLU,七大特点之五,:,列式存储, 2013 IBM Corporation,44, 2013 IBM Corporation,44,减少,I/O,只处理查询关注的列中的数据,直接对相关列进行运算,所有的运算,,Join,仅对关注列进行,在必须返回结果集前,数据将不会组合成行的形式,提高内存中的数据密度,列中的数据在内存和存储中始终保持着压缩的形态,卓越的压缩,提供更高的压缩比,10:1(DB2 BLU),高效的缓存,数据被组合成利于缓存和寄存器处理的格式, 2013 IBM Corporation44DB2 BL, 2013 IBM Corporation,DB2 BLU,七大特点之六,:,优化内存,/,缓存管理, 2013 IBM Corporation, 2013 IBM Corporation,全新的缓存算法使内存使用更高效,更高的内存命中率,新算法尽量保证热点数据保存在内存中,数据可以大于内存空间,不同于常见的内存数据库,数据不必完全在内存中,优化以减少内存和存储的,I/O,交互,RAM,DISKS,Near optimal caching, 2013 IBM CorporationDB2 BLU七, 2013 IBM Corporation,DB2 BLU,七大特点之七,:数据跳过, 2013 IBM Corporation,自动监测一段数据是否符合查询的忽略条件,能够节省大量的,I/O,,内存和,CPU,资源,不需要数据库管理员进行任何定义, 2013 IBM CorporationDB2 BLU七,大数据案例分析,大数据案例分析,大数据实施案例:某国外大型汽车制造企业大数据平台,大数据实施案例:某国外大型汽车制造企业大数据平台,某市智能交通项目,某市智能交通项目,50,IBM Platform Computing,支持多种不同金融应用类型,工作负载,Murex,Microsoft Excel,Sungard Front Arena, Adaptiv,Algorithmics Algo Risk,Milliman Hedge, Alfa,Polysys,Moodys / Fermat,Calypso,SAS Enterprise Miner / Data Miner,Sophis / Misys Risque,GGY Axis,Openlink,Kondor+,Revolution R,ISV,应用软件,风险估值,VaR (value at risk),信用值调整,CVA (credit value adjustments for CCR),资产负债建模,ALM (asset liability modeling),灵敏度分析,信用等级评分,抵押分析,可变年金建模,模型回溯测试,投资组合压力测试,数据的提取,转换和加载,ETL,策略提取,Strategy mining,精算分析,50IBM Platform Computing 支持多种不,在爱,Citi,分析网格,Citi ,计算和数据结合型网格系统,主要为风险分析,在一个共享的网格资源里运行着,200,以上不同的,BI,和零售分析应用,全球动态共享的,40,000,cores,能够持续维持,70%,以上的利用率,超强的管理效率,管理者与主机的比为,1:400,作业吞吐量,400,000,000,作业,/,天,14,条不同的业务线共享着全球的,HPC,资源,为每个商业业务单元确保,SLA,s,时间指标,实现广泛的资源共享,4,个数据中心包含了异构的,Linux & Windows,主机,一处在伦敦,一处在香港,还有两处在美国,处理国内增长的风险,定价应用和其他的商务应用,与,SAS, Murex,等集成,.,异构的工作内容,(,批处理, SOA,计划部署,Map Reduce),自定义服务,报表和退款,实时的监控和管理主机,所有全球资产的完全可视化,针对整个企业相关应用和风险控制的全球资源分配方案,在数据中心和功能域基础上的有关,LOBs,和应用的弹性的资源分配模式,横跨整个地域的有关,LOBs,和应用的全球资源共享视图,案例分析,花旗银行,在爱Citi分析网格Citi 计算和数据结合型网格系统,根据银监会的要求,国内商业银行需要,2015,年前满足,中国版巴塞尔协议,III,对银行业风险控制的要求,国内目前已经有多家银行使用,Algo,风险管理模块,流动性风险管理模型属于,计算密集型,,,RiskWatch,阶段占任务的,95%,以上,可以通过,Symphony,将,RW,作业并行化,随着银行业务及数据量的增加,提高计算效率只需要增加,Symphony,的计算节点数目,可扩展性强,银行业有很多计算模型都可以通过,Symphony,来解决问题,比如,MOSES, CALYPSO, RMATLAB, R Language,业务场景,Financial Risks,1.,选择感兴趣的地理区域,客户挑战:,目前基于,Algo,流动性风险分析系统风险管理应用每周运行一次,每次计算需要,100+,小时,不能满足未来应用扩展和可靠性需求,不能及时得出风险分析结果,XX,银行风险管理系统,-,业务描述,1/3,根据银监会的要求,国内商业银行需要2015年前满足中国版巴塞,Algo Engine,Sym Service,Algo Engine,Sym Service,Algo Engine,Sym Service,Algo Engine,Sym Service,Algo Engine,Sym Service,Sym Compute Hosts: 6 nodes * 32 cores = 192 cores,Sym Master,Schedule, Monitor, Management,Sym Master Candidate,Share Storage,Schedule, Monitor, Management,Schedule, Monitor, Management,Algo Engine,Sym Service,Scale out,53,Algo Batch,CITIC RW Analysis,Algo Engine,Client Request,Single Computing,“,使用了,Platform Symphony,软件,计算机资源的利用率大幅提高,,Algo,计算时间大幅缩短,达到了预期的技术指标, 且,Symphony,软件有丰富的,API,接口,易于集成其他软件,为以后的业务拓展和升级留下了巨大空间。,” -,客户证言,方案优势:,单节点情况下客户的任务需要,100+,小时完成,使用,Symphony,后业务计算,可以在,10,小时以内完成,速度提高10倍以上,;例如:晚上运行风险分析任务,次日凌晨可得到分析结果,满足业务需求,;,可靠性大大提高,单一节点故障不影响整体系统运行;,银行业务数据增加、业务计算时间要求缩短,可以通过增加,Symphony,的节点来完成,银行风险管理系统,-,方案结构,2/3,Algo EngineSym ServiceAlgo Eng,Customer Case and Pain Point,Solutions,Result,D,emo,Points,Client use Algo for the risk management.,Its based on C/S architecture running Single node.,With the business growth, the process cycle reached 100+ hours per week. Management could not get the report in the a business day.,Symphony Scal-out the Algo application from single node to 192 nodes.,Symphony acting as middleware roles get the Algo client input and schedule the task in a distributed grid. The tasks can be processed in the grid concurrently. Symphony response to Algo client once the task finished.,Show the single server process and say it can not be finished in 10 hours and stop it.,Show the similar application process with same data in Symphony Grid and finished in 10 hours.,See task progress on the GUI,See the host manager from GUI,See the CPU, I/O and show the finish time,Client can get the result in 10 hours.,The time can be controlled by adding more server in the Algo grid with business growth and process time is predicable.,Besides, Symphony acting as general middleware can scale-out application like Murex, Moses, Calypso, Matlab, R etc.,银行风险管理系统,-,案例总结,3/3,Customer Case and Pain PointSo,某市人民检察院,某市人民检察院,客户行为分析,-,业务流程说明,北京电信互联网行为标签系统,是汇聚电信用户通信、终端等上网数据,解析用户移动互联网流量行为,全角度刻画用户,为用户画像,细分客户群的分析系统,,其,输入数据为北京电信用户,DPI,上网基础数据,输出为用户行为分析统计报表。,主要功能模块,APP,数据采集:,根据目前各市场及各省手机应用下载,情况,,选择建立标准,APP,库。,站点信息采集 :,站点信息定期爬取及更新,建立标准,URL,库,用户行为解析识别:,将用户的上网访问信息与,app,库进行比对匹配,对用户日志进行处理,解析用户下载和使用应用产生的记录,分析统计输出:,根据用户的应用下载、使用行为,输出满足客户需求的各项报表,并上传数据。,客户行为分析 - 业务流程说明北京电信互联网行为标签系统,是,大数据智能分析解决方案课件,性能案例,:,(来自文献:,CloudBurst:highly sensitive read mapping with MapReduce,):,输入数据:测序数据,7.06 minllion,条,36bp reads,,人基因组,genome,(,2.87G,),软件环境:,Hadoop 0.15.3, CloudBurst,硬件环境:,12nodes, 24cores,(,3.2GHz Intel Xeon,), 250G,硬盘,测试结果:如下图,横坐标为,reads,数,纵坐标为运行时间,“,0,、,1,、,2,、,3,、,4”,为容错数。,DNA,测序分析平台:,Cloudburst,数据过滤,插入/缺失识别,基因组学,-,SNP分析流程,FastQ-Progressing,(MR),FastQC,(Single),Crossbow,(MR),CloudBurst,(MR),Soap2,(Single),Crossbow,(MR),Soapsnp,(Single),融合基因发现,结构变异发现,全基因组关联研究,BlueSNP,(MR),输入文件,用户期望和挑战:,性能案例中的数据量(,7.06 minllion,条,36bp reads,,人基因组,genome,,,2.87G,)在日常分析的数据量中算一般大小。一般对两个生物学样品进行对照分析,每个样品进行三次重复,产生,6,倍于性能案例中的数据量。而,CloudBurst,所做的,map,工作,仅为分析流程中的一步,用户希望尽快得到结果进行下一步工作,故,6,倍数据的期望运行时间为,2-3h,。,reads 比对,SNP识别,质量控制,DNA,测序,:,确定序列中碱基的排列顺序,这项工作不仅可以用于物种间的比较研究,也有助于发现特定基因的功能和性状表现,尤其对第三代遗传标志,(,单核苷酸多态性,SNP,)研究有极大的意义。基因组测序不但帮助人们探索生命起源和进化的奥秘,也会促进未来的个体化医疗、生物制药研发、农植物培养等各种致力于人类福祉的实际应用。,41h,27h,13h,CloudBurst,是第一个可以在,Hadoop,分布式框架下运行的高通量测序片段定位算法,.,性能案例:(来自文献:CloudBurst:highly s,计算节点,实时分析平台,Symphony,客户端,大数据平台,(离线分析),主节点,SSM,Symphony 计算集群,信息入库,卡口流动车辆信息,主节点,SSM,(备),1.主节点SSM读取黑名单数据以,Common Data,形式下发到各个计算节点,2.Symphony客户端读取Message后形成Task提交到集群主节点,3.主节点SSM分发接收到的Task到各个计算节点,4.计算节点运行SI获取Task内容根据黑名单进行最终的比对分析,5.计算节点将比对成功的记录发送到实时预警平台,6.计算节点将数据持久化到大数据平台,实时预警平台,(,110,布控),比对结果,计算节点,计算节点,计算节点,分布式集群上做黑名单比对,黑名单,更新黑名单,计算节点实时分析平台Symphony大数据平台主节点Symp,IBM Confidential,指纹、人脸对比系统,P7R2,P7R2,P7R2,P7R2,Sym,主节点(任务调度),内存网格(,200,G,人脸特征库),Sym,客户端,人脸样本,200T,人脸图像库,Hbase,存储,MapReduce,特征转化、加载,SOA,调度,并行对比,优势(相对传统数据库方案):,海量分布式存储,线性扩展,并行对比,快速查询,IBM Confidential指纹、人脸对比系统P7R2S,XX,银行统一考核数据平台介绍,统一考核平台数据库,核心系统,票据系统,个贷系统,.,.,.,基金系统,MDS,考核平台数据仓库,ETL,广州分行平台数据集市,南京分行平台数据集市,下发,XX,分行平台数据集市,广州分行考核流程,广州分行考核数据集市,南京分行考核数据集市,南京分行考核流程,XX,分行考核数据集市,XX,分行考核流程,绩效及报表查询,绩效及报表查询,绩效及报表查询,集中存放的全行数据仓库,数据源,分行数据集市,客户端, 2013 IBM Corporation,XX银行统一考核数据平台介绍统一考核平台数据库核心系统票据系,统一考核数据平台当前痛点,痛点,痛点:,各分行考核流程负责从分行的数据集市生成各分行考核数据集市。这个过程主要包含多表的关联操作。随着数据量大增大,流程处理的时间也越来越大。,执行时间过长,对业务考核产生影响,业务人员经常无法及时查询到自己的考核绩效。,流程由分行自行开发,总行,DBA,无法过多介入来保证性能。,针对目前平台痛点的,2,种可能优化方法:,优化现有的分行的行存储数据集市。,利用,DB2 BLU,来管理分行数据集市,分行考核流程, 2013 IBM Corporation,统一考核数据平台当前痛点痛点痛点:各分行考核流程负责从分行的,优化方案结果对比,建立额外的索引,使用,range partition,分区表,采用页压缩技术,收集统计信息,调优内存配置,方案,1,充分优化的行数据库,方案,2 DB2 BLU,DB2_WORKLOAD=ANALYTICS,建库,加载数据,运行,VS,DB2 BLU,无需繁杂的调优过程取得了,19,倍的性能提升,19 X, 2013 IBM Corporation,优化方案结果对比建立额外的索引方案1 充分优化的行数据库方案,谢谢你的观看,谢谢你的观看,64,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!