资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,Copyright 2012 Hewlett-Packard Development Company,L.P.The information contained herein is subject to change without notice.,*,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,2013,惠普研发有限合伙公司版权所有。本文中的信息可能变更,恕不另行通知。,*,惠,普,大数据,驱动,IT,新形态,软件集团,中国惠普有限公司,在信息化时代,大数据就是石油,这已成为业界的共识!,大,数据,:基于,海量、多样化的交易数据、交互数据与传感数据,通过快速获取、处理、分析等一系列手段以从中提取价值的技术、产品及服务,。,海量化,Volume,多样化,Variety,快速化,Velocity,价值化,Value,大数据时代到来,大数据分析需要一个统一的解决方案,一,个能够分析结构化、非结构化和半结构化的完整数据分析平台,捕获,存储,管理,分析,优化,半结构化数据,IT,日志,安全日志,社交媒体等,结构化数据,CRM,,交易,销售,市场等,非结构化数据,音频、视频、,email,、情感,威胁等,100%,的数据分析,能够实现,基于,创新的分析用例正在削减结构化、非结构化和半结构化数据量,各行各业都存在着大数据机会,政府,电信,制造,医疗保健,情感分析,社会化客户关系管理,/,网络分析,减缓客户流失,品牌监控,忠诚度和促销分析,Web,应用优化,营销活动优化,品牌管理,社交媒体数据分析,价格优化,内部风险评估,客户行为分析,物流优化,点击流量分析,影响者分析,IT,基础设施分析,法律发现,设备监控,企业搜索,药物开发,科学研究,疗效分析,供应链优化,缺陷跟踪,RFID,关联,保修管理,广播监控,防止客户流失,广告优化,辅助执法,舆情分析,流量优化,横向用例,资料来源:,IDC,:,2012,年“全球大数据技术和服务市场预测:,2011,年至,2015,年”;,Gartner,:,2012,年”大数据驱动基础设施快速变化,到,2016,年,IT,支出将达到,2320,亿美元”,金融,欺诈检测,防洗钱,风险管理,能源,气象预测,天然资源勘探,惠普大数据分析平台,-HAVEn,社交媒体,IT,图像,音频,视频,交易,移动,搜索引擎,邮件,文本,大规模,分布式,数据存储和处理,H,adoop/,HDFS,流程化、索引化所有信息,A,utonomyIDOL,实时分析,超大数据集,V,ertica,采集和利用,所有,机器数据,E,nterprise Security,HP Software+,n,个,用户应用,n,Apps,文档,Framework to store and analyze unstructured data,什么是,Hadoop?,Hadoop Distributed File System(HDFS),Self-Healing,High Bandwidth,Clustered Storage,MapReduce,Distributed Computing Framework,Hadoop,实现了一个,分布式文件系统,(,Hadoop Distributed File System),,简称,HDFS,Apache Software Foundation 公司于 2005,年秋天,引,入项目,,,Hadoop,原本来自于谷歌一款名为,MapReduce,的编程模型,包,Cloudera,是一家企业软件公司,该公司在,2008,年开始提供基于,Hadoop,的软件和服务,Hadoop,是一个开源的,用于分析非结构化数据分析软件平台,Hadoop,是可靠、高效和可伸缩的,强有力的数据管理与分析,集成的解决方案,HP,大数据核心产品,处理非结构化和“人类”信息数据,无比强大的理解能力,Autonomy,IDOL,极,速高扩展性的实时分析,Vertica,收集、存户和分析机器数据,管理超大规模的分布式数据,Hadoop/HDFS,ArcSight Logger,技术支持和咨询服务,HP Hadoop solutions,用户界面,SQL,兼容分析,数据处理,HP AppSystem for Apache Hadoop,HP,Hadoop Reference Architectures,语义分析,数据分析,日志,机器生成数据,结构化,Connectors,数据源,ERP,CRM,社交媒体,电子邮件,通话记录,视频音频,Hadoop Applications,Vertica,Autonomy,业务用户,Source:HP.com,非结构化,完备的大数据分析平台,结构化数据,过去,2,个月每周超过,5,次电话掉线的客户,在数据库中通过,CRM,和,CDR,的查询得到匹配的客户,在非结构化数据源中查询到所有来自电话、聊天、,email,等工具的客户抱怨,非结构化数据,Q,A,过去,3,个月中表达过抱怨的客户,Vertica,Vertica,Vertica,大数据支撑的智能客服,典型,案例,常见数据库的定位,数据量,高,低,传统,OLTP,系统,作业,类型,单行数,据,实时性,高,低,批量,混合型场景,传统数据仓库,大数据分析,DPF,业界最优秀的,MPP,列式数据仓库,:HP Vertica,-,出自数据之父的,Stonebraker,-,数据库先驱,:,Michael,Michael,Stone,b,raker,Vertica Co-Founder,伯克利加州分校,1971 2000,Ingres,1973,年,第一个关系数据库,最早运行于,DEC Unix,,,80,年代,以,BSD,许可免费发行,应用发展迅速,,2005,年成立独立公司,其中项目成员,Robert Epstein,基于,Ingres,的代码开发了,Sybase,随后,,Sybase,代码作为,Microsoft SQL Server,基础,.,Postgres,80,年代,Ingres,之后,,BSD-like,许可,支持面向,object relational programming model,,支持,optimizer,query language,runtime,and indexing frameworks,,从,PostgreSQL,发展过来的数据库产品有,EnterpriseDB,and Greenplum,.,也包括,Illustra,,后被,Informix,收购。,MIT 2000,VERTICA,分布式,MPP,列式数据库,SCIDB,,,2008,,用于科学研究计算,高速、可扩展、开放与低成本,Vertica,专为大数据架构的实时分析平台,新一代自动优化和管理工具,真正的列式数据库,原生支持高可用并能更好地优化性能,无共享,MPP,架构,列式存储和计算,主动压缩,并行装载和查询,弹性集群,高可用,实时分析,融合存储,SQL,标准,高级分析,用户自定义分析扩展,半结构化数据快速探索,HADOOP,无缝集成,X86,工业化标准服务器,快速,50 x 1000 x,性能提升,高可扩展,(Scalability),TBs10PBs,间在线扩展,简单,(Simplicity),高压缩率,压缩率一般为,10:1,,节约,90%,的存储空间,Vertica,硬件参考配置,服务器,DL380p Gen8,基本配置,最少,3,个节点,提供,12TB,的可用容量,可按,4TB/node,扩展至任意数量,高级配置,最少,3,节点,提供,30TB,的可用容量,可按,10TB/node,扩展至任意数量,万兆,/,千兆网以太网络,50 TB,30 TB,20TB,10 TB,根据裸数据量规划,高级配置,高可用最小配置,基本配置,高可用最小配置,2 x Intel Xeon E5-2670,/2680/2690,128GB Memory,2 x 300Gb,10K,SAS for OS/Vertica App,14 x 600GB,10K,SAS for data,2,x Intel Xeon,E5-,2670,/2680/2690,128GB Memory,2 x 300Gb 10K SAS for OS/Vertica App,22 x 900GB,10K,SAS for data,HP ConvergedSystem 300 for Vertica,主要配置,42u,rack,-BW904A Shock Intelligent Rack(1),Network,switches-HP 5900AF-48XGT(2),Management,nodes-HP ProLiant DL360p Gen8 servers(2),w,/Vertica 7 MC&HP CMU,Vertica Server nodes-HP ProLiant DL380p Gen8 servers(4,8,12 or 16),w/,RedHat Linux 6&HP Vertica 7,每台数据库节点配置,2x,Intel Xeon,E5-2690 v2(3.0GHz/10 cores),8x,16GB 2Rx4 PC3,1x 2GB raid controller,2x 300Gb 10K SAS for OS/Vertica App,23x 600GB 10K SAS for,data,1x,Ethernet,10Gb 2P 561FLR-T FIO Adptr,按需动态扩展,软硬件服务,一体,机,全球最大社交网络平台?,25,亿,内容分享,3,亿,照片,新,增数据,提供超过,600,节点,以上,的分析集,群,支持,10-100PB,详细数,据的分析能,力,实现精,确的,营收分析,,用户行为分析和广告效率分,析,月度活跃用户人,数,11.5,亿,“,赞”,27,亿,500TB,Hadoop,Facebook,系统架构,Wormhole(State),高速流消息队列,Logger(Events),Puma,HBASE,流处理平台,Giraph,用户关系分析,EDW,Scuba,内存实时分析,关系型数据源,其它,为什么,Facebook,选择,MPP,日益增长的分析需求,Map/Reduce(Hive),太慢,而且大多数分析需求安全性无法保证,In-memory,技术太贵而且不成熟,Oracle,的,DW,速,度还行,但容量太小,当前大小:,100TB,,不到,Hive,的,0.1%,需,要,3-5PB,才能满足要求,需,要一个大型的,MPP,数据库,有更多分析的功能,能保证数据安全,能提供系统的稳定性,能,够通过深度分析数据来提升收入、产生新产品(这些在现有平台无法实现),业务分析的需求,营收分析,进行时间序列分析,精细分析各产品的营销,时间段的用户行为分析,一年期间的用户行为变化,不同终端的用户行为分析,PC,与移动设备,广告效率分析,广告过多还是不足,?,营收分析,不同地理区与产品需求分析,精准营销预测模,型,当前项目状态(,2013,年底),Phase A 2013,年,9,月已经完成,,4,个集群,,200TB,数据,,10
展开阅读全文