大数据应用实践–Vertica技术和案例分享

上传人:唐****1 文档编号:240755753 上传时间:2024-05-05 格式:PPT 页数:22 大小:7.82MB
返回 下载 相关 举报
大数据应用实践–Vertica技术和案例分享_第1页
第1页 / 共22页
大数据应用实践–Vertica技术和案例分享_第2页
第2页 / 共22页
大数据应用实践–Vertica技术和案例分享_第3页
第3页 / 共22页
点击查看更多>>
资源描述
Copyright 2012 Hewlett-Packard Development Company,L.P.The information contained herein is subject to change without notice.1惠普大数据驱动惠普大数据驱动IT新形态新形态软件集团软件集团中国惠普有限公司中国惠普有限公司 Copyright 2012 Hewlett-Packard Development Company,L.P.The information contained herein is subject to change without notice.2在信息化时代,大数据就是石油,这已成为业界的共识!大数据:基于海量、多样化的交易数据、交互数据与传感数据,通过快速获取、处理、分析等一系列手段以从中提取价值的技术、产品及服务。海量化海量化Volume多样化多样化Variety快速化快速化Velocity价值化价值化Value大数据时代到来大数据时代到来 Copyright 2012 Hewlett-Packard Development Company,L.P.The information contained herein is subject to change without notice.3大数据分析需要一个统一的解决方案大数据分析需要一个统一的解决方案一个能够分析结构化、非结构化和半结构化的完整数据分析平台捕获存储管理分析优化半结构化数据IT日志,安全日志,社交媒体等结构化数据CRM,交易,销售,市场等非结构化数据音频、视频、email、情感,威胁等100%的数据分析能够实现基于 2013 惠普研发有限合伙公司版权所有。本文中的信息可能变更,恕不另行通知。4创新的分析用例正在削减结构化、非结构化和半结构化数据量创新的分析用例正在削减结构化、非结构化和半结构化数据量各行各各行各业业都存在着大数据机会都存在着大数据机会政府电信制造医疗保健情感分析社会化客户关系管理/网络分析减缓客户流失品牌监控忠诚度和促销分析Web应用优化营销活动优化品牌管理 社交媒体数据分析价格优化内部风险评估 客户行为分析物流优化点击流量分析影响者分析IT基础设施分析法律发现设备监控企业搜索药物开发科学研究疗效分析供应链优化缺陷跟踪RFID关联保修管理广播监控防止客户流失广告优化辅助执法舆情分析流量优化横向用例横向用例资料来源:IDC:2012年“全球大数据技术和服务市场预测:2011年至2015年”;Gartner:2012年”大数据驱动基础设施快速变化,到2016年IT支出将达到2320亿美元”金融欺诈检测防洗钱风险管理能源 气象预测天然资源勘探 2013 惠普研发有限合伙公司版权所有。本文中的信息可能变更,恕不另行通知。5惠普大数据分析平台惠普大数据分析平台-HAVEn社交媒体IT图像音频视频交易移动搜索引擎邮件文本大规模分布式数据存储和处理Hadoop/HDFS流程化、索引化所有信息AutonomyIDOL实时分析超大数据集Vertica采集和利用所有机器数据Enterprise SecurityHP Software+n个个用户应用nApps文档 Copyright 2012 Hewlett-Packard Development Company,L.P.The information contained herein is subject to change without notice.6Framework to store and analyze unstructured data什么是什么是Hadoop?Hadoop Distributed File System(HDFS)Self-HealingHigh Bandwidth Clustered StorageMapReduceDistributed Computing FrameworkHadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFSApache Software Foundation 公司于 2005 年秋天引入项目,Hadoop原本来自于谷歌一款名为MapReduce的编程模型包Cloudera是一家企业软件公司,该公司在2008年开始提供基于Hadoop的软件和服务Hadoop是一个开源的,用于分析非结构化数据分析软件平台 Hadoop是可靠、高效和可伸缩的 Copyright 2012 Hewlett-Packard Development Company,L.P.The information contained herein is subject to change without notice.7强有力的数据管理与分析,集成的解决方案HP大数据核心大数据核心产品品处理非结构化和“人类”信息数据,无比强大的理解能力AutonomyIDOL极速高扩展性的实时分析Vertica收集、存户和分析机器数据管理超大规模的分布式数据Hadoop/HDFSArcSightLogger Copyright 2012 Hewlett-Packard Development Company,L.P.The information contained herein is subject to change without notice.8技术支持和咨询服务HP Hadoop solutions用用户界面界面SQL兼容分析数据数据处理理HP AppSystem for Apache Hadoop HP Hadoop Reference Architectures语义分析数据分析数据分析日志机器生成数据结构构化化Connectors数据源数据源ERP,CRM社交媒体电子邮件通话记录视频音频Hadoop ApplicationsVerticaAutonomy业务用户Source:HP.com非非结构构化化完备的大数据分析平台完备的大数据分析平台 Copyright 2012 Hewlett-Packard Development Company,L.P.The information contained herein is subject to change without notice.9结构化数据过去2个月每周超过5次电话掉线的客户在数据库中通过CRM和CDR的查询得到匹配的客户在非结构化数据源中查询到所有来自电话、聊天、email等工具的客户抱怨非结构化数据QA过去3个月中表达过抱怨的客户VerticaVerticaVertica大数据支撑的智能客服典型案例典型案例 Copyright 2012 Hewlett-Packard Development Company,L.P.The information contained herein is subject to change without notice.10常见数据库的定位常见数据库的定位数据量高低传统OLTP系统作业类型单行数据实时性高低批量混合型场景传统数据仓库大数据分析DPF Copyright 2012 Hewlett-Packard Development Company,L.P.The information contained herein is subject to change without notice.11业界最优秀的业界最优秀的MPP列式数据仓库列式数据仓库:HP Vertica-出自数据之父的出自数据之父的Stonebraker-数据库先驱:MichaelMichaelStonebrakerVerticaCo-Founder伯克利加州分校19712000Ingres,1973年,第一个关系数据库,最早运行于DECUnix,80年代,以BSD许可免费发行,应用发展迅速,2005年成立独立公司,其中项目成员RobertEpstein基于Ingres的代码开发了Sybase,随后,Sybase代码作为MicrosoftSQLServer基础.Postgres,80年代Ingres之后,BSD-like许可,支持面向objectrelationalprogrammingmodel,支持optimizer,querylanguage,runtime,andindexingframeworks,从PostgreSQL发展过来的数据库产品有EnterpriseDB,andGreenplum.也包括Illustra,后被Informix收购。MIT2000VERTICA,分布式MPP列式数据库SCIDB,2008,用于科学研究计算 Copyright 2012 Hewlett-Packard Development Company,L.P.The information contained herein is subject to change without notice.12高速、可扩展、开放与低成本高速、可扩展、开放与低成本Vertica 专为大数据架构的实时分析平台专为大数据架构的实时分析平台新一代自动优化和管理工具真正的列式数据库原生支持高可用并能更好地优化性能无共享MPP架构列式存储和计算主动压缩并行装载和查询弹性集群高可用实时分析融合存储SQL标准高级分析用户自定义分析扩展半结构化数据快速探索HADOOP无缝集成X86工业化标准服务器快速快速50 x 1000 x性能提升性能提升高高可可扩展展(Scalability)TBs10PBs间在在线扩展展简单(Simplicity)高高压缩率率压缩率一般率一般为10:1,节约90%的存的存储空空间 Copyright 2012 Hewlett-Packard Development Company,L.P.The information contained herein is subject to change without notice.13Vertica硬件参考配置硬件参考配置服务器DL380pGen8基本配置最少3个节点,提供12TB的可用容量可按4TB/node扩展至任意数量高级配置最少3节点,提供30TB的可用容量可按10TB/node扩展至任意数量万兆/千兆网以太网络50TB30TB20TB10TB根据裸数据量规划高级配置高可用最小配置基本配置高可用最小配置2xIntelXeonE5-2670/2680/2690128GB Memory2x300Gb10KSASforOS/VerticaApp14 x 600GB 10KSASfordata2xIntelXeonE5-2670/2680/2690128GBMemory2x300Gb10KSASforOS/VerticaApp22 x 900GB 10KSASfordata Copyright 2012 Hewlett-Packard Development Company,L.P.The information contained herein is subject to change without notice.14HP ConvergedSystem 300 for Vertica主要配置42urack-BW904AShockIntelligentRack(1)Networkswitches-HP5900AF-48XGT(2)Managementnodes-HPProLiantDL360pGen8servers(2)w/Vertica7MC&HPCMUVerticaServernodes-HPProLiantDL380pGen8servers(4,8,12or16)w/RedHatLinux6&HPVertica7每台数据库节点配置2xIntelXeonE5-2690v2(3.0GHz/10cores)8x16GB2Rx4PC31x2GBraidcontroller2x300Gb10KSASforOS/VerticaApp23x600GB10KSASfordata1xEthernet10Gb2P561FLR-TFIOAdptr按需动态扩展软硬件服务一体机 Copyright 2012 Hewlett-Packard Development Company,L.P.The information contained herein is subject to change without notice.15全球最大社交网络平台?全球最大社交网络平台?25亿内容分享内容分享3亿照片照片新增数据新增数据提供超过600节点以上的分析集群支持10-100PB详细数据的分析能力实现精确的营收分析,用户行为分析和广告效率分析月度活月度活跃用用户人数人数11.5亿“赞”27亿500TB Copyright 2012 Hewlett-Packard Development Company,L.P.The information contained herein is subject to change without notice.16HadoopFacebook系统架构系统架构Wormhole(State)高速流消息队列Logger(Events)PumaHBASE流处理平台Giraph用户关系分析EDWScuba内存实时分析关系型数据源其它 Copyright 2012 Hewlett-Packard Development Company,L.P.The information contained herein is subject to change without notice.17为什么为什么Facebook选择选择MPP日益增长的分析需求Map/Reduce(Hive)太慢,而且大多数分析需求安全性无法保证In-memory技术太贵而且不成熟Oracle的DW速度还行,但容量太小当前大小:100TB,不到Hive的0.1%需要3-5PB才能满足要求需要一个大型的MPP数据库有更多分析的功能能保证数据安全能提供系统的稳定性能够通过深度分析数据来提升收入、产生新产品(这些在现有平台无法实现)Copyright 2012 Hewlett-Packard Development Company,L.P.The information contained herein is subject to change without notice.18业务分析的需求业务分析的需求营收分析进行时间序列分析,精细分析各产品的营销时间段的用户行为分析一年期间的用户行为变化不同终端的用户行为分析PC与移动设备广告效率分析广告过多还是不足?营收分析不同地理区与产品需求分析精准营销预测模型 Copyright 2012 Hewlett-Packard Development Company,L.P.The information contained herein is subject to change without notice.19当前项目状态(当前项目状态(2013年底)年底)PhaseA2013年9月已经完成,4个集群,200TB数据,100个节点核心收入数据核心站点合约数据Tableau整合PhaseB(B代表Big)2014年,全部硬件上线,300台/2个集群,10PB全部详细数据准实时入库,20TB/小时容灾全BI套件数据科学家(DataScience)工具(python,R)未来3年内达到20PB Copyright 2012 Hewlett-Packard Development Company,L.P.The information contained herein is subject to change without notice.20医疗创新拯救生命,节省金钱医疗创新拯救生命,节省金钱5400万用户,万用户,35亿人月的医亿人月的医疗保健数据疗保健数据客户需求不可预知,批处理客户需求不可预知,批处理队列长队列长借助借助Vertica,响应时间缩短,响应时间缩短到几分钟到几分钟/几秒,批量等待几秒,批量等待时间为时间为0现在被用于医疗保健费用、现在被用于医疗保健费用、慢性病预防、索赔欺诈检测、慢性病预防、索赔欺诈检测、非品牌药物的使用等方面的非品牌药物的使用等方面的建模建模“开始时使用一个研究项目做开始时使用一个研究项目做试验,查询结果返回得如此试验,查询结果返回得如此之快,我们还以为查询失败之快,我们还以为查询失败了呢!了呢!如今我们已将整个分析堆栈如今我们已将整个分析堆栈迁移到迁移到 Vertica!很高兴成为!很高兴成为 Vertica 用户。用户。”Doug Porter,蓝十字蓝盾协,蓝十字蓝盾协会高级副总裁兼首席信息官会高级副总裁兼首席信息官BlueCross BlueShield Association返回 Copyright 2012 Hewlett-Packard Development Company,L.P.The information contained herein is subject to change without notice.22最快的实时查询最大的数据集群更明智的决策最有价值应用分析最多的数据种类惠普大数据驱动IT新形态
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 管理文书 > 金融资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!