资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,学习,创造,超越,共享,*,大数据处理技术简介,1,2,3,4,大数据处理相关工具介绍,国内相关数据处理平台简介,Storm,实时计算系统简介,概念及背景介绍,大数据概念,1,、指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理的时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的咨询。,2,、,维克托,迈尔,-,舍恩伯格,以及,肯尼斯,库克耶,编写的,大数据时代,中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。,3,、海量异构的数据(包括文本、图像、声音等)。,大数据的,4V,特点,:,Volume,(大量)、,Velocity,(高速)、,Variety,(多样)、,Value,(价值),近年来,一种新的数据密集型应用已经得到了广泛的认同,这些应用的实例包括:网络监控、电信数据管理、,Web,应用、传感检测等等。在这种数据流模型中,数据以大量、快速、时变(可能是不可预知)的数据流持续到达,如何对海量瞬时流动数据建模并处理,产生了一些新的基础性研究问题。,大数据处理技术的应用,大数据应用情景,一(,B2C,、,C2C,与金融):淘宝、股票等即时交易数据,截至,2011,年,11,月,淘宝,Beltles,平台单日最大服务调用量,19,亿,。,今年淘宝双,11 QPS:,32,万,/,分钟,2012-01-14,报道,铁道部,12306,网站连续,5,天,日均点击数超过,10,亿次,,高峰时超过,14.09,亿次,,导致系统近乎崩溃或瘫痪。,2009,年四月统计:上证交易所新一代交易系统峰值订单处理能力约,80000,笔,/,秒,,平均订单时延比现用交易系统,缩短,30%,以上,,系统日双边成交容量不低于,1.2,亿笔,/,日,相当于单市场,1.2,万亿的日成交规模。,大数据应用情景三(,社交网络):社交网络即时消息处理,每秒钟,人们发送,290,万封电子邮件。,每分钟,人们向,Youtube,上传,60,个小时的视频。,每一天,人们在,Twitter,上发消息,1.9,亿条微博。,每一天,人们在,Twitter,上发出,3.44,亿条消息。,每一天,人们在,Facebook,发出,40,亿条信息。,大数据应用情景三(物联网数据流):传感网、物联网、智慧城市,数据库,传感设备,服务器,用户端程序,实时数据流,处理平台,Internet,设备网,PDA,决策支持,PC,机,传感网、物联网源源不断产生海量数据流、数据量更大,加上能更准确、更快地收集比如位置、生活信息等数据,对在线即时处理提出了更高的要求和挑战。,大数据应用情景,四(数据流过滤):互联网带宽增长,根据中国互联网络信息中心(,CNNIC,)的“中国互联网络发展状况统计报告”调查显示,,2011,年中国的互联网基础资源继续保持快速增长,,IP,地址、域名、网站和网页等增速基本与网民增长等速或超过网民的增速,网络国际出口带宽达到,1,182,261.45Mbps,,半年增长了,7.6%,。,国内外相关研究,数据流计算的典型模式之一是不确定数据速率的数据流流入系统,,系统,处理,能力必须与数据流量大小相匹配,。,Hadoop,(,MapReduce,)框架为批处理做了高度优化,数据存储在分布式,文件,系统中,系统典型地通过调度批量任务来操作分布式文件系统静态数据。,实时计算(数据驱动),VS.,批处理计算,(任务驱动),国内外相关研究,数据流计算的典型模式之一是不确定数据速率的数据流流入系统,,系统处理,能力必须与数据流量大小相匹配,。,Hadoop,(,MapReduce,)框架为批处理做了高度优化,数据存储在分布式文件,系统中,系统典型地通过调度批量任务来操作分布式文件系统静态数据。,实时计算,(数据驱动),VS.,批处理计算(任务驱动),应用,计算模型与通信机制,数据规模,计算模型,普通集群,基于,消息,传递的分布式模型,TB,级,/,百台,MPI,云计算,基于,文件,传输的并行计算模型,PB,级,/,千台,MapReduce,数据流,实时,云计算,基于,消息(封装文件),传输的,并行计算,PB,级,/,千台,Online,MapReduce,分布式并行计算系统,流水线,+,并行、,可配置,、,可容错,、,弹性可扩展,、,全内存、,实时,在线,处理。,第一类方法,,Hadoop,改造:,1 Yingyi Bu,等在,Hadoop MapReduce,工作的基础上设计了,HaLoop,,主要克服了,Hadoop,进行迭代计算时需要设置收敛条件以及每次迭代均需要重新加载数据的缺点;,2,伯克利大学的,Tyson Condie,等对,Hadoop,进行改进,设计了,Hadoop Online Prototype(HOP),系统,支持连续查询、事件监测以及流处理等功能;,3 Facebook,在,SIGMOD 2011,上发表了利用,Hbase/Hadoop,进行实时处理数据的论文,通过一些实时性改造,力图使,hadoop,批处理计算平台也具备实时计算的能力。,4 Google,在新一代内容索引系统中放弃了,MapReduce,,替代者是尚不为人知的分布式数据处理系统,Percolator,,,Percolator,是一种增量处理平台,它能持续更新索引系统,无需从头重新处理一遍整个系统。,5 Wang Lam,等开发了类似于,Map-reduce,框架、专注于快速处理数据的,Muppet,;,第二类方法,实时云计算系统:,6 MIT,等三所高校的研究人员联合研发了第二代分布式流处理系统,Borealis,;,7 SheheryarMalik,设计了具有良好错误容忍机制的实时云计算系统;,Harmeek Singh Bedi,申请了实时云计算系统的专利;,8 Baidu Dstream,,淘宝,Beales,,,Facebook Puma,,,Twitter Storm,,,Yahoo,!,S4,9 2011,年组织了以实时云计算和虚拟化为主题的国际讨论组会,RTSOAA,(,Real-Time Cloud Computing and Virtualization,)。,10 2011,年度的,HadoopChina,大会一个热点议题就是数据流计算,在,MapReduce,计算模型风靡全球之后,,StreamProcessing,将会是下一个研究热点,无论是在工业界还是学术界。,实时计算系统的改造,1,2,3,4,大数据处理相关工具介绍,国内相关数据处理平台简介,Storm,实时计算系统简介,概念及背景介绍,Hadoop,家族,14,开源工具简介,-,批处理,Hadoop Common,:,Hadoop,体系最底层的一个模块,为,Hadoop,各子项目提供,各种工具,如:配置文件和日志操作等,。,HDFS,:是,Hadoop,的分布式存储系统,,同,Google,的,GFS,性质是一样的,。,MapReduce,:是一种编程模型,用于大规模数据集的并行,运算,。,H,ive,是基于,Hadoop,的一个,数据,仓库,工具,,提供简单的,sql,查询功能,可以将,sql,语句转换为,MapReduce,任务进行,运行,,,十分适合,数据仓库,的统计分析。,P,ig,:,Pig,最大的作用就是,对,MapReduce,算法,(,框架,),实现了一套,shell,脚本,类似我们通常熟悉的,SQL,语句,在,Pig,中称之为,Pig,Latin,。,Hbase,:,一,个分布式、可扩展的大数据存储。它提供了大数据集上随机和实时的读,/,写访问,并针对了商用服务器集群上的大型表格做出优化,上百亿行,上千万列。,它是,Google bigtable,的一个开源的实现。,Zookeeper:,它,是,一个针对大型分布式系统的可靠协调系统,,功能,包括:配置维护、名字服务、分布式同步、组服务等。,ZooKeeper,的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户,。,它是,Google,的,Chubby,一个开源的实现。,开源工具简介,-,实时计算,国外,1,:,facebook puma,国外,2,:,twitter storm,国外,3,:,yahoo!s4,Twitter,数据处理分层架构,Puma 3,系统数据处理通路,Storm,数据流处理示意图,S4,数据流处理流程,Real time,Cloud computing,Facebook,Puma,Twitter,Storm,Yahoo,!,S4,开发语言,JAVA,Clojure,JAVA,高可用机制,被动备用,上游回放,被动备用,架构,均匀架构,主从架构,主从架构,资源利用率,低,高,低,恢复时间,短,长,长,开源工具简介,-,全内存查询,Spark,是一通用并行计算框架,由,UCBerkeley,的,AMP,实验室开发。,将中间数据放到内存中,对于迭代运算效率比较高。如:机器学习(,ML,),与,hadoop,相比提供了更多种运算操作,并且通信模型也是多样的,,hadoop,仅有,Data Shuffle,。,缺点:,Spark,不适用那种异步细粒度更新状态的应用,例如,web,服务的存储或者是增量的,web,爬虫和索引。就是对于那种增量修改的应用模型,因为增量改动完了,也就不用了,不需要迭代了。,Druid,为分析而设计,-,Druid,是为,OLAP,工作流的探索性分析而构建。它支持各种,filter,、,aggregator,和查询类型,并为添加新功能提供了一个框架。,交互式查询,-,低延迟数据摄取架构允许事件在它们创建后毫秒内查询,,完全有可能在,6TB,的数据集上实现秒级查询,。,高可用性,-,支持需要一直在线的,SaaS,的实现。你的数据在系统更新时依然可用、可查询。规模的扩大和缩小不会造成数据丢失。,可伸缩,-,每天处理数十亿事件和,TB,级数据。,Druid,被,设计成,PB,级别,。,优缺点:,Druid,对于需要实时单一、海量数据流摄取产品非常适合。特别是如果你面向无停机操作时,如果你对查询查询的灵活性和原始数据访问要求,高于对速度和无停机操作,,Druid,可能,不是,很好的,解决方案。,1,2,3,4,大数据处理相关工具介绍,国内相关数据处理平台简介,Storm,实时计算系统简介,概念及背景介绍,国内相关计算平台,国内,1,:,baidu,下一代数据流系统,DStream,百度基础架构部的下一代规划中,实时计算是重要的组成部分。,实时计算系统,和,批处理计算系统,同属于云计算这个大的范畴,,相互配合使用,。批处理计算是,MapReduce,(,Hadoop,)、实时计算是,DStream,等。,DStream,的,Release 1.0,版本在,2012,年上半年发布。,DStream,依赖几个第三方系统,,Bigpipe,、,Zookeeper,和,HDFS,,分别用于数据流输入输出和操作日志的存储、分布式异常监控、用户文件存储和计算状态存储。,1,、,每天,有超过,30,亿的店铺、商品浏览记录,,10,亿在线商品数,上千万的成交、收藏和评价,数据,。,2,、,量子,统计、数据魔方和淘宝,指数,。,3,、,Hadoop,集群,:,1500,个节点,,每天有大约,40000,个作业对,1.5PB,的原始数据按照产品需求进行不同的,MapReduce,计算,。,4,、,Storm,集群,:处理实时流数据。,国内相关计算平台,国内,2,:淘,宝数据分析平台架构,数据,存储,引擎,:,MySQL,的,MyISAM,引擎,统计数据:,10TB,(分布在,20,个节点
展开阅读全文