大数据处理技术简介

上传人:ghjfj****21hg 文档编号:244006237 上传时间:2024-10-02 格式:PPTX 页数:37 大小:4.17MB
返回 下载 相关 举报
大数据处理技术简介_第1页
第1页 / 共37页
大数据处理技术简介_第2页
第2页 / 共37页
大数据处理技术简介_第3页
第3页 / 共37页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2015/11/3,#,学习,创造,超越,共享,#,学习,创造,超越,共享,#,学习,创造,超越,共享,#,学习,创造,超越,共享,#,学习,创造,超越,共享,#,学习,创造,超越,共享,#,学习,创造,超越,共享,#,学习,创造,超越,共享,#,学习,创造,超越,共享,#,学习,创造,超越,共享,#,学习,创造,超越,共享,学习,创造,超越,共享,学习,创造,超越,共享,#,#,大,数据处理技术,简介,1,2,3,4,大数据,处,处理相,关,关工具,介,介绍,国内相,关,关数据,处,处理平,台,台简介,Storm实时计,算,算系统,简,简介,概念及,背,背景介,绍,绍,大数据,概,概念,1、指的,是,是所涉,及,及的资,料,料量规,模,模巨大,到,到无法,通,通过目,前,前主流,软,软件工,具,具,在,合,合理的,时,时间内,达,达到撷,取,取、管,理,理、处,理,理并整,理,理成为,帮,帮助企,业,业经营,决,决策更,积,积极目,的,的的咨,询,询。,2、维克托迈尔-舍恩伯,格,格以及肯尼斯库克耶编写的大数据,时,时代中大数,据,据指不,用,用随机,分,分析法,(,(抽样,调,调查),这,这样的,捷,捷径,,而,而采用,所,所有数,据,据进行,分,分析处,理,理。,3、海量,异,异构的,数,数据(,包,包括文,本,本、图,像,像、声,音,音等),。,。,大数据,的,的4V特点:Volume(大量,),)、Velocity(高速,),)、Variety(多样,),)、Value(价值,),),近年来,,,,一种,新,新的数,据,据密集,型,型应用已,经,经得到了,广,广泛的,认,认同,,这,这些应,用,用的实,例,例包括,:,:网络,监,监控、,电,电信数,据,据管理,、,、Web应用、,传,传感检,测,测等等,。,。在这,种,种数据,流,流模型,中,中,数,据,据以大,量,量、快,速,速、时,变,变(可,能,能是不,可,可预知,),)的数,据,据流持,续,续到达,,,,如何,对,对海量,瞬,瞬时流,动,动数据,建,建模并,处,处理,,产,产生了,一,一些新,的,的基础,性,性研究,问,问题。,大数据处,理,理技术,的,的应用,大数据,应,应用情,景,景一(B2C、C2C与金融,),):淘,宝,宝、股,票,票等即,时,时交易,数,数据,截至2011年11月,淘,宝,宝Beltles平台单,日,日最大,服,服务调,用,用量19亿。,今年淘,宝,宝双11QPS,:,:32万/分钟,2012-01-14报道,,铁,铁道部12306网站连,续,续5天日均点,击,击数超,过,过10亿次,高峰,时,时超过14.09亿次,导致,系,系统近,乎,乎崩溃,或,或瘫痪,。,。,2009年四月,统,统计:,上,上证交,易,易所新,一,一代交,易,易系统,峰,峰值订,单,单处理,能,能力约80000笔/秒,平均,订,订单时,延,延比现,用,用交易,系,系统缩短30%以上,系统,日,日双边,成,成交容,量,量不低,于,于1.2亿笔/日,相,当,当于单,市,市场1.2万亿的,日,日成交,规,规模。,大数据,应,应用情,景,景三(社交网,络,络):,社,社交网,络,络即时,消,消息处,理,理,每秒钟,,,,人们,发,发送290万封电,子,子邮件,。,。,每分钟,,,,人们,向,向Youtube上传60个小时,的,的视频,。,。,每一天,,,,人们,在,在Twitter上发消,息,息1.9亿条微,博,博。,每一天,,,,人们,在,在Twitter上发出3.44亿条消,息,息。,每一天,,,,人们,在,在Facebook发出40亿条信,息,息。,大数据,应,应用情,景,景三(物,联,联网数,据,据流),:,:传感,网,网、物,联,联网、,智,智慧城,市,市,数据库,传感设,备,备,服务器,用户端,程,程序,实时数据流,处理平台,Internet,设备网,PDA,决策支,持,持,PC,机,传感网,、,、物联,网,网源源,不,不断产,生,生海量,数,数据流,、,、数据,量,量更大,,,,加上,能,能更准,确,确、更,快,快地收,集,集比如,位,位置、,生,生活信,息,息等数,据,据,对,在,在线即,时,时处理,提,提出了,更,更高的,要,要求和,挑,挑战。,大数据,应,应用情,景,景四(数,据,据流过,滤,滤):,互,互联网,带,带宽增,长,长,根据中,国,国互联,网,网络信,息,息中心,(,(CNNIC)的“,中,中国互,联,联网络,发,发展状,况,况统计,报,报告”,调,调查显,示,示,2011年中国,的,的互联,网,网基础,资,资源继,续,续保持,快,快速增,长,长,IP地址、,域,域名、,网,网站和,网,网页等,增,增速基,本,本与网,民,民增长,等,等速或,超,超过网,民,民的增,速,速,网,络,络国际,出,出口带,宽,宽达到1,182,261,.,.45Mbps,半年,增,增长了7.6,%,%。,国内外,相,相关研,究,究,数据流,计,计算的,典,典型模,式,式之一,是,是不确,定,定数据,速,速率的,数,数据流,流,流入系,统,统,系统处理,能力必,须,须与数,据,据流量,大,大小相,匹,匹配,。,Hadoop(MapReduce)框架,为,为批处,理,理做了,高,高度优,化,化,数,据,据存储,在,在分布,式,式文件,系统中,,,,系统,典,典型地,通,通过调,度,度批量,任,任务来,操,操作分,布,布式文,件,件系统,静,静态数,据,据。,实时计,算,算(数据,驱,驱动)VS.批处理,计,计算(任务,驱,驱动),国内外,相,相关研,究,究,数据流,计,计算的,典,典型模,式,式之一,是,是不确,定,定数据,速,速率的,数,数据流,流,流入系,统,统,系统处,理,理,能力必,须,须与数,据,据流量,大,大小相,匹,匹配,。,Hadoop(MapReduce)框架,为,为批处,理,理做了,高,高度优,化,化,数,据,据存储,在,在分布,式,式文件,系统中,,,,系统,典,典型地,通,通过调,度,度批量,任,任务来,操,操作分,布,布式文,件,件系统,静,静态数,据,据。,实时计,算,算(数据,驱,驱动)VS.批处理,计,计算(任务,驱,驱动),应用,计算模型与通信机制,数据规模,计算模型,普通集群,基于,消息,传递,的分布式模型,TB,级,/,百台,MPI,云计算,基于,文件,传输的并行计算模型,PB,级,/,千台,MapReduce,数据流,实时,云计算,基于,消息(封装文件),传输的,并行计算,PB,级,/,千台,Online,MapReduce,分布式并行计,算,算系统,流水线+并行、可配置、可容错、弹性可,扩,扩展、全内存,、,、实时在线处理。,第一类,方,方法,Hadoop改造:,1YingyiBu等在HadoopMapReduce工作的,基,基础上,设,设计了HaLoop,主要,克,克服了Hadoop进行迭,代,代计算,时,时需要,设,设置收,敛,敛条件,以,以及每,次,次迭代,均,均需要,重,重新加,载,载数据,的,的缺点,;,;,2伯克利,大,大学的TysonCondie等对Hadoop进行改,进,进,设,计,计了HadoopOnline Prototype,(,(HOP)系统,,支,支持连,续,续查询,、,、事件,监,监测以,及,及流处,理,理等功,能,能;,3Facebook在SIGMOD,2011上发表,了,了利用Hbase/Hadoop进行实,时,时处理,数,数据的,论,论文,,通,通过一,些,些实时,性,性改造,,,,力图,使,使hadoop批处理,计,计算平,台,台也具,备,备实时,计,计算的,能,能力。,4Google在新一,代,代内容,索,索引系,统,统中放,弃,弃了MapReduce,替代,者,者是尚,不,不为人,知,知的分,布,布式数,据,据处理,系,系统Percolator,Percolator是一种,增,增量处,理,理平台,,,,它能,持,持续更,新,新索引,系,系统,,无,无需从,头,头重新,处,处理一,遍,遍整个,系,系统。,5WangLam等开发,了,了类似,于,于Map,-,-reduce框架、,专,专注于,快,快速处,理,理数据,的,的Muppet;,第二类,方,方法,,实,实时云,计,计算系,统,统:,6MIT等三所,高,高校的,研,研究人,员,员联合,研,研发了,第,第二代,分,分布式,流,流处理,系,系统Borealis;,7SheheryarMalik设计了,具,具有良,好,好错误,容,容忍机,制,制的实,时,时云计,算,算系统,;,;Harmeek Singh Bedi申请了,实,实时云,计,计算系,统,统的专,利,利;,8BaiduDstream,淘,宝,宝Beales,FacebookPuma,Twitter Storm,Yahoo!S4,92011年组织,了,了以实,时,时云计,算,算和虚,拟,拟化为,主,主题的,国,国际讨,论,论组会RTSOAA(Real-TimeCloudComputing andVirtualization)。,10,2011年度的HadoopChina大会一,个,个热点,议,议题就,是,是数据,流,流计算,,,,在MapReduce计算模,型,型风靡,全,全球之,后,后,StreamProcessing将会是,下,下一个,研,研究热,点,点,无,论,论是在,工,工业界,还,还是学,术,术界。,实时计,算,算系统,的,的改造,1,2,3,4,大数据,处,处理相,关,关工具,介,介绍,国内相,关,关数据,处,处理平,台,台简介,Storm实时计,算,算系统,简,简介,概念及,背,背景介,绍,绍,Hadoop家族,14,开源工,具,具简介-批处理,HadoopCommon:Hadoop体系最,底,底层的,一,一个模,块,块,为Hadoop各子项,目,目提供各种工具,,如,如:配,置,置文件,和,和日志,操,操作等。,HDFS:是Hadoop的分布,式,式存储,系,系统,同Google的GFS性质是,一,一样的。,MapReduce:是一,种,种编程,模,模型,,用,用于大,规,规模数,据,据集的,并,并行运算。,Hive是基于Hadoop的一个数据仓库工具,提供简,单,单的sql查询功,能,能,可,以,以将sql语句转,换,换为MapReduce任务进,行,行运行,十分适,合,合数据仓,库,库的统计,分,分析。,Pig:Pig最大的,作,作用就,是,是对MapReduce算法(框架)实现了,一,一套shell脚本,,,,类似,我,我们通,常,常熟悉,的,的SQL语句,,在,在Pig中称之,为,为PigLatin。,Hbase:一个分布,式,式、可,扩,扩展的,大,大数据,存,存储。,它,它提供,了,了大数,据,据集上,随,随机和,实,实时的,读,读/写访问,,,,并针,对,对了商,用,用服务,器,器集群,上,上的大,型,型表格,做,做出优,化,化上百亿,行,行,上,千,千万列。它是Googlebigtable的一个,开,开源的,实,实现。,Zookeeper,:,:它是一个针,对,对大型,分,分布式,系,系统的,可,可靠协,调,调系统,功能包括:,配,配置维,护,护、名,字,字服务,、,、分,布,布式同,步,步、组,服,服务等,。,。ZooKeeper的目标,就,就是封,装,装好复,杂,杂易出,错,错的关,键,键服务,,,,将简,单,单易用,的,的接口,和,和性能,高,高效、,功,功能稳,定,定的系,统,统提供,给,给用户。它是Google的Chubby一个开,源,源的实,现,现。,开源工具,简,简介-实时计,算,算,国外1:facebookpuma,国外2:twitter storm,国外3:yahoo!s4,Twitter数据处,理,理分层,架,架构,Puma
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业管理 > 市场营销


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!