资源描述
,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2015/6/15,#,2015.6.15,基于,Hadoop,的大数据处理关键技术综述,大,数据背景介绍,Content,Hadoop,定义、,特,特点,大数据对,系,系统的,需,需求、,大,大数据,和,和云计,算,算的关,系,系,大数据市,场,场分析,大数据处,理,理的技,术,术关键,1,2,Hadoop原理、,优,优点,Hadoop体系架,构,构,Hadoop核心设,计,计:MapReduce、HDFS,大数据背景介绍,1,定义,为了更,为,为经济,的,的从高,频,频率获,取,取的、大容量,的,的、不,同,同结构,和,和类型,的,的数据,中,中获取,价,价值,而设计的新一,代,代架构,和,和技术,特点,大数据,对,对系统,的,的需求,大数据,和,和云计,算,算的关,系,系,High performance 高并发,读,读写的,需,需求,高并发,、,、实时,动,动态获,取,取和更,新,新数据,Huge Storage,海量数,据,据的高,效,效率存,储,储和访,问,问的需,求,求,类似SNS网站,,海,海量用,户,户信息,的,的高效,率,率实时,存,存储和,查,查询,High Scalability &,&,& HighAvailability 高可扩,展,展性和,高,高可用,性,性的需,求,求,需要拥,有,有快速,横,横向扩,展,展能力,、,、提供7*24小时不,间,间断服,务,务,云计算,改,改变了IT,而大数,据,据则改,变,变了业,务,务,云计算,是,是大数,据,据的IT基础,大数据,须,须有云,计,计算作,为,为基础,架,架构,,才,才能高,效,效运行,通过大,数,数据的,业,业务需,求,求,为,云,云计算,的,的落地,找,找到了,实,实际应,用,用,大数据,市,市场分,析,析,2011年是中,国,国大数,据,据市场,元,元年,,一,一些大,数,数据产,品,品已经,推,推出,,部,部分行,业,业也有,大,大数据,应,应用案,例,例的产,生,生。2012年-2016年,将,迎,迎来大,数,数据市,场,场的飞,速,速发展,。,。,2012年中国,大,大数据,市,市场规,模,模达到4.7亿元,2013年大数,据,据市场,将,将迎来,增,增速为138,.,.3%的飞跃,,,,到2016年,整,个,个市场,规,规模逼,近,近百亿,。,政府、,互,互联网,、,、电信,、,、金融,的,的大数,据,据市场,规,规模较,大,大,四,个,个行业,将,将占据,一,一半市,场,场份额,。,。,由于各,个,个行业,都,都存在,大,大数据,应,应用需,求,求,潜,在,在市场,空,空间非,常,常可观,。,大数据,处,处理的,技,技术关,键,键,分析技,术,术:,数据处,理,理:自,然,然语言,处,处理技,术,术;,统计和,分,分析:,地,地域占,比,比,文,本,本情感,分,分析,A/Btest,topN排行榜,;,;,数据挖,掘,掘:建,模,模,聚,类,类,分,类,类,排,名,名;,模型预,测,测:预,测,测模型,,,,机器,学,学习,,建,建模仿,真,真。,存储技,术,术:,结构化,数,数据:,海,海量数,据,据查询,、,、统计,、,、更新,等,等操作,效,效率低,非结构,化,化数据,:,:图片,、,、视频,、,、word、pdf、ppt等文件,存,存储,,不,不利于,检,检索,,存,存储和,查,查询,半结构,化,化数据,:,:转换,为,为结构,化,化数据,或,或者按,照,照非结,构,构化存,储,储。,大数据,技,技术:,数据采,集,集:ETL工具;,数据存,取,取:关,系,系数据,库,库,NoSQL,NewSQL,等,基础架,构,构支持,:,:云存,储,储,分,布,布式文,件,件系统,等,等;,计算结,果,果展现,:,:云计,算,算,标,签,签云,,关,关系图,等,等。,解决方,案,案:,Hadoop(MapReduce技术),、,、MongoDB、流计,算,算(twitter的strom和yahoo!的S4),Hadoop,大数据,主,主要应,用,用技术Hadoop,2,Hadoop最先是,由,由Apache公司在2005年引入,的,的,起,源,源于google开发的MapReduce和GoogleFileSystem(GFS)项目,。,。,Hadoop作为新,一,一代的,架,架构和,技,技术,,因,因为有,利,利于并,行,行分布,处,处理,“,“大数,据,据”而,备,备受重,视,视。,ApacheHadoop是一个,用,用java语言实,现,现的软,件,件框架,,,,在由,大,大量计,算,算机组,成,成的集,群,群中运,行,行海量,数,数据的,分,分布式,计,计算,,它,它可以,让,让应用,程,程序支,持,持上千,个,个节点,和,和PB级别的,数,数据。Hadoop是项目,的,的总称,,,,主要,是,是由分,布,布式存,储,储(HDFS)、分,布,布式计,算,算(MapReduce)等组,成,成 。,Hadoop原理,Hadoop原理,假设系统每秒处,理,理4000个文件,处理4千万个,文,文件,=,10000秒,约为2.7小时,处理,4,千万个文件,处理,400,万个文件,处理,400,万个文件,处理,400,万个文件,切分成,十,台机器处理,约为,17,分钟,=,约为,17,分钟,=,约为,17,分钟,=,结果合并,输出,优点,可扩展:不论,是,是存储,的,的可扩,展,展还是,计,计算的,可,可扩展,都,都是Hadoop的设计,根,根本。,经济:框架,可,可以运,行,行在任,何,何普通,的,的PC上。,可靠:分布,式,式文件,系,系统的,备,备份恢,复,复机制,以,以及MapReduce的任务,监,监控保,证,证了分,布,布式处,理,理的可,靠,靠性。,高效:分布,式,式文件,系,系统的,高,高效数,据,据交互,实,实现以,及,及MapReduce结合LocalData处理的,模,模式,,为,为高效,处,处理海,量,量的信,息,息作了,基,基础准,备,备,。,不适合,存储小文件,(,(不,建,建议),大量的,随,随机读,(,(不建,议,议),对文件,的,的修改,(,(不支,持,持),应用模,式,式为:write-once-read,-,-many存取模,式,式,Hadoop体系架,构,构,MapReduce,HBase,Pig,ChuKwa,Hive,Pig是一个,基,基于Hadoop的大规,模,模数据,分,分析平,台,台,Pig为复杂,的,的海量,数,数据并,行,行计算,提,提供了,一,一个简,易,易的操,作,作和编,程,程接口,hive是基于Hadoop的一个,工,工具,,提,提供完,整,整的sql查询功,能,能,可,以,以将sql语句转,换,换为MapReduce任务进,行,行运行,Chukwa是基于Hadoop的集群,监,监控系,统,统,由yahoo贡献,ZooKeeper:高效,的,的,可,扩,扩展的,协,协调系,统,统,存储和,协,协调关,键,键共享,状,状态,HBase是一个,开,开源的,,,,基于,列,列存储,模,模型的分布式,数,数据库,MapReduce是一种,编,编程模,型,型,用,于,于大规,模,模数据,集,集(大,于,于1TB)的并,行,行运算,HDFS是一个,分,分布式,文,文件系,统,统。有,着,着高容,错,错性的,特,特点,,并,并且设,计,计用来,部,部署在,低,低廉的,硬,硬件上,,,,适合,那,那些有,着,着超大,数,数据集,的,的应用,程,程序,Zoo,Keeper,MapReduce,Map:任务,的,的分解,Reduce:结果,的,的汇总,两大核,心,心设计,HDFS,NameNode:文件,管,管理,DataNode:文件,存,存储,Client:文件,获,获取,Hadoop核心设,计,计,MapReduce,映射、,化,化简编,程,程模型(,分,分而治,之,之),1.根据输,入,入数据,的,的大小,和,和参数,的,的设置,把,把数据,分,分成splits,每个split对于一,个,个map线程。,2.Split中的数,据,据作为Map的输入,,,,Map的输出,一,一定在Map端。,3.Map的输出,到,到Reduce的输入,的,的过程(shuffle过程):,第一阶,段,段:在map端完成,内,内存-排序-写入磁,盘,盘-复制,第二阶,段,段:在reduce端完成,映,映射到reduce端分区-合并-排序,4.Reduce的输入,到,到Reduce的输出,最后排,好,好序的key,/,/value作为Reduce的输入,MapReduce是一种,编,编程模,型,型,用,于,于大规,模,模数据,集,集的并,行,行运算,。,。Map(映射,),)和Reduce(化简,),),采,用,用分而,治,治之思,想,想,先,把,把任务,分,分发到,集,集群多,个,个节点,上,上,并,行,行计算,,,,然后,再,再把计,算,算结果,合,合并,,从,从而得,到,到最终,计,计算结,果,果。多,节,节点计,算,算,所,涉,涉及的,任,任务调,度,度、负,载,载均衡,、,、容错,处,处理等,,,,都由MapReduce框架完,成,成,不,需,需要编,程,程人员,关,关心这,些,些内容,。,。,HDFS分布式,文,文件系,统,统,什么是,分,分布式,文,文件系,统,统?,分布式,文,文件系,统,统是指,文,文件系,统,统管理,的,的物理,存,存储资,源,源不一,定,定直接,在,在本地,节,节点上,,,,而是,通,通过计,算,算机网,络,络与节,点,点相连,。,。分布,式,式文件,系,系统设,计,计基于,客,客户机/服务器,模,模式,,一,一个典,型,型的网,络,络可能,包,包括多,个,个供用,户,户访问,的,的服务,器,器。用,户,户可以,在,在任意,一,一台客,户,户机上,访,访问其,他,他机器,的,的文件,系,系统。,为什么,需,需要分,布,布式文,件,件系统,?,?,高扩展,能,能力:HDFS采用元,数,数据中,心,心化管,理,理,然,后,后通过,客,客户端,暂,暂存数,据,据分布,减,减小元,数,数据的,访,访问压,力,力;,高可用,性,性:一,是,是整个,文,文件系,统,统的可,用,用性,,二,二是数,据,据的完,整,整和一,致,致性。,数,数据完,整,整性通,过,过文件,的,的镜像,和,和文件,自,自动修,复,复来解,决,决;,弹性存,储,储:可,以,以根据,业,业务需,要,要灵活,地,地增加,或,或缩减,数,数据存,储,储以及,增,增删存,储,储池中,的,的资源,,,,而不,需,需要中,断,断系统,运,运行;,HDFS分布式,文,文件系,统,统,NameNode,可以看,作,作是分,布,布式文,件,件系统,中,中的管,理,理者,,存,存储文,件,件系统,的,的meta-data,主要,负,负责管,理,理文件,系,系统的,命,命名空,间,间,集,群,群配置,信,信息,,存,存储块,的,的复制,。,。,DataNode,是文件,存,存储的,基,基本单,元,元。它,存,存储文,件,件块在,本,本地文,件,件系统,中,中,保,存,存了文,件,件块的meta-data,同时,周,周期性,的,的发送,所,所有存,在,在的文,件,件块的,报,报告给NameNode。,Client,就是需,要,要获取,分,分布式,文,文件系,统,统文件,的,的应用,程,程序。,HDFS是一个,高,高度容,错,错性的,分,分布式,文,文件系,统,统,能,提,提供高,吞,吞吐量,的,的数据,访,访问,,非,非常适,合,合大规,模,模数据,集,集上的,应,应用。,HDFS的高可,用,用性,NameNode,挂了怎么办?,系统,采用双,NameNode,节点分布管理设计方案,支持分布式的元数据服务器,支持元数据自动日志功能,实现用户数据和元数据的备份和自动恢复,当一台服务器发生宕机时,其管理功能可以有另外的服务器接管,系统可以正常运行,对外提供服务。,NameNode,NameNode,是用来管理文件系统命名空间的组件,一,个,HDFS,集群只有一台,active,的,NameNode,一,个,HDFS,集群只有一个命名空间,一个根目录,NameNode,上存放了,HDFS,的元数据,元数据,保存在,NameNode,的内存当中,以便快速查询,1G,内存大致可以存放,1,000,000,个块对应的元数据信息,按,缺省每块,64M,计算,大致对应,64T,实际数据,Datanode,一个数据块在,DataNode,以文件存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。, DataNode,启动后向,NameNode,注册,通过后,周期性(,1,小时)的向,NameNode,上报所有的块信息。,心跳是每,3,秒一次,心跳返回结果带有,NameNode,给该,DataNode,的命令如复制块数据到另一台机器,或删除某个数据块。如果超过,10,分钟没有收到某个,DataNode,的心跳,则认为该节点不可用,。,增加,DataNode,节点后?,系统,平台增加新节点之后,系统自动在所有节点之间均衡数据。系统后台根据忙闲程度,自动发起,占用很少系统资源,无需人工干预,实现数据均衡分布。,HDFS具体操,作,作,文件写,入,入:,1.Client向NameNode发起文,件,件写入,的,的请求,2.NameNode根据文,件,件大小,和,和文件,块,块配置,情,情况,,返,返回给Client它所管,理,理部分DataNode的信息,。,。,3.Client将文件,划,划分为,多,多个文,件,件块,,根,根据DataNode的地址,信,信息,,按,按顺序,写,写入到,每,每一个DataNode块中。,文件读,取,取:,1.Client向NameNode发起文,件,件读取,的,的请求,2.NameNode返回文,件,件存储,的,的DataNode的信息,。,。,3.Client读取文,件,件信息,。,。,Client1,Client2,DataNode,节点,NameNode1,NameNode2,NFS服务器,正常运,行,行状态,单点失,效,效状态,HBASE分布式数据存,储,储,HBase, HadoopDatabase,是一,个,个高可,靠,靠性、,高,高性能,、,、面向,列,列、可,伸,伸缩的,分,分布式,存,存储系,统,统;,HBase位于结,构,构化存,储,储层,HDFS为HBase提供了,高,高可靠,性,性的底,层,层存储,支,支持,MapReduce为HBase提供了,高,高性能,的,的计算,能,能力,Zookeeper为HBase提供了,稳,稳定服,务,务和failover机制;,Pig和Hive还为HBase提供了,高,高层语,言,言支持,,,,使得,在,在HBase上进行,数,数据统,计,计处理,变,变的简,单,单,。,凡是过,去,去,皆,为,为序曲,ThankYou,!,!,
展开阅读全文