基于Hadoop的大数据处理关键技术综述22

资源描述

,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2015/6/15,#,2015.6.15,基于,Hadoop,的大数据处理关键技术综述,大,数据背景介绍,Content,Hadoop,定义、,特,特点,大数据对,系,系统的,需,需求、,大,大数据,和,和云计,算,算的关,系,系,大数据市,场,场分析,大数据处,理,理的技,术,术关键,1,2,Hadoop原理、,优,优点,Hadoop体系架,构,构,Hadoop核心设,计,计：MapReduce、HDFS,大数据背景介绍,1,定义,为了更,为,为经济,的,的从高,频,频率获,取,取的、大容量,的,的、不,同,同结构,和,和类型,的,的数据,中,中获取,价,价值，而设计的新一,代,代架构,和,和技术,特点,大数据,对,对系统,的,的需求,大数据,和,和云计,算,算的关,系,系,High performance 高并发,读,读写的,需,需求,高并发,、,、实时,动,动态获,取,取和更,新,新数据,Huge Storage,海量数,据,据的高,效,效率存,储,储和访,问,问的需,求,求,类似SNS网站，,海,海量用,户,户信息,的,的高效,率,率实时,存,存储和,查,查询,High Scalability &,&,& HighAvailability 高可扩,展,展性和,高,高可用,性,性的需,求,求,需要拥,有,有快速,横,横向扩,展,展能力,、,、提供7*24小时不,间,间断服,务,务,云计算,改,改变了IT,而大数,据,据则改,变,变了业,务,务,云计算,是,是大数,据,据的IT基础，大数据,须,须有云,计,计算作,为,为基础,架,架构，,才,才能高,效,效运行,通过大,数,数据的,业,业务需,求,求，为,云,云计算,的,的落地,找,找到了,实,实际应,用,用,大数据,市,市场分,析,析,2011年是中,国,国大数,据,据市场,元,元年，,一,一些大,数,数据产,品,品已经,推,推出，,部,部分行,业,业也有,大,大数据,应,应用案,例,例的产,生,生。2012年-2016年，将,迎,迎来大,数,数据市,场,场的飞,速,速发展,。,。,2012年中国,大,大数据,市,市场规,模,模达到4.7亿元，2013年大数,据,据市场,将,将迎来,增,增速为138,.,.3%的飞跃,，,，到2016年，整,个,个市场,规,规模逼,近,近百亿,。,政府、,互,互联网,、,、电信,、,、金融,的,的大数,据,据市场,规,规模较,大,大，四,个,个行业,将,将占据,一,一半市,场,场份额,。,。,由于各,个,个行业,都,都存在,大,大数据,应,应用需,求,求，潜,在,在市场,空,空间非,常,常可观,。,大数据,处,处理的,技,技术关,键,键,分析技,术,术：,数据处,理,理：自,然,然语言,处,处理技,术,术；,统计和,分,分析：,地,地域占,比,比，文,本,本情感,分,分析，A/Btest，topN排行榜,；,；,数据挖,掘,掘：建,模,模，聚,类,类，分,类,类，排,名,名；,模型预,测,测：预,测,测模型,，,，机器,学,学习，,建,建模仿,真,真。,存储技,术,术：,结构化,数,数据：,海,海量数,据,据查询,、,、统计,、,、更新,等,等操作,效,效率低,非结构,化,化数据,：,：图片,、,、视频,、,、word、pdf、ppt等文件,存,存储，,不,不利于,检,检索，,存,存储和,查,查询,半结构,化,化数据,：,：转换,为,为结构,化,化数据,或,或者按,照,照非结,构,构化存,储,储。,大数据,技,技术：,数据采,集,集：ETL工具；,数据存,取,取：关,系,系数据,库,库，NoSQL，NewSQL,等,基础架,构,构支持,：,：云存,储,储，分,布,布式文,件,件系统,等,等；,计算结,果,果展现,：,：云计,算,算，标,签,签云，,关,关系图,等,等。,解决方,案,案：,Hadoop（MapReduce技术）,、,、MongoDB、流计,算,算（twitter的strom和yahoo!的S4）,Hadoop,大数据,主,主要应,用,用技术Hadoop,2,Hadoop最先是,由,由Apache公司在2005年引入,的,的，起,源,源于google开发的MapReduce和GoogleFileSystem（GFS）项目,。,。,Hadoop作为新,一,一代的,架,架构和,技,技术，,因,因为有,利,利于并,行,行分布,处,处理,“,“大数,据,据”而,备,备受重,视,视。,ApacheHadoop是一个,用,用java语言实,现,现的软,件,件框架,，,，在由,大,大量计,算,算机组,成,成的集,群,群中运,行,行海量,数,数据的,分,分布式,计,计算，,它,它可以,让,让应用,程,程序支,持,持上千,个,个节点,和,和PB级别的,数,数据。Hadoop是项目,的,的总称,，,，主要,是,是由分,布,布式存,储,储（HDFS）、分,布,布式计,算,算（MapReduce）等组,成,成。,Hadoop原理,Hadoop原理,假设系统每秒处,理,理4000个文件,处理4千万个,文,文件,=,10000秒,约为2.7小时,处理,4,千万个文件,处理,400,万个文件,处理,400,万个文件,处理,400,万个文件,切分成,十,台机器处理,约为,17,分钟,=,约为,17,分钟,=,约为,17,分钟,=,结果合并,输出,优点,可扩展：不论,是,是存储,的,的可扩,展,展还是,计,计算的,可,可扩展,都,都是Hadoop的设计,根,根本。,经济：框架,可,可以运,行,行在任,何,何普通,的,的PC上。,可靠：分布,式,式文件,系,系统的,备,备份恢,复,复机制,以,以及MapReduce的任务,监,监控保,证,证了分,布,布式处,理,理的可,靠,靠性。,高效：分布,式,式文件,系,系统的,高,高效数,据,据交互,实,实现以,及,及MapReduce结合LocalData处理的,模,模式，,为,为高效,处,处理海,量,量的信,息,息作了,基,基础准,备,备,。,不适合,存储小文件,（,（不,建,建议）,大量的,随,随机读,（,（不建,议,议）,对文件,的,的修改,（,（不支,持,持）,应用模,式,式为：write-once-read,-,-many存取模,式,式,Hadoop体系架,构,构,MapReduce,HBase,Pig,ChuKwa,Hive,Pig是一个,基,基于Hadoop的大规,模,模数据,分,分析平,台,台，Pig为复杂,的,的海量,数,数据并,行,行计算,提,提供了,一,一个简,易,易的操,作,作和编,程,程接口,hive是基于Hadoop的一个,工,工具，,提,提供完,整,整的sql查询功,能,能，可,以,以将sql语句转,换,换为MapReduce任务进,行,行运行,Chukwa是基于Hadoop的集群,监,监控系,统,统，由yahoo贡献,ZooKeeper：高效,的,的，可,扩,扩展的,协,协调系,统,统,存储和,协,协调关,键,键共享,状,状态,HBase是一个,开,开源的,，,，基于,列,列存储,模,模型的分布式,数,数据库,MapReduce是一种,编,编程模,型,型，用,于,于大规,模,模数据,集,集（大,于,于1TB）的并,行,行运算,HDFS是一个,分,分布式,文,文件系,统,统。有,着,着高容,错,错性的,特,特点，,并,并且设,计,计用来,部,部署在,低,低廉的,硬,硬件上,，,，适合,那,那些有,着,着超大,数,数据集,的,的应用,程,程序,Zoo,Keeper,MapReduce,Map：任务,的,的分解,Reduce：结果,的,的汇总,两大核,心,心设计,HDFS,NameNode：文件,管,管理,DataNode：文件,存,存储,Client：文件,获,获取,Hadoop核心设,计,计,MapReduce,映射、,化,化简编,程,程模型（,分,分而治,之,之）,1.根据输,入,入数据,的,的大小,和,和参数,的,的设置,把,把数据,分,分成splits,每个split对于一,个,个map线程。,2.Split中的数,据,据作为Map的输入,，,，Map的输出,一,一定在Map端。,3.Map的输出,到,到Reduce的输入,的,的过程(shuffle过程)：,第一阶,段,段：在map端完成,内,内存-排序-写入磁,盘,盘-复制,第二阶,段,段：在reduce端完成,映,映射到reduce端分区-合并-排序,4.Reduce的输入,到,到Reduce的输出,最后排,好,好序的key,/,/value作为Reduce的输入,MapReduce是一种,编,编程模,型,型，用,于,于大规,模,模数据,集,集的并,行,行运算,。,。Map（映射,）,）和Reduce（化简,）,），采,用,用分而,治,治之思,想,想，先,把,把任务,分,分发到,集,集群多,个,个节点,上,上，并,行,行计算,，,，然后,再,再把计,算,算结果,合,合并，,从,从而得,到,到最终,计,计算结,果,果。多,节,节点计,算,算，所,涉,涉及的,任,任务调,度,度、负,载,载均衡,、,、容错,处,处理等,，,，都由MapReduce框架完,成,成，不,需,需要编,程,程人员,关,关心这,些,些内容,。,。,HDFS分布式,文,文件系,统,统,什么是,分,分布式,文,文件系,统,统？,分布式,文,文件系,统,统是指,文,文件系,统,统管理,的,的物理,存,存储资,源,源不一,定,定直接,在,在本地,节,节点上,，,，而是,通,通过计,算,算机网,络,络与节,点,点相连,。,。分布,式,式文件,系,系统设,计,计基于,客,客户机/服务器,模,模式，,一,一个典,型,型的网,络,络可能,包,包括多,个,个供用,户,户访问,的,的服务,器,器。用,户,户可以,在,在任意,一,一台客,户,户机上,访,访问其,他,他机器,的,的文件,系,系统。,为什么,需,需要分,布,布式文,件,件系统,？,？,高扩展,能,能力：HDFS采用元,数,数据中,心,心化管,理,理，然,后,后通过,客,客户端,暂,暂存数,据,据分布,减,减小元,数,数据的,访,访问压,力,力；,高可用,性,性：一,是,是整个,文,文件系,统,统的可,用,用性，,二,二是数,据,据的完,整,整和一,致,致性。,数,数据完,整,整性通,过,过文件,的,的镜像,和,和文件,自,自动修,复,复来解,决,决；,弹性存,储,储：可,以,以根据,业,业务需,要,要灵活,地,地增加,或,或缩减,数,数据存,储,储以及,增,增删存,储,储池中,的,的资源,，,，而不,需,需要中,断,断系统,运,运行；,HDFS分布式,文,文件系,统,统,NameNode,可以看,作,作是分,布,布式文,件,件系统,中,中的管,理,理者，,存,存储文,件,件系统,的,的meta-data，主要,负,负责管,理,理文件,系,系统的,命,命名空,间,间，集,群,群配置,信,信息，,存,存储块,的,的复制,。,。,DataNode,是文件,存,存储的,基,基本单,元,元。它,存,存储文,件,件块在,本,本地文,件,件系统,中,中，保,存,存了文,件,件块的meta-data，同时,周,周期性,的,的发送,所,所有存,在,在的文,件,件块的,报,报告给NameNode。,Client,就是需,要,要获取,分,分布式,文,文件系,统,统文件,的,的应用,程,程序。,HDFS是一个,高,高度容,错,错性的,分,分布式,文,文件系,统,统，能,提,提供高,吞,吞吐量,的,的数据,访,访问，,非,非常适,合,合大规,模,模数据,集,集上的,应,应用。,HDFS的高可,用,用性,NameNode,挂了怎么办？,系统,采用双,NameNode,节点分布管理设计方案，支持分布式的元数据服务器，支持元数据自动日志功能，实现用户数据和元数据的备份和自动恢复，当一台服务器发生宕机时，其管理功能可以有另外的服务器接管，系统可以正常运行，对外提供服务。,NameNode,NameNode,是用来管理文件系统命名空间的组件,一,个,HDFS,集群只有一台,active,的,NameNode,一,个,HDFS,集群只有一个命名空间，一个根目录,NameNode,上存放了,HDFS,的元数据,元数据,保存在,NameNode,的内存当中，以便快速查询,1G,内存大致可以存放,1,000,000,个块对应的元数据信息,按,缺省每块,64M,计算，大致对应,64T,实际数据,Datanode,一个数据块在,DataNode,以文件存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。, DataNode,启动后向,NameNode,注册，通过后，周期性（,1,小时）的向,NameNode,上报所有的块信息。,心跳是每,3,秒一次，心跳返回结果带有,NameNode,给该,DataNode,的命令如复制块数据到另一台机器，或删除某个数据块。如果超过,10,分钟没有收到某个,DataNode,的心跳，则认为该节点不可用,。,增加,DataNode,节点后？,系统,平台增加新节点之后，系统自动在所有节点之间均衡数据。系统后台根据忙闲程度，自动发起，占用很少系统资源，无需人工干预，实现数据均衡分布。,HDFS具体操,作,作,文件写,入,入：,1.Client向NameNode发起文,件,件写入,的,的请求,2.NameNode根据文,件,件大小,和,和文件,块,块配置,情,情况，,返,返回给Client它所管,理,理部分DataNode的信息,。,。,3.Client将文件,划,划分为,多,多个文,件,件块，,根,根据DataNode的地址,信,信息，,按,按顺序,写,写入到,每,每一个DataNode块中。,文件读,取,取：,1.Client向NameNode发起文,件,件读取,的,的请求,2.NameNode返回文,件,件存储,的,的DataNode的信息,。,。,3.Client读取文,件,件信息,。,。,Client1,Client2,DataNode,节点,NameNode1,NameNode2,NFS服务器,正常运,行,行状态,单点失,效,效状态,HBASE分布式数据存,储,储,HBase, HadoopDatabase，是一,个,个高可,靠,靠性、,高,高性能,、,、面向,列,列、可,伸,伸缩的,分,分布式,存,存储系,统,统；,HBase位于结,构,构化存,储,储层，HDFS为HBase提供了,高,高可靠,性,性的底,层,层存储,支,支持,MapReduce为HBase提供了,高,高性能,的,的计算,能,能力，Zookeeper为HBase提供了,稳,稳定服,务,务和failover机制；,Pig和Hive还为HBase提供了,高,高层语,言,言支持,，,，使得,在,在HBase上进行,数,数据统,计,计处理,变,变的简,单,单,。,凡是过,去,去，皆,为,为序曲,ThankYou,!,!,

展开阅读全文

基于Hadoop的大数据处理关键技术综述22

最新文档