资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2014/6/24,#,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,#,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,单击此处编辑母版标题样式,大数据基础技术概述,日期:,十月 24,杭,州华三通信技术有限公司,夏飞,03621,大数据,基,基础技,术,术概述,大数据,处,处理的,基,基本流,程,程,大数据,关,关键技,术,术,Hadoop介绍,流计算,介,介绍,图计算,介,介绍,NoSQL介绍,大数据,面,面临的,其,其他问,题,题,大数据,处,处理的,基,基本流,程,程,整个大,数,数据的,处,处理流,程,程可以,定,定义为,:,:在合,适,适工具,的,的辅助,下,下,对,广,广泛异,构,构的数,据,据源进,行,行抽取,和,和集成,,,,结果,按,按照一,定,定的标,准,准进行,统,统一存,储,储,并,利,利用合,适,适的数,据,据分析,技,技术对,存,存储的,数,数据进,行,行分析,,,,从,中,中提取,有,有益的,知,知识并,利,利用恰,当,当的方,式,式将结,果,果展现,给,给终端,用,用户。,具,具体来,说,说,可,以,以分为,数,数据抽,取,取与集,成,成、数,据,据分析,以,以及数,据,据解释,。,。,数据抽,取,取与集,成,成,大数据,的,的一个,重,重要特,点,点就是,多,多样性,,,,这就,意,意味着,数,数据来,源,源极其,广,广泛,,数,数据类,型,型极为,繁,繁杂。,这,这种复,杂,杂的数,据,据环境,给,给大数,据,据的处,理,理带来,极,极大的,挑,挑战。,要想处,理,理大数,据,据,首,先,先必须,对,对所需,数,数据源,的,的数据,进,进行抽,取,取和集,成,成,从,中,中提取,出,出关系,和,和实体,,,,经过,关,关联和,聚,聚合之,后,后采用,统,统一定,义,义的结,构,构来存,储,储这些,数,数据。,在数据,集,集成和,提,提取时,需,需要对,数,数据进,行,行清洗,,,,保证,数,数据质,量,量及可,信,信性。,现有的,数,数据抽,取,取与集,成,成方式,可,可以大,致,致分为,以,以下四,种,种类型,:,:数据,整,整合、,数,数据联,邦,邦、数,据,据传播,和,和混合,方,方法等,。,。,(1)数据整,合,合(Data Consolidation):不,同,同数据,源,源的数,据,据被物,理,理地集,成,成到数,据,据目标,。,。利用ETL工具把,数,数据源,中,中的数,据,据批量,地,地加载,到,到数据,仓,仓库,,就,就属于,数,数据整,合,合的方,式,式。,(2)数据,联,联邦(Data Federation):在,多,多个数,据,据源的,基,基础上,建,建立一,个,个统一,的,的逻辑,视,视图,,对,对外界,应,应用屏,蔽,蔽数据,在,在各个,数,数据源,的,的分布,细,细节。,对,对于这,些,些应用,而,而言,,只,只有一,个,个统一,的,的数据,访,访问入,口,口,但,是,是实际,上,上,被,请,请求的,数,数据只,是,是逻辑,意,意义上,的,的集中,,,,在物,理,理上仍,然,然分布,在,在各个,数,数据源,中,中,只,有,有被请,求,求时,,才,才临时,从,从不同,数,数据源,获,获取相,关,关数据,,,,进行,集,集成后,提,提交给,数,数据请,求,求者。,当,当数据,整,整合方,式,式代价,太,太大或,者,者为了,满,满足一,些,些突发,的,的实时,数,数据需,求,求时,,可,可以考,虑,虑采用,数,数据联,邦,邦的方,式,式建立,企,企业范,围,围内的,全,全局统,一,一数据,视,视图。,(3)数据,传,传播(Data Propagation):数,据,据在多,个,个应用,之,之间的,传,传播。,比,比如,,在,在企业,应,应用集,成,成(EAI)解决,方,方案中,,,,不同,应,应用之,间,间可以,通,通过传,播,播消息,进,进行交,互,互。,(4)混合,方,方式(A HybridApproach):在,这,这种方,式,式中,,对,对于那,些,些不同,应,应用都,使,使用的,数,数据采,用,用数据,整,整合的,方,方式进,行,行集成,,,,而对,那,那些只,有,有特定,应,应用才,使,使用的,数,数据则,采,采用数,据,据联邦,的,的方式,进,进行集,成,成。,数据分,析,析,传统的,分,分析技,术,术如数,据,据挖掘,、,、机器,学,学习、,统,统计分,析,析等在,大,大数据,时,时代需,要,要做出,调,调整,,因,因为这,些,些技术,在,在大数,据,据时代,面,面临着,一,一些新,的,的挑战,,,,主要,有,有:,数据量大,并,并不一,定,定意味,着,着数据,价,价值的,增,增加,,相,相反这,往,往往意,味,味着数,据,据噪音,的,的增多,大数据时,代,代的算,法,法需要,进,进行调,整,整(邦,弗,弗朗尼,原,原理),数据结果,好,好坏的,衡,衡量,数据解,释,释,数据分,析,析是大,数,数据处,理,理的核,心,心,但,是,是用户,往,往往更,关,关心结,果,果的展,示,示。如,果,果分析,的,的结果,正,正确但,是,是没有,采,采用适,当,当的解,释,释方法,,,,则所,得,得到的,结,结果很,可,可能让,用,用户难,以,以理解,,,,极端,情,情况下,甚,甚至会,误,误导用,户,户。,大数据时,代,代的数,据,据分析,结,结果往,往,往也是,海,海量的,,,,同时,结,结果之,间,间的关,联,联关系,极,极其复,杂,杂,采,用,用传统,的,的解释,方,方法基,本,本不可行,可以考虑,从,从下面,两,两个方,面,面提升,数,数据解,释,释能力,:,:,-引入可视,化,化技术,-让用户能,够,够在一,定,定程度,上,上了解,和,和参与,具,具体的,分,分析过,程,程,大数据,基,基础技,术,术概述,大数据,处,处理的,基,基本流,程,程,大数据,关,关键技,术,术,Hadoop介绍,流计算,介,介绍,图计算,介,介绍,NoSQL介绍,大数据,面,面临的,其,其他问,题,题,大数据,技,技术分,类,类,分布式,缓,缓存、,基,基于MPP的分布,式,式数据,库,库、分,布,布式文,件,件系统,、,、各种NoSQL分布式,存,存储方,案,案,内存数,据,据库等,存储,计算,应用,MapReduce,流,计算,图计,算,HIVE,pig,mahout,Sqoop以及ETL工具,,统,统计与,报,报告工具等,Google的技术,演,演进,Google于2006年首先,提,提出了,云,云计算,的,的概念,,,,并研,发,发了一,系,系列云,计,计算技,术,术和工,具,具。难,能,能可贵,的,的是Google并未将,这,这些技,术,术完全,封,封闭,,而,而是以,论,论文的,形,形式逐,步,步公开,其,其实现,。,。正是,这,这些公,开,开的论,文,文,使,得,得以GFS、MapReduce、Bigtable为代表,的,的一系,列,列大数,据,据处理,技,技术被,广,广泛了,解,解并得,到,到应用,,,,同时,还,还催生,出,出以Hadoop为代表,的,的一系,列,列云计,算,算开源,工,工具。,下图展,示,示了Google的技术,演,演化过,程,程:,大数据,处,处理工,具,具,Hadoop是目前,最,最为流,行,行的大,数,数据处,理,理平台,。,。除了Hadoop,还有,很,很多针,对,对大数,据,据的处,理,理工具,。,。这些,工,工具有,些,些是完,整,整的处,理,理平台,,,,有些,则,则是专,门,门针对,特,特定的,大,大数据,处,处理应,用,用。下,表,表归纳,总,总结了,现,现今一,些,些主流,的,的处理,平,平台和,工,工具。,大数据,基,基础技,术,术概述,大数据,处,处理的,基,基本流,程,程,大数据,关,关键技,术,术,Hadoop介绍,流计算,介,介绍,图计算,介,介绍,NoSQL介绍,大数据,面,面临的,其,其他问,题,题,Hadoop简介,Hadoop一个分,布,布式系,统,统基础,架,架构,,由,由Apache基金会,开,开发。,Hadoop是一个,开,开源的,可,可运行,于,于大规,模,模集群,上,上的分,布,布式并,行,行编程,框,框架,,借,借助于Hadoop,程序,员,员可以,轻,轻松地,编,编写分,布,布式并,行,行程序,,,,将其,运,运行于,计,计算机,集,集群上,,,,完成,海,海量数,据,据的计,算,算。,Hadoop已经发,展,展成为,目,目前最,流,流行的,大,大数据,处,处理平,台,台,Hadoop的作用,和,和功能,Hadoop采用了,分,分布式,存,存储方,式,式,提,高,高了读,写,写速度,,,,并扩,大,大了存,储,储容量,。,。采用MapReduce来整合,分,分布式,文,文件系,统,统上的,数,数据,,可,可保证,分,分析和,处,处理数,据,据的高,效,效。与,此,此同时,,,,Hadoop还采用,存,存储冗,余,余数据,的,的方式,保,保证了,数,数据的,安,安全性。,Hadoop中HDFS的高容,错,错特性,,,,以及,它,它是基,于,于Java语言开,发,发的,,这,这使得Hadoop可以部,署,署在低,廉,廉的计,算,算机集,群,群中,,同,同时不,限,限于某,个,个操作,系,系统。Hadoop中HDFS的数据,管,管理能,力,力,MapReduce处理任,务,务时的,高,高效率,,,,以及,它,它的开,源,源特性,,,,使其,在,在同类,的,的分布,式,式系统,中,中大放,异,异彩,,并,并在众,多,多行业,和,和科研,领,领域中,被,被广泛,采,采用。,Hadoop的优点,可扩展,:,:不论,是,是存储,的,的可扩,展,展还是,计,计算的,可,可扩展,都,都是Hadoop的设计,根,根本。,经济:,框,框架可,以,以运行,在,在任何,普,普通的PC上。,可靠:,分,分布式,文,文件系,统,统的备,份,份恢复,机,机制以,及,及MapReduce的任务,监,监控保,证,证了分,布,布式处,理,理的可,靠,靠性。,(,(元数,据,据磁盘,错,错误,,心,心跳测,试,试,副,本,本数),高效:,分,分布式,文,文件系,统,统的高,效,效数据,交,交互实,现,现以及MapReduce结合LocalData处理的,模,模式,,为,为高效,处,处理海,量,量的信,息,息作了,基,基础准,备,备。,Hadoop生态系,统,统,Hadoop生态系,统,统,Avro用于数,据,据序列,化,化的系,统,统;,HDFS是一种,分,分布式,文,文件系,统,统,运,行,行于大,型,型商用,机,机集群,,,,HDFS为HBase提供了,高,高可靠,性,性的底,层,层存储,支,支持;,HBa
展开阅读全文