商业大数据分析许鑫大数据[2]大数据处理架构Hadoop

资源描述

单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,大数据技术原理与应用,厦门大学计算机科学系林子雨,ziyulin,大数据,华东师范大学信息管理系许鑫,xxu,许鑫,华东师范大学经济与管理学部,E-mail: xxu, Data,提纲,2.1概述,2.2Hadoop项目结,构,构,2.3Hadoop的安装,与,与使用,2.4Hadoop集群的,部,部署与,使,使用,2.1,概,概述,2.1,.,.1Hadoop简介,2.1,.,.2Hadoop发展简,史,史,2.1,.,.3Hadoop的特性,2.1,.,.4Hadoop的应用,现,现状,2.1,.,.1Hadoop,简,简介,Hadoop是Apache软件基,金,金会旗,下,下的一,个,个开源,分,分布式,计,计算平,台,台，为,用,用户提,供,供了系,统,统底层,细,细节透,明,明的分,布,布式基,础,础架构,Hadoop是基于Java语言开,发,发的，,具,具有很,好,好的跨,平,平台特,性,性，并,且,且可以,部,部署在,廉,廉价的,计,计算机,集,集群中,Hadoop的核心,是,是分布,式,式文件,系,系统HDFS（HadoopDistributedFileSystem）和MapReduce,Hadoop被公认,为,为行业,大,大数据,标,标准开,源,源软件,，,，在分,布,布式环,境,境下提,供,供了海,量,量数据,的,的处理,能,能力,几乎所,有,有主流,厂,厂商都,围,围绕Hadoop提供开,发,发工具,、,、开源,软,软件、,商,商业化,工,工具和,技,技术服,务,务，如,谷,谷歌、,雅,雅虎、,微,微软、,思,思科、,淘,淘宝等,，,，都支,持,持Hadoop,2.1,.,.2Hadoop,发,发展简,史,史,Hadoop最初是,由,由ApacheLucene项目的,创,创始人Doug Cutting开发的,文,文本搜,索,索库。Hadoop源自始,于,于2002年的ApacheNutch项目一个开,源,源的网,络,络搜索,引,引擎并,且,且也是Lucene项目的,一,一部分,在2004年，Nutch项目也,模,模仿GFS开发了,自,自己的,分,分布式,文,文件系,统,统NDFS（NutchDistributedFile System），也,就,就是HDFS的前身,2004年，谷,歌,歌公司,又,又发表,了,了另一,篇,篇具有,深,深远影,响,响的论,文,文，阐,述,述了MapReduce分布式,编,编程思,想,想,2005年，Nutch开源实,现,现了谷,歌,歌的MapReduce,Hadoop的标志,2.1,.,.2Hadoop,发,发展简,史,史,到了2006年2月，Nutch中的NDFS和MapReduce开始独,立,立出来,，,，成为Lucene项目的,一,一个子,项,项目，,称,称为Hadoop，同时,，,，Doug Cutting加盟雅,虎,虎,2008年1月，Hadoop正式成,为,为Apache顶级项,目,目，Hadoop也逐渐,开,开始被,雅,雅虎之,外,外的其,他,他公司,使,使用,2008年4月，Hadoop打破世,界,界纪录,，,，成为,最,最快排,序,序1TB数据的,系,系统，,它,它采用,一,一个由910个节点,构,构成的,集,集群进,行,行运算,，,，排序,时,时间只,用,用了209秒,在2009年5月，Hadoop更是把1TB数据排,序,序时间,缩,缩短到62秒。Hadoop从此名,声,声大震,，,，迅速,发,发展成,为,为大数,据,据时代,最,最具影,响,响力的,开,开源分,布,布式开,发,发平台,，,，并成,为,为事实,上,上的大,数,数据处,理,理标准,2.1,.,.3Hadoop,的,的特性,Hadoop是一个,能,能够对,大,大量数,据,据进行,分,分布式,处,处理的,软,软件框,架,架，并,且,且是以,一,一种可,靠,靠、高,效,效、可,伸,伸缩的,方,方式进,行,行处理,的,的，它,具,具有以,下,下几个,方,方面的,特,特性：,高可靠,性,性,高效性,高可扩,展,展性,高容错,性,性,成本低,运行在Linux平台上,支持多,种,种编程,语,语言,2.1,.,.3Hadoop,的,的应用,现,现状,Hadoop凭借其,突,突出的,优,优势，,已,已经在,各,各个领,域,域得到,了,了广泛,的,的应用,，,，而互,联,联网领,域,域是其,应,应用的,主,主阵地,2007年，雅,虎,虎在Sunnyvale总部建,立,立了M45,一个包,含,含了4000个处理,器,器和1.5PB容量的Hadoop集群系,统,统,Facebook作为全,球,球知名,的,的社交,网,网站，Hadoop是非常,理,理想的,选,选择，Facebook主要将Hadoop平台用,于,于日志,处,处理、,推,推荐系,统,统和数,据,据仓库,等,等方面,国内采,用,用Hadoop的公司,主,主要有,百,百度、,淘,淘宝、,网,网易、,华,华为、,中,中国移,动,动等，,其,其中，,淘,淘宝的Hadoop集群比,较,较大,2.1,.,.3Hadoop,的,的应用,现,现状,Hadoop在企业,中,中的应,用,用架构,2.1,.,.4ApacheHadoop版本,演,演变,ApacheHadoop版本分,为,为两代,，,，我们,将,将第一,代,代Hadoop称为Hadoop1.0，第二,代,代Hadoop称为Hadoop2.0,第一代Hadoop包含三,个,个大版,本,本，分,别,别是0.20.x，0.21.x和0.22.x，其中,，,，0.20.x最后演,化,化成1.0,.,.x，变成,了,了稳定,版,版，而0.21.x和0.22.x则增加,了,了NameNodeHA等新的,重,重大特,性,性,第二代Hadoop包含两,个,个版本,，,，分别,是,是0.23.x和2.x，它们,完,完全不,同,同于Hadoop1.0，是一,套,套全新,的,的架构,，,，均包,含,含HDFS Federation和YARN两个系,统,统，相,比,比于0.23.x，2.x增加了NameNodeHA和Wire-compatibility两个重,大,大特性,2.1,.,.4ApacheHadoop版本,演,演变,ApacheHadoop,Hortonworks,Cloudera（CDH：ClouderaDistributionHadoop）,MapR,2.1,.,.5Hadoop,各,各种版,本,本,选择Hadoop版本的,考,考虑因,素,素：,是否开,源,源（即,是,是否免,费,费）,是否有,稳,稳定版,是否经,实,实践检,验,验,是否有,强,强大的,社,社区支,持,持,2.1,.,.5Hadoop,各,各种版,本,本,2.2Hadoop项目,结,结构,Hadoop的项目,结,结构不,断,断丰富,发,发展，,已,已经形,成,成一个,丰,丰富的Hadoop生态系,统,统,2.2Hadoop项目,结,结构,组件,功能,HDFS,分布式文件系统,MapReduce,分布式并行编程模型,YARN,资源管理和调度器,Tez,运行在,YARN,之上的下一代,Hadoop,查询处理框架,Hive,Hadoop,上的数据仓库,HBase,Hadoop,上的非关系型的分布式数据库,Pig,一个基于,Hadoop,的大规模数据分析平台，提供类似,SQL,的查询语言,Pig Latin,Sqoop,用于在,Hadoop,与传统数据库之间进行数据传递,Oozie,Hadoop,上的工作流管理系统,Zookeeper,提供分布式协调一致性服务,Storm,流计算框架,Flume,一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统,Ambari,Hadoop,快速部署工具，支持,Apache Hadoop,集群的供应、管理和监控,Kafka,一种高吞吐量的分布式发布订阅消息系统，可以处理消费者规模的网站中的所有动作流数据,Spark,类似于,Hadoop MapReduce,的通用并行框架,2.3Hadoop的安,装,装与使,用,用,详细安,装,装教程,请,请参考,：,：,大数据,技,技术原,理,理与应,用,用第,二,二章,大,大数据,处,处理架,构,构Hadoop学习指,南,南,访问地,址,址：http:/,/,/dblab,., 14.04 ISO映像文,件,件,二、步,骤,骤,（一）,确,确认系,统,统版本,如果选,择,择的系,统,统是64位Ubuntu系统，,那,那么在,安,安装虚,拟,拟机前,，,，我们,还,还要进,入,入BIOS开启CPU的虚拟,化,化,2.3,.,.2,安,安装Linux虚拟,机,机,(二)安装前,的,的准备,1.打开VirtualBox，点击,“,“创建,”,”按钮,，,，创建,一,一个虚,拟,拟机,2.给虚拟,机,机命名,，,，选择,操,操作系,统,统，版,本,本,3.选择内,存,存大小,，,，这里,设,设置的1024M,4.创建虚,拟,拟硬盘,5.选择虚,拟,拟硬盘,文,文件类,型,型VDI,6.虚拟硬,盘,盘选择,动,动态分,配,配,7.选择文,件,件存储,的,的位置,和,和容量,大,大小,8.点击创,建,建,2.3,.,.2,安,安装Linux虚拟,机,机,(三)安装Ubuntu,2.3,.,.3,安,安装双,操,操作系,统,统,第一步,：,：制作,安,安装U盘,具体可,参,参考百,度,度经验,文,文章,http:/,/,/,/,/article/59703552e0a6e18fc007409f,.,.html,第二步,：,：双系,统,统安装,具体可,参,参考百,度,度经验,文,文章,http:/,/,/,/,/article/dca1fa6fa3b905f1a44052bd,.,.html,安装后Window和Ubuntu14,.,.04都可以,用,用，默,认,认windows优先启,动,动,可以在,电,电脑启,动,动时，,选,选择进,入,入Ubuntu系统而,不,不是Windows系统,2.3,.,.4Hadoop的安装,与,与使用,（,（单机/伪分布,式,式）,Hadoop基本安,装,装配置,主,主要包,括,括以下,几,几个步,骤,骤：,创建Hadoop用户,SSH登录权,限,限设置,安装Java环境,单机安,装,装配置,伪分布,式,式安装,配,配置,详细安,装,装配置,过,过程请,参,参考厦,门,门大学,数,数据库,实,实验室,出,出品教,程,程,Hadoop安装教,程,程_单机/伪分布,式,式配置_Hadoop2.6.0,/,/Ubuntu14,.,.04,http:/,/,/dblab,., “hadoop,”,”用户，,那,那么需,要,要增加,一,一个名,为,为hadoop的用户,首先按ctrl+alt+t打开终,端,端窗口,，,，输入,如,如下命,令,令创建,新,新用户:,$ sudo useradd m hadoop s /bin/bash,上面这,条,条命令,创,创建了,可,可以登,陆,陆的hadoop用户，,并,并使用/bin/bash作为shell,接着使,用,用如下,命,命令设,置,置密码,，,，可简,单,单设置,为,为hadoop，按提,示,示输入,两,两次密,码,码：,$ sudo passwd hadoop,可为hadoop用户增,加,加管理,员,员权限,，,，方便,部,部署，,避,避免一,些,些对新,手,手来说,比,比较棘,手,手的权,限,限问题,：,：,$ sudo adduser hadoop sudo,SSH,登,登录权,限,限设置,配置SSH的原因：,Hadoop名称节,点,点（NameNode）需要,启,启动集,群,群中所,有,有机器,的,的Hadoop守护进,程,程，这,个,个过程,需,需要通,过,过SSH登录来,实,实现。Hadoop并没有,提,提供SSH输入密,码,码登录,的,的形式,，,，因此,，,，为了,能,能够顺,利,利登录,每,每台机,器,器，需,要,要将所,有,有机器,配,配置为,名,名称节,点,点可以,无,无密码,登,登录它,们,们,SSH是什么,？,？,SSH为SecureShell的缩写,，,，是建,立,立在应,用,用层和,传,传输层,基,基础上,的,的安全,协,协议。SSH是目前,较,较可靠,、,、专为,远,远程登,录,录会话,和,和其他,网,网络服,务,务提供,安,安全性,的,的协议,。,。利用SSH协议可,以,以有效,防,防止远,程,程管理,过,过程中,的,的信息,泄,泄露问,题,题。SSH最初是UNIX系统上,的,的一个,程,程序，,后,后来又,迅,迅速扩,展,展到其,他,他操作,平,平台。SSH是由客户端和服务端的软件,组,组成，,服,服务端,是,是一个,守,守护进,程,程(daemon)，它在,后,后台运,行,行并响,应,应来自,客,客户端,的,的连接,请,请求，,客,客户端,包,包含ssh程序以,及,及像scp（远程,拷,拷贝）,、,、slogin（远程,登,登陆）,、,、sftp（安全,文,文件传,输,输）等,其,其他的,应,应用程,序,序,安装Java,环,环境,Java环境可,选,选择Oracle的JDK,，,，或是OpenJDK,可以在Ubuntu中直接,通,通过命,令,令安装OpenJDK 7,$ sudo apt-get install openjdk-7-jre openjdk-7-jdk,还需要,配,配置一,下,下JAVA_HOME环境变,量,量,具体请,参,参考网,络,络教程,：,：http:/,/,/dblab,., sudo tar -zxf /,下载,/hadoop-2.6.0.tar.gz -C /usr/local #,解压到,/usr/local,中,$cd /usr/local/,$sudo mv ./hadoop-2.6.0/ ./hadoop #,将文件夹名改为,hadoop,$sudo chown -R hadoop:hadoop ./hadoop #,修改文件权限,Hadoop解压后,即,即可使,用,用。输,入,入如下,命,命令来,检,检查Hadoop是否可,用,用，成,功,功则会,显,显示Hadoop版本信,息,息：,$ cd /usr/local/hadoop,$./bin/hadoop version,Hadoop默认模,式,式为非,分,分布式,模,模式（,本,本地模,式,式），,无,无需进,行,行其他,配,配置即,可,可运行,。,。,伪分布,式,式安装配置,Hadoop可以在,单,单节点,上,上以伪,分,分布式,的,的方式,运,运行，Hadoop进程以,分,分离的Java进程来,运,运行，,节,节点既,作,作为NameNode也作为DataNode，同时,，,，读取,的,的是HDFS中的文,件,件,Hadoop的配置,文,文件位,于,于/usr/local/hadoop/etc,/,/hadoop/中，伪,分,分布式,需,需要修,改,改2个配置,文,文件core-site,.,.xml和hdfs-site,.,.xml,Hadoop的配置,文,文件是xml格式，,每,每个配,置,置以声,明,明property的name和value的方式,来,来实现,伪分布,式,式安装配置,实验步,骤,骤：,修改配,置,置文件,：,：core-site,.,.xml，hdfs-site,.,.xml，mapred,-,-site.xml,初始化,文,文件系,统,统hadoopnamenode,-,-format,启动所,有,有进程start-all,.,.sh,访问web界面，,查,查看Hadoop信息,运行实,例,例,伪分布,式,式安装配置,修改配,置,置文件core-site,.,.xml,hadoop,.,.tmp.dir,file:,/,/usr/local/hadoop/tmp,Abasefor other temporarydirectories.,fs.defaultFS,hdfs:,/,/localhost:9000,name为fs.defaultFS的值，,表,表示hdfs路径的,逻,逻辑名,称,称,hadoop,.,.tmp.dir表示存,放,放临时,数,数据的,目,目录，,即,即包括NameNode的数据,，,，也包,括,括DataNode的数据,。,。该路,径,径任意,指,指定，,只,只要实,际,际存在,该,该文件,夹,夹即可,伪分布,式,式安装配置,修改配,置,置文件hdfs-site,.,.xml,dfs,.,.replication,1,dfs,.,.namenode,.,.name.dir,file:,/,/usr/local/hadoop/tmp,/,/dfs/name,dfs,.,.datanode,.,.data.dir,file:,/,/usr/local/hadoop/tmp,/,/dfs/data,dfs,.,.replication表示副,本,本的数,量,量，伪,分,分布式,要,要设置,为,为1,dfs,.,.namenode,.,.name.dir表示本,地,地磁盘,目,目录，,是,是存储fsimage文件的,地,地方,dfs,.,.datanode,.,.data.dir表示本,地,地磁盘,目,目录，HDFS数据存,放,放block的地方,伪分布,式,式安装配置,关于三,种,种Shell命令方,式,式的区,别,别：,1.hadoopfs,2.hadoopdfs,3.hdfs dfs,hadoopfs适用于,任,任何不,同,同的文,件,件系统,，,，比如,本,本地文,件,件系统,和,和HDFS文件系,统,统,hadoopdfs只能适,用,用于HDFS文件系,统,统,hdfs dfs跟hadoopdfs的命令,作,作用一,样,样，也,只,只能适,用,用于HDFS文件系,统,统,2.4,.,.1集群节,点,点类型,2.4,.,.2集群规,模,模,2.4,.,.3集群硬,件,件配置,2.4,.,.4集群网,络,络拓扑,2.4,.,.5集群的,建,建立与,安,安装,2.4,.,.6集群基,准,准测试,2.4,.,.7在云计,算,算环境,中,中使用Hadoop,2.4Hadoop集群,的,的部署,与,与使用,2.4,.,.1Hadoop,集,集群中,有,有哪些,节,节点类,型,型,Hadoop框架中,最,最核心,的,的设计,是,是为海,量,量数据,提,提供存,储,储的HDFS和对数,据,据进行,计,计算的MapReduce,MapReduce的作业,主,主要包,括,括：（1）从磁,盘,盘或从,网,网络读,取,取数据,，,，即IO密集工,作,作；（2）计算,数,数据，,即,即CPU密集工,作,作,Hadoop集群的,整,整体性,能,能取决,于,于CPU、内存,、,、网络,以,以及存,储,储之间,的,的性能,平,平衡。,因,因此运,营,营团队,在,在选择,机,机器配,置,置时要,针,针对不,同,同的工,作,作节点,选,选择合,适,适硬件,类,类型,一个基,本,本的Hadoop集群中,的,的节点,主,主要有,NameNode：负责,协,协调集,群,群中的,数,数据存,储,储,DataNode：存储,被,被拆分,的,的数据,块,块,JobTracker：协调,数,数据计,算,算任务,TaskTracker：负责,执,执行由JobTracker指派的,任,任务,SecondaryNameNode：帮助NameNode收集文,件,件系统,运,运行的,状,状态信,息,息,2.4,.,.2,集,集群硬,件,件配置,在集群,中,中，大,部,部分的,机,机器设,备,备是作,为,为Datanode和TaskTracker工作的Datanode/TaskTracker的硬件,规,规格可,以,以采用,以,以下方,案,案：,4个磁盘,驱,驱动器,（,（单盘1-2T），支,持,持JBOD(JustaBunchOfDisks，磁盘,簇,簇),2个4核CPU,至少2-2,.,.5GHz,16-24GB内存,千兆以,太,太网,NameNode提供整,个,个HDFS文件系,统,统的NameSpace,(,(命名空,间,间)管理、,块,块管理,等,等所有,服,服务，,因,因此需,要,要更多,的,的RAM，与集,群,群中的,数,数据块,数,数量相,对,对应，,并,并且需,要,要优化RAM的内存,通,通道带,宽,宽，采,用,用双通,道,道或三,通,通道以,上,上内存,。,。硬件,规,规格可,以,以采用,以,以下方,案,案：,8-12个磁盘,驱,驱动器,（,（单盘1-2T）,2个4核/8核CPU,16-72GB内存,千兆/万兆以,太,太网,SecondaryNameNode在小型,集,集群中,可,可以和NameNode共用一,台,台机器,，,，较大,的,的群集,可,可以采,用,用与NameNode相同的,硬,硬件,2.4,.,.3,集,集群规,模,模要多,大,大,Hadoop集群规,模,模可大,可,可小，,初,初始时,，,，可以,从,从一个,较,较小规,模,模的集,群,群开始,，,，比如,包,包含10个节点,，,，然后,，,，规模,随,随着存,储,储器和,计,计算需,求,求的扩,大,大而扩,大,大,如果数,据,据每周,增,增大1TB，并且,有,有三个HDFS副本，,然,然后每,周,周需要,一,一个额,外,外的3TB作为原,始,始数据,存,存储。,要,要允许,一,一些中,间,间文件,和,和日志,（,（假定30%）的空,间,间，由,此,此，可,以,以算出,每,每周大,约,约需要,增,增加一,台,台新机,器,器。存,储,储两年,数,数据的,集,集群，,大,大约需,要,要100台机器,对于一,个,个小的,集,集群，,名,名称节,点,点（NameNode）和JobTracker运行在,单,单个节,点,点上，,通,通常是,可,可以接,受,受的。,但,但是，,随,随着集,群,群和存,储,储在HDFS中的文,件,件数量,的,的增加,，,，名称,节,节点需,要,要更多,的,的主存,，,，这时,，,，名称,节,节点和JobTracker就需要,运,运行在,不,不同的,节,节点上,第二名,称,称节点,（,（SecondaryNameNode）会和,名,名称节,点,点可以,运,运行在,相,相同的,机,机器上,，,，但是,，,，由于,第,第二名,称,称节点,和,和名称,节,节点几,乎,乎具有,相,相同的,主,主存需,求,求，因,此,此，二,者,者最好,运,运行在,不,不同节,点,点上,2.4,.,.4,集,集群网,络,络拓扑,普通的Hadoop集群结,构,构由一,个,个两阶,网,网络构,成,成,每个机,架,架（Rack）有30-40个服务,器,器，配,置,置一个1GB的交换,机,机，并,向,向上传,输,输到一,个,个核心,交,交换机,或,或者路,由,由器（1GB或以上,）,）,在相同,的,的机架,中,中的节,点,点间的,带,带宽的,总,总和，,要,要大于,不,不同机,架,架间的,节,节点间,的,的带宽,总,总和,2.4,.,.5,集,集群的,建,建立与,安,安装,采购好,相,相关的,硬,硬件设,备,备后，,就,就可以,把,把硬件,装,装入机,架,架，安,装,装并运,行,行Hadoop,安装Hadoop有多种,方,方法：,（1）手动,安,安装,（2）自动,化,化安装,为了缓,解,解安装,和,和维护,每,每个节,点,点上相,同,同的软,件,件的负,担,担，可,以,以使用,一,一个自,动,动化方,法,法实现,完,完全自,动,动化安,装,装，比,如,如RedHat LinuxKickstart、Debian或者Docker,自动化,安,安装部,署,署工具,，,，会通,过,过记录,在,在安装,过,过程中,对,对于各,个,个选项,的,的回答,来,来完成,自,自动化,安,安装过,程,程。,2.4,.,.6Hadoop,集,集群基,准,准测试,如何判,断,断一个Hadoop集群是,否,否已经,正,正确安,装,装？可,以,以运行,基,基准测,试,试,Hadoop自带有,一,一些基,准,准测试,程,程序，,被,被打包,在,在测试,程,程序JAR文件中,用TestDFSIO基准测,试,试，来,测,测试HDFS的IO性能,用排序,测,测试MapReduce：Hadoop自带一,个,个部分,排,排序的,程,程序，,这,这个测,试,试过程,的,的整个,数,数据集,都,都会通,过,过洗牌,（,（Shuffle）传输,至,至Reducer，可以,充,充分测,试,试MapReduce的性能,2.4,.,.7,在,在云计,算,算环境,中,中使用Hadoop,Hadoop不仅可,以,以运行,在,在企业,内,内部的,集,集群中,，,，也可,以,以运行,在,在云计,算,算环境,中,中,可以在AmazonEC2中运行Hadoop。EC2是一个,计,计算服,务,务，允,许,许客户,租,租用计,算,算机（,实,实例）,，,，来运,行,行自己,的,的应用,。,。客户,可,可以按,需,需运行,或,或终止,实,实例，,并,并且按,照,照实际,使,使用情,况,况来付,费,费,Hadoop自带有,一,一套脚,本,本，用,于,于在EC2上面运,行,行Hadoop,在EC2上运行Hadoop尤其适,用,用于一,些,些工作,流,流。例,如,如，在AmazonS3中存储,数,数据，,在,在EC2上运行,集,集群，,在,在集群,中,中运行MapReduce作业，,读,读取存,储,储在S3中的数,据,据，最,后,后，在,关,关闭集,群,群之前,将,将输出,写,写回S3中；如,果,果长期,使,使用集,群,群，复,制,制S3数据到,运,运行在EC2上的HDFS中，则,可,可以使,得,得数据,处,处理更,加,加高效,，,，因为,，,，HDFS可以充,分,分利用,数,数据的,位,位置，S3则做不,到,到，因,为,为，S3与EC2的存储,不,不在同,一,一个节,点,点上,本章小,结,结,Hadoop被视为,事,事实上,的,的大数,据,据处理,标,标准，,本,本章介,绍,绍了Hadoop的发展,历,历程，,并,并阐述,了,了Hadoop的高可,靠,靠性、,高,高效性,、,、高可,扩,扩展性,、,、高容,错,错性、,成,成本低,、,、运行,在,在Linux平台上,、,、支持,多,多种编,程,程语言,等,等特性,Hadoop目前已,经,经在各,个,个领域,得,得到了,广,广泛的,应,应用，,雅,雅虎、Facebook、百度,、,、淘宝,、,、网易,等,等公司,都,都建立,了,了自己,的,的Hadoop集群,经过多,年,年发展,，,，Hadoop项目已,经,经变得,非,非常成,熟,熟和完,善,善，包,括,括Common、Avro、Zookeeper、HDFS、MapReduce、HBase、Hive、Chukwa、Pig等子项,目,目，其,中,中，HDFS和MapReduce是Hadoop的两大,核,核心组,件,件,本章最,后,后介绍,了,了如何,在,在Linux系统下,完,完成Hadoop的安装,和,和配置,

展开阅读全文

商业大数据分析许鑫大数据[2]大数据处理架构Hadoop

最新文档