大数据实践课件：第2章-Hadoop基础

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,大数据应用人才培养系列教材,大数据实践,第,二,章,Hadoop,基础,2,.1,Hadoop,简介,2,.2,Hadoop,部署,2,.3,Hadoop,常用命令,习题,2.4,HDFS,常用命,大数据应用人才培养系列教材,2,.1Hadoop,简介,第二章,Hadoop,基础,8 Aug 2018: Release 3.1.1 available,31 May 2018: Release 2.7.7 available,解决海量数据存储（,HDFS,）,海量,数据分析（,MapReduce,）,资源管理,调度问题（,YARN,）,本教材：,2.7.3,2,.1Hadoop,简介,第二章,Hadoop,基础,2,.1Hadoop,简介,第二章,Hadoop,基础,2,.1Hadoop,简介,第二章,Hadoop,基础,MapReduce1.0,原理图,分布式,计算框架，基于它写出来的应用程序能够运行在,Hadoop,集群上。,MapReduce,采用“分而治之”的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个从节点共同完成，然后通过整合各个节点的中间结果，得到最终结果。简单地说，,MapReduce,就是“任务的分解与结果的汇总”。,2,.1Hadoop,简介,第二章,Hadoop,基础,HDFS,结构图,HDFS,是主从结构的，有主节点（,NameNode,）和从节点（,DataNode,）。一个主节点可关联多个从节点，一个从节点也可关联多个主节点。从节点又称数据节点。每一个,block,会在多个,DataNode,上存储多份副本,2,.1Hadoop,简介,第二章,Hadoop,基础,YARN,结构,组件,功能,ResourceManager(RM),负责对各,NM,上的资源进行统一管理和调度。将,AM,分配空闲的,Container,运行并监控其运行状态。对,AM,申请的资源请求分配相应的空闲,Container,。,NodeManager (NM),NM,是每个节点上的资源和任务管理器。它会定时地向,RM,汇报本节点上的资源使用情况和各个,Container,的运行状态；同时会接收并处理来自,AM,的,Container,启动,/,停止等请求。,ApplicationMaster (AM),应用框架，它负责向,ResourceManager,协调资源，并且与,NodeManager,协同工作完成,Task,的执行和监控,Container,Container,是,YARN,中的资源抽象，它封装了某个节点上的多维度资源，如内存、,CPU,、磁盘、网络等，当,AM,向,RM,申请资源时，,RM,为,AM,返回的资源便是用,Container,表示的。,2,.1Hadoop,简介,第二章,Hadoop,基础,其它,Hadoop,生态圈组件,功能,HBase,一个建立在,HDFS,之上，面向列的针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。,Hive,Hive,定义了一种类似,SQL,的查询语言,(HQL),将,SQL,转化为,MapReduce,任务在,Hadoop,上执行，通常用于离线分析。,Spark,一种与,Hadoop,相似的开源集群计算环境，它基于内存计算，数据分析速度更快。,Mahout,创建一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。,Pig,提供一种基于,MapReduce,的数据分析工具。,Zookeeper,解决分布式环境下的数据管理问题,Sqoop,主要用于传统数据库和,Hadoop,之间传输数据。,第,二,章,Hadoop,基础,2,.1,Hadoop,简介,2,.2,Hadoop,部署,2,.3,Hadoop,常用命令,习题,2.4,HDFS,常用命,大数据应用人才培养系列教材,2.2Hadoop,部署,第二章,Hadoop,基础,单节点部署,基础知识：,熟悉,虚拟机（,virtualbox/vmware,）,熟悉,Linux,基本,命令,（,下载文件，使用,vi/vim,编辑文件，创建文件和创建目录,）,准备工作：,在虚拟机中安装好,Linux(centos7),使用桥接模式配好网络,2.2Hadoop,部署,第二章,Hadoop,基础,1.,单,节点部署,安装步骤：,在虚拟机中安装,Centos7,安装,ssh,安装,rsync,。,安装,openJDK,确认,jdk,版本,下载,Hadoop,的安装,包,解,压,Hadoop,在,Hadoop,的配置文件（,etc/hadoop/hadoop-env.sh,）中增加环境变量,JAVA_HOME,验证,配置,运行,MapReduce,任务,2.2Hadoop,部署,第二章,Hadoop,基础,2.,伪,分布式部署,安装步骤：,SSH,免密码登录,安装,ssh,产生公钥和私,钥,将公钥放到目标机器的,/.ssh/authorized_keys,中,验证,修改,配置文件,core-site.xml,、,hdfs-site.xml,格式化,NameNode,启动,NameNode,和,DataNode,的守护,进程,通过,web,检查,dfs,状态,验证,dfs,是否正常,工作,配置,YARN,2.2Hadoop,部署,第二章,Hadoop,基础,3.,集群,部署,集群部署架构,编号,常见集群部署架构,特点,Hadoop,版本,1,传统方式,NameNode,加,SecondaryNameNod,1.x,和,2.x,2,HA,Active Namenode,加,Standby Namenode,2.x,3,HA + Federation,两组,Active Namenode,和,Standby Namenode,2.x,2.2Hadoop,部署,第二章,Hadoop,基础,3.,集群,部署,集群,规划,编号,机器名,IP,进程,1,m1,10.17.147.101,NameNode,2,m2,10.17.147.102,SecondaryNamenode,3,m3,10.17.147.103,ResourceManager,JobHistory,4,m4,10.17.147.104,DataNode,，,DataNodeManager,5,m5,10.17.147.105,DataNode,，,DataNodeManager,6,m6,10.17.147.106,DataNode,，,DataNodeManager,2.2Hadoop,部署,第二章,Hadoop,基础,3.,集群,部署,准备工作,准备,6,台,Linux,服务器,分别配置,6,台机器的名字为,m1m6,，并指定静态,IP,地址,所有机器配置本地机器名,解析,所有机器之间配置,ssh,免密码,登录,关闭,防火墙,下载,Hadoop,安装包，并解压到适当的,位置,所有机器上使用相同版本的,jdk,和,Hadoop,版本,，并且保证,Hadoop,的目录在相同的,位置,2.2Hadoop,部署,第二章,Hadoop,基础,3.,集群,部署,准备工作,的验证,验证本地机器名解析,正常,验证,ssh,免密码配置,成功,在每台机器上运行,java -version,检查,jdk,版本,在每台机器上检查防火墙,状态,2.2Hadoop,部署,第二章,Hadoop,基础,3.,集群,部署,配置,Hadoop,参数,配置,etc/hadoop/hadoop-env.sh,配置,core-site.xml,配置,etc/hadoop/hdfs-site.xml,配置,etc/hadoop/mapred-site.xml,配置,etc/hadoop/yarn-site.xml,配置,etc/hadoop/slaves,分发配置文件。,2.2Hadoop,部署,第二章,Hadoop,基础,3.,集群,部署,启动集群,格式化,NameNode,启动,NameNode,启动,DataNode,启动全部,dfs,进程,启动,ResourceManager,启动,NodeManager,启动,JobHistory,Server,用浏览器检查,web,接口工作是否,正常,关闭集群,第,二,章,Hadoop,基础,2,.1,Hadoop,简介,2,.2,Hadoop,部署,2,.3,Hadoop,常用命令,习题,2.4,HDFS,常用命,大数据应用人才培养系列教材,2.3Hadoop,常用命令,第二章,Hadoop,基础,1.,用户,命令,命令,功能,$bin/hadoop,显示帮助,$bin/hadoop fs,文件操作,$bin/hadoop jar,运行,MapReduce,程序,$bin/hadoop version,查看,Hadoop,版本,$bin/hadoop checknative,检查,Hadoop,的本地库,2.3Hadoop,常用命令,第二章,Hadoop,基础,1.,用户,命令,bin/hadoop fs,可用的常用参数列表,编号,命令,功能,1,-cat path/file,输出文本文件的内容,2,-appendToFile,本地文件集群文件,将本地文件的内容追加到集群文件结尾,3,-copyFromLocal,本地文件集群文件,将本地文件复制到集群,4,-copyToLocal,集群文件本地文件,将集群文件复制到本地,5,-cp,集群原文件集群目标文件,复制集群文件,6,-mv,集群原文件集群目标文件,移动或重命名文个,7,-ls,路径,列出集群文件或者目录,8,-mkdir,路径,在集群中创建目录,9,-setrep ,参数, ,副本数, ,路径,设置文件副本数,2.3Hadoop,常用命令,第二章,Hadoop,基础,2.,管理命令,$bin/hadoop daemonlog -getlevel ,$bin/hadoop daemonlog -setlevel ,功能：动态调整日志级别。,DEBUG INFO WARN ERROR FATAL,http:/:50070/logLevel,2.3Hadoop,常用命令,第二章,Hadoop,基础,2.,管理命令,$bin/hadoop daemonlog -getlevel ,$bin/hadoop daemonlog -setlevel ,功能：动态调整日志级别。,DEBUG INFO WARN ERROR FATAL,http:/:50070/logLevel,2.3Hadoop,常用命令,第二章,Hadoop,基础,3.,启动关闭命令,命令,功能,$sbin/start-all.sh $sbin/stop-all.sh,启动集群所有服务,/,关闭集群所有服务,$sbin/start-dfs.sh,$sbin/stop-dfs.sh,启动,dfs;,关闭,dfs,$sbin/start-yarn.sh $sbin/stop-yarn.sh,启动,YARN;,关闭,YARN,$sbin/hadoop-daemon.sh start|stop,服务名,单个,Hadoop,服务启动或者关闭,$sbin/hadoop-daemons.sh start|stop,服务名,全部,slaves,上的,Hadoop,服务启动或者关闭,$sbin/yarn-daemon.sh start|stop,服务名,单个,yarn,服务的启动或者关闭,$sbin/yarn-daemons.sh start|stop,服务名,全部,slaves,上的,yarn,服务启动或者关闭,$bin/hdfs secondarynamenode,以控制台的方式启动,SecondaryNameNode,$bin/hdfs namenode,以控制台的方式启动,NameNode,$bin/hdfs datanode,以控制台的方式启动,DataNode,第,二,章,Hadoop,基础,2,.1,Hadoop,简介,2,.2,Hadoop,部署,2,.3,Hadoop,常用命令,习题,2.4,HDFS,常用命,大数据应用人才培养系列教材,2.4HDFS,常用命令,第二章,Hadoop,基础,1.,用户,命令,命令,功能,$bin/hdfs,显示帮助,$bin/hdfs dfs ,参数,文件操作，与,$bin/hadoop fs,的参数完全一样,$bin/hdfs namenode -format,格式化,NameNode,$bin/hdfs getconf,从配置文件中获取配置信息,$bin/hdfs fsck ,路径, ,参数,处理损坏的文件,2.4HDFS,常用命令,第二章,Hadoop,基础,1.,用户,命令,fsck,参数,编号,参数,功能,1,-list-corruptfileblocks,输出损坏的文件及丢失的块,2,-move,将文件移动到,/lost+found,目录,3,-delete,删除损坏的文件,4,-openforwrite,输出以写方式打开的文件,5,-files,输出该目录及子目录下所有文件的状态,6,-files -blocks,输出该目录及子目录下所有文件的块信息,7,-,files blocks -,locations,输出该目录及子目录下所有文件在,DataNode,的存储信息,8,-files -blocks -racks,输出该目录及子目录下所有文件机架感知信息,2.4HDFS,常用命令,第二章,Hadoop,基础,2,.,管理命令,命令,功能,$bin/hdfs dfsadmin -report,查看,HDFS,的基本统计信息,$bin/hdfs dfsadmin -safemode ,配置安全模式,$bin/hdfs dfsadmin -saveNamespace,将内存信息保存到磁盘，并重置,edits,文件,$bin/hdfs dfsadmin - refreshNodes,刷新节点和排除文件,$bin/hdfs dfsadmin setBalancerBandwidth byte per second,设置负载均衡带宽,$bin/hdfs secondarynamenode ,参数,操作,SecondaryNameNode,$bin/hdfs balancer,平衡集群中,DataNode,的数据,第,二,章,Hadoop,基础,2,.1,Hadoop,简介,2,.2,Hadoop,部署,2,.3,Hadoop,常用命令,习题,2.4,HDFS,常用命,大数据应用人才培养系列教材,1.简述Hadoop的三种部署方式。,2.简述单机SSH免密码登录的配置方式。,3.,简述两台机器间SSH免密码登录，用两对公私钥来管理和配置的步骤。,4.简述Hadoop三大核心组件的功能.,5.查阅资源，学习Hadoop集群HA和HA 加Federaion的配置方法.,习题：,AIRack,人工智能实验平台,一站式的人工智能实验平台,DeepRack,深度学习一体,机,开箱即用的,AI,科研平台,BDRack大数据实验平台,一站式的大数据实训平台,云计算头条,微信号,：,chinacloudnj,中国大数据,微,信号：,cstorbigdata,刘鹏,看,未来,微信号：,lpoutlook,云创,大,数据订阅号,微信号,：,cStor_cn,云,创公众,号推荐,深度学习世界,微信号,：,dl-world,云创大,数据服务号,微信号,：,cstorfw,高校大,数据,与,人工智能,微信号,：,data_AI,手机,APP,推荐,我的,PM2.5,随时随地准确,查看身边的,PM2.5,值,同声译,支持,26,种,语言,互,译的实时,翻,译软件,科技头条,汇聚前沿,资讯,的,科技情报站,我的南京,云创大数据,为路,况,大数据,应用提,供,技术,支持,万物,云,智能,硬件大数据免费托管平台,环境,云,环境,大数据开放,共享平台,网站推荐,感谢聆听,

展开阅读全文

大数据实践课件：第2章-Hadoop基础

最新文档