《Hadoop技术讲解》PPT课件.ppt

资源描述

Hadoop 电子工业出版社刘鹏主编云计算教材配套课件8 主要内容 Hadoop项目简介HDFS体系结构HDFS关键运行机制HadoopVS Google 分布式文件系统 HadoopAPIHadoop环境搭建 Hadoop项目简介 Apache的解决方案 GFS HDFSMapReduce HadoopBigTable HBase Hadoop项目简介 HDFS为了做到可靠性 reliability 创建了多份数据块 datablocks 的复制 replicas 并将它们放置在服务器群的计算节点中 computenodes MapReduce就可以在它们所在的节点上处理这些数据了 HDFS体系结构 NameNode MasterDataNode Chunksever HDFS关键运行机制保障可靠性的措施一个名字节点和多个数据节点数据复制冗余机制存放的位置机架感知策略故障检测数据节点心跳包检测是否宕机块报告安全模式下检测数据完整性检测校验和比较名字节点日志文件镜像文件空间回收机制 HDFS关键运行机制写文件流程客户端缓存流水线复制并发写控制流程 1 客户端把数据缓存到本地临时文件夹2 临时文件夹数据超过64M 客户端联系NameNode NameNode分配DataNode DataNode依照客户端的位置被排列成一个有着最近物理距离和最小的序列3 与序列的第一个数据服务器建立Socket连接发送请求头然后等待回应依次下传客户端得到回包流水线建立成功 4 正式发送数据以4K为大小传送 HDFS关键运行机制读文件流程客户端联系NameNode 得到所有数据块信息以及数据块对应的所有数据服务器的位置信息尝试从某个数据块对应的一组数据服务器中选出一个进行连接选取算法未加入相对位置的考虑数据被一个包一个包发送回客户端等到整个数据块的数据都被读取完了就会断开此链接尝试连接下一个数据块对应的数据服务器整个流程依次如此反复直到所有想读的都读取完了为止 HadoopVS Google 技术架构的比较数据结构化管理组件 Hbase BigTable并行计算模型 MapReduce MapReduce分布式文件系统 HDFS GFSHadoop缺少分布式锁服务Chubby HBase MapReduce HDFS BigTable MapReduce GFS Hadoop云计算应用 Chubby Google云计算应用 HadoopVS Google HDFS与GFS比较中心服务器模式的差异GFS 多台物理服务器选择一台对外服务损坏时可选择另外一台提供服务HDFS 单一中心服务器模式存在单点故障原因 Hadoop缺少分布式锁服务 HadoopVS Google HDFS与GFS比较子服务器管理模式差异GFS ChunkServer在Chubby中获取独占锁表示其生存状态 Master通过轮询这些独占锁获知ChunkServer的生存状态HDFS DataNode通过心跳的方式告知NameNode其生存状态GFS中 Master损坏时替补服务器可以快速获知ChunkServer的状态HDFS中 NameNode损坏后 NameNode恢复时需要花费一段时间获知DataNode的状态在添加数据存储节点时 GFS的伸缩性较HDFS要好原因 Hadoop缺乏分布式锁服务 HadoopVS Google HDFS与GFS比较HDFS具备安全模式获知数据块副本状态若副本不足则拷贝副本至安全数目如3个 GFS不具备安全模式副本损坏处理 API读取副本失败时 Master负责发起拷贝任务 HadoopVS Google HDFS与GFS比较HDFS具备空间回收机制文件删除时仅删除目录结构实际数据的删除在等待一段时间后实施优点便于恢复文件 HDFSAPI HadoopAPI被分成 divideinto 如下几种主要的包 package org apache hadoop conf定义了系统参数的配置文件处理API org apache hadoop fs定义了抽象的文件系统API org apache hadoop HdfsHDFS Hadoop的分布式文件系统实现 org apache hadoop io定义了通用的I OAPI 用于针对网络数据库文件等数据对象做读写操作 org apache hadoop ipc用于网络服务端和客户端的工具封装了网络异步I O的基础模块 org apache hadoop mapreduceHadoop分布式计算系统 MapReduce 模块的实现包括任务的分发调度等 org apache hadoop metrics定义了用于性能统计信息的API 主要用于mapred和dfs模块 org apache hadoop record定义了针对记录的I OAPI类以及一个记录描述语言翻译器用于简化将记录序列化成语言中性的格式 language neutralmanner org apache hadoop tools定义了一些命令行的工具 org apache hadoop util定义了一些公用的API org apache hadoop Secruity用户和用户组信息 HDFSAPI org apache hadoop fs org apache hadoop fs FileSystem implementsjava io Closeable org apache hadoop fs FilterFileSystem org apache hadoop fs ChecksumFileSystem org apache hadoop fs InMemoryFileSystem org apache hadoop fs LocalFileSystem org apache hadoop fs HarFileSystem org apache hadoop fs RawLocalFileSystem抽象文件系统的基本要素和基本操作最显著的一个特点就是 FileSystem文件系统是基于流式数据访问的并且可以基于命令行的方式来对文件系统的文件进行管理与操作 HDFSAPI org apche hadoop ipc org apache hadoop ipc VersionedProtocol org apache hadoop hdfs protocol ClientProtocol org apache hadoop hdfs protocol ClientDatanodeProtocol org apache hadoop hdfs server protocol NamenodeProtocol org apache hadoop hdfs server protocol DatanodeProtocol org apache hadoop hdfs server protocol InterDatanodeProtocol HDFSAPI org apache hadoop HDFS ClientProtocol协议客户端进程与Namenode进程进行通信DataNodeProtocol协议一个DFSDatanode用户与Namenode进行通信的协议InterDatanodeProtocol协议 Datanode之间的通信ClientDatanodeProtocol协议客户端进程与datenode进程进行通信NamenodeProtocol协议次级Namenode SecondaryNameNode 与Namenode进行通信所需进行的操作 Namenode主要实现了ClientProtocol DatanodeProtocol NamenodeProtocol HDFSAPI ClientProtocol 文件基本操作接口获取到指定文件src的全部块的信息返回LocatedBlocks 包括文件长度组成文件的块及其存储位置所在的Datanode数据结点 publicLocatedBlocksgetBlockLocations Stringsrc longoffset longlength 在制定的文件系统命名空间中创建一个文件入口 entry 在命名空间中创建一个文件入口该方法将创建一个由src路径指定的空文件 publicvoidcreate Stringsrc FsPermissionmasked StringclientName booleanoverwrite shortreplication longblockSize 对指定文件执行追加写操作返回信息可以定位到追加写入最后部分块的信息 publicLocatedBlockappend Stringsrc StringclientName 设置副本因子为一个指定的文件修改块副本因子 publicbooleansetReplication Stringsrc shortreplication HDFSAPI ClientProtocol 文件基本操作接口为已经存在的目录或者文件设置给定的操作权限 publicvoidsetPermission Stringsrc FsPermissionpermission 设置文件或目录属主 publicvoidsetOwner Stringsrc Stringusername Stringgroupname 客户端放弃对指定块的操作 publicvoidabandonBlock Blockb Stringsrc Stringholder 客户端向一个当前为写操作打开的文件写入数据块 publicLocatedBlockaddBlock Stringsrc StringclientName 客户端完成对指定文件的写操作并期望能够写完在写完以后关闭文件 publicbooleancomplete Stringsrc StringclientName 客户端向Namenode报告corrupted块的信息块在Datanode上的位置信息 publicvoidreportBadBlocks LocatedBlock blocks throwsIOException HDFSAPI ClientProtocol 文件基本操作接口在文件系统命令空间中重命名一个文件或目录 publicbooleanrename Stringsrc Stringdst 删除文件或目录src publicbooleandelete Stringsrc 删除文件或目录src 根据recursive选项来执行 publicbooleandelete Stringsrc booleanrecursive throwsIOException 创建目录src 并赋予目录src指定的nasked权限 publicbooleanmkdirs Stringsrc FsPermissionmasked throwsIOException 获取指定目录src中的文件列表 publicFileStatus getListing Stringsrc throwsIOException HDFSAPI 文件读取在客户端DFSClient中有一个DFSClient DFSInputStream类当需要读取一个文件的时候会生成一个DFSInputStream的实例DFSInputStream的实例调用ClientProtocol定义getBlockLocations接口取得一个LocatedBlocks类的对象这个对象包含一组LocatedBlock 那里面有所规定位置中包含的所有数据块信息以及数据块对应的所有数据服务器的位置信息读取开始 DFSInputStream的Read方法如有读取时发现错误客户端向Namenode报告corrupted块的信息publicvoidreportBadBlocks LocatedBlock blocks HDFSAPI 文件存入DFSClient也有一个DFSClient DFSOutputStream类写入开始会创建此类的实例DFSOutputStream会从NameNode上拿一个LocatedBlock写入开始调用DFSOutputStream的Write方法 HDFSAPI ClientProtocol 系统管理相关接口监听客户端 Namenode监听到某个客户端发送的心跳状态publicvoidrenewLease StringclientName 获取文件系统的状态统计数据 publiclong getStats 注返回的数组 publicintGET STATS CAPACITY IDX 0 publicintGET STATS USED IDX 1 publicintGET STATS REMAINING IDX 2 publicintGET STATS UNDER REPLICATED IDX 3 publicintGET STATS CORRUPT BLOCKS IDX 4 publicintGET STATS MISSING BLOCKS IDX 5 安全模式开关操作publicbooleansetSafeMode FSConstants SafeModeActionaction HDFSAPI ClientProtocol 系统管理相关接口保存FsImage映像同时将更新同步到EditLog中要求具有超级权限并且在安全模式下进行 publicvoidsaveNamespace 持久化文件系统元数据将Namenode结点上的数据结构写入到指定的文件中如果指定文件已经存在则追加到该文件中 metaSave Stringfilename Hadoop集群搭建一实验环境1 三台PC机 Linux操作系统各主机对应的ip地址 192 168 1 11ubuntu1192 168 1 12ubuntu2192 168 1 13ubuntu32 Hadoop安装包 http hadoop apache org core releases html 3 安装jdk1 5以上版本 1 在所有的机器上建立相同的用户例如 grid 2 SSH配置实现在机器之间执行指令的时候不需要输入密码在ubuntu1 准备设为namenode 上生成密钥对执行 ssh keygen trsa 然后一路回车就会按照默认的选项将生成的密钥对保存在 ssh id rsa文件中执行 cd ssh cpid rsa pubauthorized keys scpauthorized keysubuntu2 home grid ssh scpauthorized keysubuntu3 home grid ssh 二 Hadoop安装 3 在ubuntu1上配置Hadoop 编辑conf hadoop site xml 解压缩执行 tar zxvf hadoop 0 19 1 tar gz 编辑conf master 修改为master的主机名每个主机名一行 ubuntu1 编辑conf slaves 加入所有slaves的主机名ubuntu2ubuntu3 编辑所有机器的conf hadoop env sh文件将JAVA HOME变量设置为各自JDK安装的根目录不同机器可以使用不同的JAVA版本 4 其它机器上的配置三 Hadoop运行 1 格式化分布式文件系统 2 启动Hadoop守护进程 3 停止Hadoop守护进程 HDFS实验观察数据块在Datanode上的分布三个Datanode 文件副本个数为2 文件f zip的数据块分布情况关掉一个Datanode时数据块分布情况此时文件仍然可用关掉两个Datanode时数据块的分布情况此时文件不可用重新启动另外两个Datanode时数据块分布情况欢迎访问中国云计算网站欢迎使用云计算教材电子工业出版社刘鹏主编本讲到此结束

展开阅读全文