Hadoop体系架构概述---备份

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,Hadoop,体系架构概述,Hadoop,体系架构,HDFS,简介,Map/Reduce,模型,分布式列式数据库,Hbase,Hadoop,概述,基于,Apache,基金会下的一个开源项目，致力于开发一个可靠的、大规模的分布式计算框架,用户可采用简单的计算模型在计算机集群下对大规模的数据进行分布式处理,设计理念之一是扩展单一的服务器为成千上万机器的集群，且集群中每一个机器同时提供本地计算力和存储力,Hadoop,框架是在应用层检测和处理硬件失效问题，而不是依赖于硬件自身来维持高可用性。,在,Hadoop,框架集群中硬件失效被认为是一种常态，集群的高可用性服务是建立在整个集群之上的,分布式文件系统（,Hadoop Distributed File System,，,HDFS,）,并行计算模型（,Map/Reduce,）,列式数据库（,HBase,）,数据仓库（,Hive,）,数据分析语言（,Pig,）,数据格式转化工具（,Sqoop,）,协同工作系统（,Zookeeper,）,数据序列化系统（,Avro,）,HDFS,(Hadoop Distributed File System),Map/Reduce,(Job Scheduling/Execution System),Hbase,(Column Database),Pig,(Data Flow),Hive,(SQL),Sqoop,ETL Tools,BI Reporting,RDBMS,AvroSerialization),Zookeeper(Coordination),Hadoop,整体框架,Hadoop,整体框架下特点,Hadoop,主要在多节点集群环境下,以数据存储为基础,最大限度兼容结构化数据格式,以数据处理为目的,且其数据操作技术多样化,Hadoop,体系架构,HDFS,简介,Map/Reduce,模型,分布式列式数据库,Hbase,HDFS,概述,-,基本特征,基于商用硬件环境,HDFS,具有高容错性，并且被部署在廉价的硬件之上,HDFS,向应用程序提供高的数据吞吐访问，适合于需要处理大规模海量数据集的应用,HDFS,遵循部分,POSIX,协议要求，可以确保应用程序以流的方式访问文件系统数据,HDFS,的对现实应用环境的假设及其目标,硬件失效,流式数据访问,海量数据集,追加写入及文件同步,“移动计算比移动数据的代价小”,跨异构硬件和软件平台的可移植性,1.,硬件失效。在,HDFS,中，硬件失效是常态而不是意外。一个真实的,HDFS,环境可能由上百或上千的机器组成，每一个机器存储文件系统中的部分数据。集群中大量的机器都有极高的可能性会发生硬件故障而失效，这一真实的情况表明,HDFS,集群中的部分机器总是处于非正常工作状态。因此，检测机器失效并快速自动恢复发生故障的机器是,HDFS,的核心架构目标。,2.,流式数据访问。运行在,HDFS,之上的应用程序需要流式访问其数据集，这与运行在常规文件系统上的通用应用程序不一样。,HDFS,更适用于批量数据处理而不是用户的交互性使用。,HDFS,的重点是强调数据的高吞吐访问而不是数据的低延迟访问。,POSIX,规定了很多的硬性要求，这些要求对运行在,HDFS,上的应用程序而言是非必须的。但是，,HDFS,在几个关键领域引入了,POSIX,语义来提高数据的吞吐率。,3.,海量数据集。运行在,HDFS,上的应用是建立在海量数据集之上的。,HDFS,被设计来存储大文件，通常,HDFS,中的文件大小应该是千兆字节到兆兆字节。,HDFS,必须具备有很高的总数据带宽，其单一集群规模能够容乃成千上万的机器节点，并且一个,HDFS,集群能够支撑数以万计的文件量。,4.,追加写入及文件同步。大多数的,HDFS,应用都需要“一次写多次读”的文件访问模式。,HDFS,具有两种高级特征：刷新缓存（,hflush,）和文件添加（,append,）。刷新缓存使得一个未关闭文件的最后一个块对访问者可见的同时提供了读一致性和数据持久性。文件添加提供了在一个已关闭文件的末尾添加额外数据的机制。,5.,“移动计算比移动数据的代价小”。应用所需要的计算如果在数据的附近实施效率更高，这一特性在数据量特别庞大时会显得更加明显。数据处理的本地化会最大限度地减少网络拥塞，并且提高系统整体的吞吐量。因此，在,HDFS,中假设移动计算至数据的存储位置比移动数据至应用程序运行位置更好。为了实现这一假设，,HDFS,为应用提供了接口来移动应用自身到接近数据的储存点。,6.,跨异构硬件和软件平台的可移植性。,HDFS,设计的目标之一是能够简单的从一个平台移植到另一平台。这便于大量的应用选择,HDFS,作为一个平台而广泛使用。,HDFS,架构,主从（,Master/Slave,）体系结构,只含有一个,NameNode,主服务节点这个节点管理文件系统中的命名空间和调度客服端对文件的访问,通常一个机器就是一个,DataNode,数据节点，,DataNode,管理本节点上数据的存储,在,HDFS,内部，一个文件被分割为一个或多个数据块，并且这些数据块被存储在一批,DataNode,中。,NameNode,执行文件系统中命名空间的操作,(,打开、关闭、重命名文件和目录,),，,NameNode,需要执行数据块到,DataNode,映射的决策,DataNode,负责响应来自客户端的文件读写要求，也要负责执行来自,NameNode,的关于数据块创建、删除和冗余存储的指令,Client,MetaData ops,Write,NameNode,MetaData(Name,replicas,),Client,DataNodes,DataNodes,Block ops,Read,Blockss,Replication,NameNode,同,DataNode,都是可以架设在普通商品机上，一个典型的,HDFS,集群中部署一个专用机做为,NameNode,，其余的机器部署为,DataNode,。虽然，这个体系结构并不排除把一个机器做为多个,DataNode,节点，但是这样的情况在实际部署中很少发生。单,NameNode,结构极大的简化了集群的系统结构，,NameNode,主管并且存储所有的,HDFS,的元数据（,MetaData,），系统中用户数据绝不会流过,NameNode,节点。,Hadoop,体系架构,HDFS,简介,Map/Reduce,模型,分布式列式数据库,Hbase,Map/Reduce,简介,一种用于在大型商用硬件集群中（成千上万的节点）对海量数据（多个兆兆字节数据集）实施可靠的、高容错的并行计算的软件系统,一个最先由,Google,提出的分布式计算软件构架,基本原理,将一个复杂的问题，分成若干个简单的子问题进行解决。然后，对子问题的结果进行合并，得到原有问题的解,Map/Reduce,概念,Map,和,Reduce,是编程语言中的概念，都是处理数据集合的函数,Map,在处理数据序列的过程中只处理当前的数据信息，不需要跟之前处理的状态信息交互,主结点读入输入数据，把它分成可以用相同方法解决的小数据块，然后把这些小数据块分发到不同的工作节点上，每一个工作节点循环做同样的事，这就形成了一个树行结构，而每一个叶子节点来处理每一个具体的小数据块，再把这些处理结果返回给父节点,Reduce,在处理过程中却依赖之前处理的结果，同时生成的结果也被后续的处理使用。结点得到所有子节点的处理结果，然后把所有结果组合并且返回到输出,一个,Map/Reduce,任务会把一个输入数据集分割为独立的数据块，然后,Map,任务会以完全并行的方式处理这些数据块。,Map/Reduce,系统自动对,Map,任务的输出分类，再把这些分类结果做为,Reduce,任务的输入。无论是任务的输入还是输出都会被存储在文件系统中。,Map/Reduce,系统关注任务调度、任务监测和重新执行失败的任务,Map/Reduce,模型,计算节点和存储节点的一致性是因为,Map/Reduce,系统和,HDFS,运行在同样的节点结合上。这样的配置允许,Hadoop,框架有效的调度任务在那些数据已经准备好了的节点上，这样的好处是整个集群中总带宽非常的高。,Map/Reduce,的一个特点是可以用,Map,和,Reduce,方法来处理分布式计算问题时，尽可能的实现数据处理的本地化，降低由数据移动而产生的代价。这里的每一个,Map,操作都是相对独立的，所有的,Maps,都是并行运行的，虽然实践中会受到数据源和,CPU,个数的影响。同样的，这里用一个,Reduce,集合来执行,Reduce,操作，所有带有相同,key,的,Map,输出会聚集到同一个,Reduce,。虽然这个过程看上去没有串行计算来得高效，但是,Map/Reduce,能够处理一般服务器所不能处理的大数据量处理问题。大型的服务器集群可以在几个小时内处理千兆兆数据量的排序问题。而并行处理可以提供部分容错和出错恢复的功能。,Map/Reduce,系统由单一的,JobTracker,主节点和若干个,TaskTracker,从节点组成，其中每一个集群节点对应一个,TaskTracker,节点。主节点负责调度任务的各个组成任务到从节点上，监控并且重新执行失败的组成任务；从节点执行主节点安排的组成任务。,Map/Reduce,的,Map,和,Reduce,过程都定义了键值对（,）的数据结构，即系统视任务的输入数据为键值对集合，并且产生键值对结合做为任务的输出。一次,Map/Reduce,任务的输入输出格式：,(input)-map-combine-reduce-(output),。,一次,Map/Reduce,任务过程。用户提交任务给,JobTracer,，,JobTracer,把对应的用户程序中的,Map,操作和,Reduce,操作映射至,TaskTracer,节点中；输入模块负责把输入数据分成小数据块，然后把它们传给,Map,节点；,Map,节点得到每一个,key/value,对，处理后产生一个或多个,key/value,对，然后写入文件；,Reduce,节点获取临时文件中的数据，对带有相同,key,的数据进行迭代计算，然后把终结果写入文件。,6 write,5,remote,write,4,local,write,3 read,User,Program,TaskTracer,TaskTracer,TaskTracer,TaskTracer,TaskTracer,Chunk1,Chunk2,Chunkn,1 fork,1 fork,2,assign,map,Output,Output,Input,files,1 fork,2,assign,reduce,JobTracer,Map,phase,Intermediate files,(on local disk),Reduce,phase,Output,files,Map/Reduce,处理过程,Map/Reduce,优缺点,Map/Reduce,通过工作状态的返回有效处理了单点失效的问题,Map/Reduce,是隶属于大粒度的并行计算模式，并行节点间在,Map,阶段中和,Reduce,阶段中无法通信，也并非是一种万能的数据处理模型,Hadoop,体系架构,HDFS,简介,Map/Reduce,模型,分布式列式数据库,Hbase,Hbase,简介,可提供随机的、实时的大数据读写访问,目标是在商用硬件上存储非常大的表,数十亿的行数百万的列,开源的、分布式的、版本化的、面向列的存储模型,对,Google,公司,Bigtable,系统的开源模仿，建立在,Hadoop,和,HDFS,之上提供类,Bigtable,的存储力,Hbase,数据模型,按预先定义好的列族（,Column family,）结构来存储数据，即每一条数据有一个,key,以及若干个列属性值组

展开阅读全文

Hadoop体系架构概述---备份

最新文档