第3章-大数据存储与计算ppt课件

资源描述

第3章大数据存储与计算第3章大数据存储与计算1提纲3.1大数据存储3.2HDFS文件系统3.3NoSQL数据库3.4Hbase数据库3.5大数据处理3.6分布式计算3.7MapReduce模型3.8Spark通用计算框架大数据导论提纲3.1大数据存储大数据导论3.1 大数据存储BigData（大数据技术）作为一个专有名词成为热点，主要应归功于近年来互联网、云计算、移动和物联网的迅猛发展。无所不在的移动设备、RFID、无线传感器每分每秒都在产生数据，数以亿计用户的互联网服务时时刻刻在产生巨量的交互，要处理的数据量实在是太大、增长太快了，而业务需求和竞争压力对数据处理的实时性、有效性又提出了更高要求。在这种情况下，传统的常规技术针对大数据存储要求，采取了一些新存储架构和方法，主要包括DAS/NAS/SAN存储结构。但基于存储设备的性能、成本等问题的考虑，架构基于大规模分布式计算（MPP）的GFS/HDFS分布式文件系统、各种NoSQL分布式存储方案等应运而生。3.1大数据存储BigData（大数据技术）作为一33.1.1 大数据如何存储1.结构化数据存储结构化数据通常是人们所熟悉的数据库中的数据，它本身就是一种对现实已发生事项的关键要素进行抽取的有价信息。现在各类企业和组织都有自己的管理信息系统，随着时间的推移，数据库中积累的结构化数据越来越多，一些问题显现出来，这些问题可以分为四类：1）历史数据和当前数据都存在一个数据库中，导致系统处理速度越来越慢；2）历史数据与当前数据的期限如何界定；3）历史数据应如何存储；4）历史数据的二次增值如何解决。3.1.1大数据如何存储1.结构化数据存储43.1.1 大数据如何存储1.结构化数据存储问题1和问题2可以一起处理。导致系统处理速度越来越慢的原因除了传统的技术架构和当初建设系统的技术滞后于业务发展之外，最主要的是对于系统作用的定位问题。从过去30年管理信息系统发展的历史来看，随着信息技术的发展和信息系统领域的不断细分，可将信息系统分为两类，一类是基于目前的数据生产管理信息系统，一类是基于历史的数据应用管理信息系统。问题3和问题4可以放在一起处理。由于历史数据量规模庞大，相对稳态，其存储和加工处理与数据生产管理系统的思路应有很大的不同。结构化数据存储是为了分析而存储，采用分布式方式，其目标有两个：一是在海量的数据库中快速查询历史数据，二是在海量的数据库中进行有价值信息的分析和挖掘。3.1.1大数据如何存储1.结构化数据存储52.非结构化数据存储常见的非结构化数据包括文件、图片、视频、语音、邮件和聊天记录等，和结构化数据相比，这些数据是未被抽象出有价值信息的数据，需要经过二次加工才能得到其有价值信息。由于非结构化数据的生产不受格式约束、不受主题约束，人人随时都可以根据自己的视角和观点进行创作生产，所以数据量比结构化数据大。由于非结构化数据具有形式多样、体量大、来源广、维度多、有价内容密度低、分析意义大等特点，所以要为了分析而存储，而不是为了存储而存储，即存储工作是分析的前置工作。当前针对非结构化数据的特点均采用分布式文件系统方式来存储这些数据。3.1.1 大数据如何存储2.非结构化数据存储3.1.1大数据如何存储63.半结构化数据存储半结构化数据是指数据中既有结构化数据，也有非结构化数据，比如，摄像头回转给后端的数据中有位置、时间等结构化数据，还有图片等非结构化数据。这些数据是以数据流的形式传递的，所以半结构化数据也叫流数据。对流数据进行处理的系统叫做数据流系统。数据流的特点是数据不是永久存储在数据库中的静态数据，而是瞬时处理的源源不断的连续数据流。在大量的数据流应用系统中，数据流来自于地理上不同位置的数据源，非常适合分布式查询处理。3.1.1 大数据如何存储3.半结构化数据存储3.1.1大数据如何存储71.容量容量问题要求数据容量通常可达要求数据容量通常可达PB级，因此，海量数据存，因此，海量数据存储系系统一定要有相一定要有相应等等级的的扩展能力。同展能力。同时存存储系系统的的扩展一定要展一定要简便，可以通便，可以通过增加模增加模块或磁或磁盘组来增加容量，来增加容量，扩展展时甚至不需要停机。甚至不需要停机。2.延延迟问题“大数据大数据”应用存在用存在实时性性问题，特，特别是涉及与网上交易或者金融是涉及与网上交易或者金融类相关的相关的应用。用。为了了应对这样的挑的挑战，各种模式的固，各种模式的固态存存储设备应运而生，小到运而生，小到简单地在服地在服务器内部做高速器内部做高速缓存，大到通存，大到通过高性能高性能闪存存存存储的全固的全固态介介质可可扩展存展存储系系统，以及自，以及自动、智能地、智能地对热点数据点数据进行行读/写高速写高速缓存的系列存的系列产品。品。3.安全安全问题某些特殊行某些特殊行业的的应用，比如金融数据、医用，比如金融数据、医疗信息以及政府情信息以及政府情报等都有自己的安全等都有自己的安全标准和保密性要求。准和保密性要求。同同时，大数据分析往往需要多，大数据分析往往需要多类数据的相互参考，因此，会催生出一些新的、需考数据的相互参考，因此，会催生出一些新的、需考虑的安全的安全问题。4.成本成本问题对于需要使用大数据于需要使用大数据环境的企境的企业来来说，成本控制是关，成本控制是关键问题。想控制成本，就意味着。想控制成本，就意味着让每一台每一台设备实现更高效率，同更高效率，同时尽量减少昂尽量减少昂贵的部件。目前，重复数据的部件。目前，重复数据删除技除技术已已进入主存入主存储市市场。3.1.2 大数据存储的问题1.容量问题3.1.2大数据存储的问题85.数据的数据的积累累任何任何数据都是数据都是历史史记录的一部分，而且数据的分析大多是基于的一部分，而且数据的分析大多是基于时间段段进行的。要行的。要实现长期的数期的数据保存，就要求存据保存，就要求存储厂商开厂商开发出能出能够持持续进行数据一致性行数据一致性检测和保持和保持长期高可用特性的期高可用特性的产品，品，同同时还要要满足数据直接在原位更新的功能需求。足数据直接在原位更新的功能需求。6.灵活性灵活性大数据存大数据存储系系统的基的基础设施施规模通常很大，因此必模通常很大，因此必须经过仔仔细设计才能保才能保证存存储系系统的灵活性，的灵活性，使其能使其能够随着随着应用分析用分析软件一起件一起扩容及容及扩展。在大数据存展。在大数据存储环境中，数据会同境中，数据会同时保存在多个部保存在多个部署站点，已不需要再做数据迁移。一个大型的数据存署站点，已不需要再做数据迁移。一个大型的数据存储基基础设施投入使用后就很施投入使用后就很难再再调整，因整，因此它必此它必须能适能适应不同不同应用用类型和数据型和数据场景。景。7.应用用感知感知最早的一批大数据用最早的一批大数据用户已已经开开发出出针对应用的定制化的基用的定制化的基础设施，在主流存施，在主流存储系系统领域，域，应用用感知技感知技术的使用越来越普遍，它是改善系的使用越来越普遍，它是改善系统效率和性能的重要手段，效率和性能的重要手段，8.针对小用小用户依依赖大数据的不大数据的不仅仅是特殊的大型用是特殊的大型用户群体，作群体，作为一种商一种商业需求，小型企需求，小型企业也将会用到大数据。也将会用到大数据。目前一些存目前一些存储厂商已厂商已经在开在开发一些小型的一些小型的“大数据大数据”存存储系系统，以吸引那些，以吸引那些对成本比成本比较敏感的用敏感的用户。3.1.2 大数据存储的问题5.数据的积累3.1.2大数据存储的问题93.2 HDFS文件系统3.2.1 相关相关概念概念1存储块HDFS使用Block（存储块）对文件的存储进行操作，Block是HDFS的基本存储单元，在Hadoop1.x中默认大小是64M，Hadoop2.x中大小默认为128M，一个文件被分成多个块，以块作为存储单位块的大小远远大于普通文件系统，可以最小化寻址开销。HDFS采用抽象的块概念可以带来以下几个明显的好处：支持大规模文件存储：文件以块为单位进行存储，一个大规模文件可以被分拆成若干个文件块，不同的文件块可以被分发到不同的节点上，因此，一个文件的大小不会受到单个节点的存储容量的限制，可以远远大于网络中任意节点的存储容量。简化系统设计：首先，大大简化了存储管理，因为文件块大小是固定的，这样就可以很容易计算出一个节点可以存储多少文件块；其次，方便了元数据的管理，元数据不需要和文件块一起存储，可以由其他系统负责管理元数据。适合数据备份：每个文件块都可以冗余存储到多个节点上，大大提高了系统的容错性和可用性。3.2HDFS文件系统3.2.1相关概念103.2 HDFS文件系统2NameNode、SecondaryNameNode和和DataNodeNameNode管理文件系统的命名空间。NameNode维护两套数据：一套是文件目录与数据块之间的映射关系，另一套是数据块与节点间的关系。SecondaryNameNode第二名称节点是HDFS架构中的一个组成部分，它是用来保存名称节点中对HDFS元数据信息的备份，并减少名称节点重启的时间。SecondaryNameNode一般是单独运行在一台机器上。DataNode数据节点是分布式文件系统HDFS的工作节点，负责数据的存储和读取，会根据客户端或者是名称节点的调度来进行数据的存储和检索，并且向名称节点定期发送自己所存储的块的列表。每个数据节点中的数据会被保存在各自节点的本地Linux文件系统中。3.2HDFS文件系统2NameNode、Secon113.2 HDFS文件系统3.心跳机制心跳机制所谓“心跳”是一种形象化描述，指的是持续的按照一定频率在运行，类似于心脏在永无休止的跳动。这里指的是DataNode向NameNode发送心跳的周期是3秒，NameNode周期性的从集群中的每个DataNode接收心跳包和块报告，NameNode可以根据这个报告验证块映射和其他文件系统元数据。收到心跳包说明DataNode工作正常。如果DataNode不能发出心跳信息，NameNode会标记没有心跳的DataNode为宕机，不会给它任何新的I/O请求。4.机架感知机架感知Hadoop在设计时考虑到数据的安全与高效，数据文件默认在HDFS上存放三份，存储策略为本地一份，同机架内其它某一节点上一份，不同机架的某一节点上一份。这样如果本地数据损坏，节点可以从同一机架内的相邻节点拿到数据，速度肯定比从跨机架节点上拿数据要快；同时，如果整个机架的网络出现异常，也能保证在其它机架的节点上找到数据。3.2HDFS文件系统3.心跳机制123.2.2 HDFS分布式文件系统的结构HDFS采用Master/Slave架构。一个HDFS集群是由一个NameNode和一定数目的DataNodes组成。NameNode是一个中心服务器，负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。集群中的DataNode一般是一个节点一个，负责管理它所在节点上的存储。HDFS暴露了文件系统的名字空间，用户能够以文件的形式在上面存储数据。从内部看，一个文件其实被分成一个或多个数据块，这些块存储在一组DataNode上。NameNode执行文件系统的名字空间操作，比如打开、关闭、重命名文件或目录。它也负责确定数据块到具体DataNode节点的映射。DataNode负责处理文件系统客户端的读写请求。在NameNode的统一调度下进行数据块的创建、删除和复制，如图3-1所示的HDFS文件系统整体结构。3.2.2HDFS分布式文件系统的结构HDFS采用Ma133.2.2 HDFS分布式文件系统的结构3.2.2HDFS分布式文件系统的结构142.3.3 HDFS存储原理1.冗余数据保存冗余数据保存作为一个分布式文件系统，HDFS的主要设计目标就是为了保证系统的容错性和可用性，HDFS采用了多副本方式对数据进行冗余存储，通常一个数据块的多个副本会被分布到不同的数据节点上，HDFS默认的副本系数是3，这适用于大多数情况。如图所示，数据块A被分别存放到数据节点1和2和4上，数据块B被存放在数据节点2、4和5上。这种多副本方式具有以下几个种多副本方式具有以下几个优点：点：（1）加快数据传输速度（2）容易检查数据错误（3）保证数据可靠性2.3.3HDFS存储原理1.冗余数据保存153.2.3 HDFS存储原理1.数据存取策略数据存取策略1）数据存放第一个副本：放置在上传文件的数据节点；如果是集群外提交，则随机挑选一台磁盘不太满、CPU不太忙的节点。第二个副本：放置在与第一个副本不同的机架的节点上。第三个副本：与第一个副本相同机架的其他节点上。更多副本：随机节点。3.2.3HDFS存储原理1.数据存取策略163.2.3 HDFS存储原理1.数据存取策略数据存取策略2）数据数据读取取当客户端读取数据时，从名称节点获得数据块不同副本的存放位置列表，列表中包含了副本所在的数据节点，可以调用API来确定客户端和这些数据节点所属的机架ID，当发现某个数据块副本对应的机架ID和客户端对应的机架ID相同时，就优先选择该副本读取数据，如果没有发现，就随机选择一个副本读取数据3）数据复制）数据复制数据复制主要是在数据写入和数据恢复的时候发生。当客户端向HDFS文件写入数据的时候，一开始是写到本地临时文件中。假设该文件的副本系数设置为3，当本地临时文件累积到一个数据块的大小时，客户端会从NameNode获取一个DataNode列表用于存放副本。然后客户端开始向第一个DataNode传输数据，第一个DataNode一小部分一小部分(4KB)地接收数据，将每一部分写入本地仓库，并同时传输该部分到列表中第二个DataNode节点。第二个DataNode也是这样，一小部分一小部分地接收数据，写入本地仓库，并同时传给第三个DataNode。最后，第三个DataNode接收数据并存储在本地。3.2.3HDFS存储原理1.数据存取策略173.3 NOSQL数据库NoSQL(NotOnlySQL)，意即“不仅仅是SQL”，泛指非关系型的数据库，是一项全新的数据库革命性运动。NoSQL一词最早出现于1998年，是CarloStrozzi开发的一个轻量、开源、不提供SQL功能的关系型数据库。2009年Last.fm的JohanOskarsson发起了一次关于分布式开源数据库的讨论，来自Rackspace的EricEvans再次提出了NoSQL的概念，这时的NoSQL主要指非关系型、分布式、不提供ACID的数据库设计模式。2009年在亚特兰大举行的“no:sql(east)”讨论会是一个里程碑，其口号是selectfun，profitfromrealworldwhererelational=false;”。因此，对于NoSQL，最普遍的解释是“非关联型的”，强调键值存储和文档数据库的优点，而不是单纯地反对RDBMS。相对于目前铺天盖地的关系型数据库运用，这一概念无疑是一种全新的思维的注入。3.3NoSQL数据库NoSQL(NotOnlyS183.3 NOSQL数据库3.3.1 NoSQL的的产生生传统的关系数据库在应付Web2.0网站，特别是超大规模和高并发的SNS类型的Web2.0纯动态网站方面，已经显得力不从心，暴露了很多难以克服的问题，主要包括以下几个方面：1.对数据库高并发读写的性能需求：Web2.0网站要根据用户个性化信息来实时生成动态页面和提供动态信息，所以，基本上无法使用动态页面静态化技术，因此数据库并发负载非常高，往往要达到每秒上万次读写请求。关系数据库应付上万次SQL查询还勉强顶得住，但是应付上万次SQL写数据请求，硬盘I/O就已经无法承受了。其实对于普通的BBS网站，往往也存在对高并发写请求的需求。3.3NoSQL数据库3.3.1NoSQL的产生193.3 NOSQL数据库2.对海量数据的高效率存储和访问的需求：对于大型的SNS站，每天用户产生海量的用户动态，以国外的Friendfeed为例，一个月就达到了2.5亿条用户动态，对于关系数据库来说，在一张2.5亿条记录的表里面进行SQL查询，效率是极其低下甚至是不可忍受的。再例如大型Web网站的用户登录系统，例如腾讯和盛大，动辄数以亿计的帐号，关系数据库也很难应付。3.对数据库的高可扩展性和高可用性的需求：在基于Web的架构当中，数据库是最难进行横向扩展的，当一个应用系统的用户量和访问量与日俱增的时候，你的数据库却没有办法像网页服务器和应用服务器那样简单地通过添加更多的硬件和服务节点来扩展性能和负载能力。对于很多需要提供24小时不间断服务的网站来说，对数据库系统进行升级和扩展是非常痛苦的事情，往往需要停机维护和数据迁移。3.3NoSQL数据库对海量数据的高效率存储和访问的需203.2.2 NOSQL与RDBMS关系型关系型数据数据库与与NoSQL的的简单比比较3.2.2NoSQL与RDBMS关系型数据库与NoSQ213.3.3 NOSQL的分的分类类NoSQL仅仅是一个概念，NoSQL数据库根据数据的存储模型和特点分为很多种类，如何对他们分类，以便方便地根据自己应用特色选择不同的NoSQL数据库呢？NoSQL主要有六种存储类型：列存储、文档存储、Key-value存储、图存储、对象存储、xml数据库，如表所示。3.3.3NoSQL的分类NoSQL仅仅是一个概念，N223.3.4 NOSQL与NEWSQL虽然NoSQL数据库提供了高扩展性和灵活性，但是它也有自己的缺点，主要有以下几个方面：1.数据模型和查询语言没有数字验证。SQL基于关系代数和关系演算的查询结构有坚实的数学保证，由于NoSQL没有使用SQL，而使用一些模型还未有完善的数学基础，这也是NoSQL系统较为混乱的主要原因之一。2.不支持ACID特性。这为NoSQL带来优势的同时也带了了缺点，事务在有些情况下需要ACID特性使得系统在中断情况下也能保证在线事务准确执行。3.功能简单。大多数NoSQL系统提供的功能比较简单，这就增加了应用层的负担。例如应用层要实现ACID，那么编写代码的程序员一定极其痛苦。4.没有统一的查询模型。NoSQL系统一般提供不同的查询模型，这使得很难规范应用程序接口。3.3.4NoSQL与NewSQL虽然NoSQL数据库233.3.4 NOSQL与NEWSQLNewSQL是用于在线事务处理(OLTP)的下一代可伸缩关系数据库管理系统(RDBMS)，它可为读写工作负载提供NoSQL系统的可伸缩性能，并且维护保证传统数据库系统的ACID(原子性，一贯性，隔离，耐久性)。这些系统通过employingNoSQL样式的功能(如面向列的数据存储和分布式体系结构)来突破传统的RDBMS性能限制，或采用内存处理、对称多处理(SMP)或Massively并行加工等技术，并集成NoSQL或Searchcomponents，旨在处理大数据的体积、品种、速度和变异性等难题。3.3.4NoSQL与NewSQLNewSQL是用于243.3.4 NOSQL与NEWSQLNewSQL数据库的分类类似于NoSQL，有许多类别的NewSQL解决方案。分类是基于供应商为保留SQL接口而采用的不同方法，并解决传统的OLTP解决方案的可伸缩性和性能问题。NewSQL系统可分为三类新的体系新的体系结构数据构数据库点集群中运行的。这些数据库通常是从头编写的，并考虑到分布式体系结构，包括分布式并发控制、流控制和分布式查询处理等组件。这类数据库有VoltDB、NuoDBClustrix等。新的新的 MySQL 存存储引擎引擎相同的编程接口，但比内置引擎(如InnoDB)更有规模。这些新的存储引擎的例子包括TokuDB和InfiniDB。透明聚透明聚类/切分切分这些解决方案保留了OLTP数据库的原始格式，为群集提供了可插入的功能，以确保可伸缩性。3.3.4NoSQL与NewSQLNewSQL数据库253.4 HBASE数据数据库库3.4.1Hbase简介HBase即HadoopDatabase，是一个分布式的、面向列的开源数据库，该技术来源于FayChang所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（FileSystem）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。3.4HBase数据库3.4.1Hbase简介26数据模型HBase的数据模型也是由一张张的表组成，每一张表里也有数据行和列，但是在HBase数据库中的行和列又和关系型数据库的稍有不同。下面统一介绍HBase数据模型中一些名词的概念:表(Table):HBase会将数据组织进一张张的表里面，但是需要注意的是表名必须是能用在文件路径里的合法名字，因为HBase的表是映射成hdfs上面的文件。行键（RowKey）：HBase表的主键，表中的记录按照行键排序；时间戳（Timestamp）：每次数据操作对应的时间戳，可以看作是数据的版本号；列族（ColumnFamily）：表在水平方向有一个或者多个列族组成，一个列族中可以由任意多个列组成，即列族支持动态扩展，无需预先定义列的数量以及类型，所有列均以二进制格式存储，用户需要自行进行类型转换。单元(Cell):每一个行键，列族和列标识共同组成一个单元，存储在单元里的数据称单元数据，单元和单元数据也没有特定的数据类型，以二进制字节来存储。3.4.1 HBASE简介介数据模型3.4.1Hbase简介27HBase的系统架构个功能组件类似于HDFS，由ZooKeeper、HMaster、HRegionServer组成。其中HMaster的作用类似于HDFS中的NameNode名字节点；HRegionServer的作用类似于数据节点DataNode。3.4.2 HBASE体系体系结构构HBase的系统架构个功能组件类似于HDFS，由ZooKee281）ClientClient是Hbase功能的使用者，包含访问HBase的接口，client维护着一些缓存来加快对HBase的访问，比如HRegion的位置信息。HBaseClient使用HBase的RPC机制与HMaster和HRegionServer进行通信。对于管理类操作，Client与HMaster进行RPC；对于数据读写类操作，Client与HRegionServer进行RPC。2）zookeeper协调者Zookeeper存储了RegionServer的状态信息、HMaster地址，存储Hbase的schema,包括有哪些table，每个table有哪些columnfamily。监控主Master和备用Master，一旦主Master异常马上启用备用Master。HMaster随时感知各个HRegionServer的健康状况。3.4.2 HBASE体系体系结构构1）Client3.4.2Hbase体系结构293）HMaster管理者HMaster没有单点问题，HBase中可以启动多个HMaster，通过Zookeeper的MasterElection机制保证总有一个HMaster运行，HMaster在功能上主要负责表和HRegion的管理工作：管理用户对表的增、删、改、查操作；管理HRegionServer的负载均衡，调整HRegion分布；在HRegion分裂后，负责新HRegion的分配；在HRegionServer停机后，负责失效HRegionServer上的HRegion的迁移。每个HRegion服务器都会和HMaster服务器通讯，HMaster的主要任务就是要告诉每个HRegion服务器它要维护哪些HRegion。3.4.2 HBASE体系体系结构构3）HMaster管理者3.4.2Hbase体系结构304）HRegionServer存储者HregionServer是HBase中最核心的模块，主要负责响应用户I/O请求，向HDFS文件系统中读写数据。HRegionServer内部管理了一系列HRegion对象，每个HRegion对应着表（Table）中的一个HRegion，HRegion由多个HStore组成。每个HStore对应了表中的一个列族的存储，可以看出，每个列族其实就是一个集中的存储单元，因此，最好将具备共同IO特性的列放在一个列族中，这样最高效。Client访问HBase上数据的过程并不需要HMaster参与（寻址访问Zookeeper和HRegionServer，数据读写访问HRegionServer），HMaster仅仅维护着表和HRegion的元数据信息，负载很低。3.4.2 HBASE体系体系结构构4）HRegionServer存储者3.4.2Hbase311.物理模型物理模型用户在表格中存储数据，每一行都有一个可排序的主键和任意多的列。由于是稀疏存储，同一张里面的每一行数据都可以有截然不同的列。列名字的格式是:，都是由字符串组成的，每一张表有一个列族集合，这个集合是固定不变的，只能通过改变表结构来改变。但是qulifier值相对于每一行来说都是可以改变的。HBase把同一个列族里面的数据存储在同一个目录下，并且HBase的写操作是锁行的，每一行都是一个原子元素，都可以加锁。HBase所有数据库的更新都有一个时间戳标记，每个更新都是一个新的版本，HBase会保留一定数量的版本，这个值是可以设定的，客户端可以选择获取距离某个时间点最近的版本单元的值，或者一次获取所有版本单元的值。3.4.3 HBASE数据数据模型模型1.物理模型3.4.3HBase数据模型322.概念概念视图可以将一个表想象成一个大的映射关系，通过行健、行健+时间戳或行键+列（列族：列修饰符），就可以定位特定数据，HBase是稀疏存储数据的，因此某些列可以是空白的，下表是某个test表的HBase概念视图。3.4.3 HBASE数据数据模型模型2.概念视图3.4.3HBase数据模型333.5 大数据大数据处理理3.5.1 多多处理器技理器技术1.单处理器计算性能的发展提升单处理器计算机系统计算速度的常用技术手段有以下几个方面：1)提升计算机处理器字长。2)提高处理器芯片集成度。3)提升处理器的主频。4)改进处理器微架构。3.5大数据处理3.5.1多处理器技术342.多多处理器理器技技术的的发展展大数据大数据处理的基本理的基本单元是元是计算机，作算机，作为计算机核心的算机核心的处理器的功能是将理器的功能是将输入的数字入的数字化数据和信息化数据和信息进行加工和行加工和处理，然后将理，然后将结果果输出。因此出。因此处理器的性能往往是决定理器的性能往往是决定计算机性能高低的决定性因素。衡量一个具有算机性能高低的决定性因素。衡量一个具有N个个处理器的理器的计算算节点的性能指点的性能指标可用可用公式公式(3-1)表示。表示。公式公式(3-1)IPS的计算过程包括两部分，前半部分是单个处理器计算能力的计算过程，后半部分是N个并行处理器结合后该计算节点的计算能力的计算过程。在前半部分中，MF(MainFrequency)为处理器的主频，即处理器内核工作的时钟频率(ClockSpeed);IPC(InstructionPerClock)为每个时钟周期内可执行的指令数。在后半部分中，F为计算工作中不可被并行化的部分所占比例；N为处理器数量。从公式中可以看出，提高计算节点的性能有两个途径，一方面是增加单处理器的计算能力；另一方面是增加处理器的数量从公式可以看出，提高处理器的主频(MF)是提升计算能力的最直接方式3.5.1多处理器技术2.多处理器技术的发展3.5.1多处理器技术35多处理器计算系统按照其结构特征，通常可以分为两类：非对称多处理器架构(AsymmetricMultiProcessing，ASMP)；对称多处理器架构(SymmetricMultiProcessing，SMP)3.5.1 多处理器技术多处理器计算系统按照其结构特征，通常可以分为两类：3.5.1363.5.2并行计算并行并行计算算(Parallel Computing)是指在具有并行是指在具有并行处理能力的理能力的计算算节点上，将一个点上，将一个计算算任任务分解成多个并行子任分解成多个并行子任务，并分配，并分配给不同的不同的处理器，各个理器，各个处理器之理器之间相互相互协同，并同，并行地行地执行子任行子任务，从而达到加速，从而达到加速计算速度或提升算速度或提升计算算规模的目的模的目的。为了了成功开展并行成功开展并行计算，必算，必须具具备三个基本条件：并行机；并行算法的三个基本条件：并行机；并行算法的设计；并行；并行编程程。3.5.2并行计算并行计算(ParallelCompu373.2并行计算1.并行机并行机并行计算的基础是具有并行处理能力的计算节点，即并行机，并行机需包含两个或两个以上的处理器，这些处理器通过互连网络相连，协同并行工作。并行机的核心要素主要包括3个：处理器、内存、网络，因此计算节点并行化研究工作也就集中在这3个核心要素的并行化上。处理器通常采用以下几种方式对处理器资源进行并行化提升超标量(Superscalar)技术显式并行指令计算(ExplicitlyParallelInstructionsComputing，EPIC)向量处理器(VectorProcessor)多线程(Multithreading)技术内存的并行化方式可以分为两类。分布式内存结构。共享内存结构3.2并行计算1.并行机383.5.2并行计算互连网络是连接所有处理节点形成并行机的高速网络，因此是决定并行机性能的第三个核心因素。在这里对这些网络结构按照其连接性质做一个简要的分类。1)静态拓扑结构静态拓扑结构即处理节点之间通过固定的物理连接相连，且在程序运行的过程中节点间的连接方式不发生变化。这样的静态拓扑结构包括阵列(Array)、环（Ring）、网格(Mesh)、环面(Torus)、树(Tree)、超立方体(Hypercube)、蝶网（Butterfly）、Benes网等。2)动态拓扑结构动态拓扑结构即在处理节点之间的连接路径交叉处采用电子开关、路由器或仲裁器等动态连接设备，实现节点间的动态连接。动态拓扑结构包括单一总线、多层总线、交叉开关、多级互连网络等。3)高速互联网络高速互联网络是随着网络技术的发展而新产生的新的并行机互连网络。在高速互联网络模式下，处理节点间可以通过高速以太网或专用交换机相连，实现高达G比特甚至T比特级的数据交换。高速互联网络的引入，降低了并行机互连网络的设计难度和研发成本，使得采用普通计算机集群作为并行技术节点成为可能，极大地推动了并行计算的应用领域和规模。3.5.2并行计算互连网络是连接所有处理节点形成并行机的高393.5.2并行计算2.并行算法适合并行机处理的计算任务普遍具有可分解为多个并行子任务的特性，将一个大的计算任务分解为多个可执行的并行子任务的过程即为并行算法的设计。一个好的并行算法设计，可以极大地提升计算任务的并行度，即可降低式(3-1)中的参数F，从而实现在并行计算环境下的更高性能处理。并行算法的设计过程，可以分为以下4个阶段3.5.2并行计算2.并行算法403.5.2并行计算1）划分（Partitioning）划分方法描述充分开拓算法的并发性和可扩放性；先进行数据分解(称域分解)，再进行计算功能的分解(称功能分解)；使数据集和计算集互不相交；划分阶段忽略处理器数目和目标机器的体系结构；能分为两类划分：域分解(domaindecomposition)功能分解(functionaldecomposition)3.5.2并行计算1）划分（Partitioning）413.5.2并行计算2）通信a、通信描述通讯是PCAM设计过程的重要阶段；划分产生的诸任务，一般不能完全独立执行，需要在任务间进行数据交流；从而产生了通讯；功能分解确定了诸任务之间的数据流；诸任务是并发执行的，通讯则限制了这种并发性；b、四个通讯模式局部/全局通讯结构化/非结构化通讯静态/动态通讯同步/异步通讯3.5.2并行计算2）通信423.5.2并行计算3）任务组合进入到任务聚合阶段后，设计者就需要仔细考虑实际环境中的各种限制因素进行优化以最终实现高效的并行算法。任务聚合是将前面阶段划分出的细粒度子任务进行组合成粗粒度的较大子任务，以达到以下3个目标。a)扩大任务粒度，以避免大量细粒度任务带来的额外过量通信开销和任务创建开销，从而提高算法的性能。b)保持算法可扩展度，在任务聚合时要避免过度聚合，要保持足够的任务数量，以适应算法规模和运行环境的变化，以及利用任务间执行与通信的时间交错性提高算法性能。c)降低程序实现复杂度，过细粒度的任务划分通常会增加程序实现的复杂度，任务聚合需要通过一定的组合方式避免程序实现的过高复杂度。3.5.2并行计算3）任务组合434）处理器映射(Mapping)并行算法设计的最后一步，是决定如何将拆分好的子任务指派到特定的处理器执行，即处理器映射。处理器映射算法的设计目标就是降低完成整个计算任务的处理器执行时间。为了达到这个目标，设计者需要仔细规划以达到两个目标的优化。a)提高并行度，即尽量将那些可以并发执行的任务分配到不同的处理器中执行，以充分利用不同处理器的并行处理能力，降低执行时间。b)提高局部执行效率，即尽量将互相之间会产生频繁通信的任务分配在同一个处理器执行，以避免这些任务在不同处理器中增加额外的通信开销。3.5.2并行计算4）处理器映射(Mapping)3.5.2并行计算443.6 分布式计算3.6.1分布式计算简介随着信息化项目中数据的飞速增长，一些大任务要求计算机能应付大量的计算任务，此时单机并行计算或多机并行计算尤其对于分散系统（一组计算机通过计算机网络相互连通后形成的系统）的计算显示出局限性。分布式计算就是将计算任务分摊到大量的计算节点上，一起完成海量的计算任务。而分布式计算的原理和并行计算类似，就是将一个复杂庞大的计算任务是当划分为一个个小任务。任务并行执行。只不过分布式计算会将这些任务分配到不同的计算节点上，每个计算节点只需要完成自己的任务即可，可以有效分担海量的计算任务。而每个计算节点也可以并行处理自身的任务。更加充分利用机器的CPU资源。最后再将每个节点计算结果汇总。再到最后的计算结果。3.6分布式计算3.6.1分布式计算简介451.分布式分布式计算步算步骤划分计算任务以支持分布式计算，很多时候看起来较为困难。但人们逐渐发现这样确实是可行的。而且随着计算任务量增加与计算节点增加，这种划分体现出来的价值会越来越大。分布式计算一般分为以下几步：1)设计分布式分布式计算模型算模型首先要首先要规定分布式系定分布式系统的的计算模型。算模型。计算模型决定了系算模型决定了系统中各个中各个组件件应该如何运行。如何运行。组件之件之间应该如何如何进行消息通信，行消息通信，组件和件和节点点应该如何管理等。如何管理等。2)分布式任分布式任务分配分配分布式算法不同于普通算法。普通算法通常是按部就班一部接一部完成任分布式算法不同于普通算法。普通算法通常是按部就班一部接一部完成任务。而分布。而分布式式计算中，算中，计算任算任务是分是分摊到各个到各个节点上的。点上的。该算法着重解决的是能否分配任算法着重解决的是能否分配任务。我。我如何分配任如何分配任务的的问题。3.6.1 分布式计算简介1.分布式计算步骤3.6.1分布式计算简介462.分布式分布式计算算优点点分布式计算是在两个或多个软件互相共享信息，这些软件既可以在同一台计算机上运行，也可以在通过网络连接起来的多台计算机上运行。分布式计算比起其它算法具有以下几个优点：1）稀有资源可以共享。2）通过分布式计算可以在多台计算机上平衡计算负载。3）可以把程序放在最适合运行它的计算机上。其中，共享稀有资源和平衡负载是计算机分布式计算的核心思想之一。3.6.1 分布式计算简介2.分布式计算优点3.6.1分布式计算简介471CAP理理论2000年7月，加州大学伯克利分校的EricBrewer教授在ACMPODC会议上提出CAP猜想。2年后，麻省理工学院的SethGilbert和NancyLynch从理论上证明了CAP。之后，CAP理论正式成为分布式计算领域的公认定理。一个分布式系统不可能同时满足一致性（C：Consistency）、可用性（A：Availability）和分区容错性（P：Partitiontolerance）这三个基本需求，最多只能同时满足其中两项。3.6.2 分布式计算理论基础1CAP理论3.6.2分布式计算理论基础482BASE理理论BASE是BasicallyAvailable（基本可用）、Softstate（软状态）和Eventuallyconsistent（最终一致性）三个短语的缩写。BASE理论是对CAP中一致性和可用性权衡的结果，其来源于对大规模互联网系统分布式实践的总结，是基于CAP定理逐步演化而来的。BASE理论的核心思想是：即使无法做到强一致性，但每个应用都可以根据自身业务特点，采用适当的方式来使系统达到最终一致性。3.6.2 分布式计算理论基础2BASE理论3.6.2分布式计算理论基础49 3.7.1 MapReduce简介介MapReduce概念MapReduce是面向大数据并行处理的计算模型、框架和平台，它隐含以下3层含义：1)MapReduce是一个基于集群的高性能并行计算平台（ClusterInfrastructure）。它允许用市场上普通的商用服务器构成一个包含数十、数百至数千个节点的分布和并行计算集群。2)MapReduce是一个并行计算与运行软件框架（SoftwareFramework）。它提供了一个庞大但设计精良的并行计算软件框架，能自动完成计算任务的并行化处理，自动划分计算数据和计算任务，在集群节点上自动分配和执行任务以及收集计算结果，将数据分布存储、数据通信容错处理等并行计算涉及到的很多系统底层的复杂细节交由系统负责处理，大大减少r软件开发人员的负担。3)MapReduce是一个并行程序设计模型与方法（ProgrammingModelMetbodology）。它借助于甬数式程序设计语言Lisp的设计思想，提供了一种简便的并行程序设计方法，用Map和Reduce两个函数编程实现基本的并行计算任务，提供了抽象的操作和并行编程接口，以简单方便地完成大规模数据的编程和计算处理。3.7MAPREDUCE模型3.7.1MapReduce简介3.7MapRedu50MapReduce主要功能1.数据划分和计算任务调度：系统自动将一个作业（Job）待处理的大数据划分为很多个数据块，每个数据块对应于一个计算任务（Task），并自动调度计算节点来处理相应的数据块。作业和任务调度功能主要负责分配和调度计算节点（Map节点或Reduce节点），同时负责监控这些节点的执行状态，并负责Map节点执行的同步控制。2.数据/代码互定位：为了减少数据通信，一个基本原则是本地化数据处理，即一个计算节点尽可能处理其本地磁盘上所分布存储的数据，这实现了代码向数据的迁移；当无法进行这种本地化数据处理时，再寻找其他可用节点并将数据从网络上传送给该节点（数据向代码迁移），但将尽可能从数据所在的本地机架上寻找可用节点以减少通信延迟。3.7MAPREDUCE模型MapReduce主要功能3.7MapReduce模型51MapReduce主要功能3.系统优化：为了减少数据通信开销，中间结果数据进入Reduce节点前会进行一定的合并处理；一个Reduce节点所处理的数据可能会来自多个Map节点，为了避免Reduce计算阶段发生数据相关性，Map节点输出的中间结果需使用一定的策略进行适当的划分处理，保证相关性数据发送到同一个Reduce节点；此外，系统还进行一些计算性能优化处理，如对最慢的计算任务采用多备份执行、选最快完成者作为结果。4.出错检测和恢复：以低端商用服务器构成的大规模MapReduce计算集群中，节点硬件（主机、磁盘、内存等）出错和软件出错是常态，因此MapReduce需要能检测并隔离出错节点，并调度分配新的节点接管出错节点的计算任务。同时，系统还将维护数据存储的可靠性，用多备份冗余存储机制提高数据存储的可靠性，并能及时检测和恢复出错的数据。3.7MAPREDUCE模型MapReduce主要功能3.7MapReduce模型523.7.2MapReduce编程模型MapReduce模型从MapReduce命名特点可以看出，MapReduce由两个阶段组成：Map和Reduce。用户只需编写map()和reduce()两个函数，即可完成简单的分布式程序的设计。Map()函数以key/value对作为输入，产生另外一系列key/value对作为中间输出写入本地磁盘。MapReduce框架会自动把这些中间数据按照key值进行聚集，且key值相同（用户可设定聚集策略，默认情况下是对key值进行哈希取模）的数据被统一交给reduce()函数处理。Reduce()函数以key及对应的value列表作为输入，经合并key相同的value值后，产生另外一系列key/value对作为最终输出写入HDFS3.7MAPREDUCE模型3.7.2MapReduce编程模型3.7MapRed53Shuffle过程Shuffle指的是对Map输出结果进行分区、排序、合并等处理并交给Reduce过程。Map端的Shuffle过程a)执行Mapb)缓存写入c)溢写（spill）d)文件归并3.7MAPREDUCE模型Shuffle过程3.7MapReduce模型54Reduce端的Shuffle过程copy过程Merge过程reducer的输入文件3.7MAPREDUCE模型Reduce端的Shuffle过程3.7MapReduce55WordCount词频统计下面以MapReduce中的“helloworid”程序-WordCount为例介绍程序设计方法。3.7MAPREDUCE模型其中Map部分如下：/key：字符串偏移量/value:文件中一行字符串的内容map(Stringkey,stringvalue)/将字符串分割成单词words=splitintoToken(value),/将一组单词中每个单词赋值给wForeachwordwinwords/输出key/value(key为w，value为”1”)EmitIntermediate(w,”1”);Reduce部分如下：/key:一个单词ilvalues单词出现的次数列表Reduce(stringkey，Iteratorvalues):intresuit;foreachvinvaluesresult+=stringToint(v);Emit(key,IntToStrmg(result);WordCount词频统计3.7MapReduce模型其56MapReduce1架构MapReduce模型在发展过程中经历了两个版本：MRv1和YARN/MRv2。这一小节将为大家介绍一下MRv1计算框架。同HDFS一样，HadoopMapReduce也采用了Master/Slave(M/S)架构，它主要由以下几个组件组成：Client、JobTracker、TaskTracker和 Task。下面分别对这几个组件进行介绍。如图 3-12HadoopMapReduce架构。3.7.3YARN/MAPREDUCE2MapReduce1架构3.7.3YARN/MapRed57为从根本上解决旧MapReduce框架的性能瓶颈，促进Hadoop框架的更长远发展，从0.23.0版本开始，Hadoop的MapReduce框架完全重构，发生了根本的变化。新的HadoopMapReduce框架命名为MapReduceV2或者叫Yarn。1Yarn基本组成1）ResourceManager（RM）2）ApplicationMaster（AM）3）NodeManager（NM）4）Container2、MRv2架构3.7.3YARN/MAPREDUCE2为从根本上解决旧MapReduce框架的性能瓶颈，促进Ha58Yarn执行流程行流程3.7.3YARN/MAPREDUCE2Yarn执行流程3.7.3Yarn/MapReduce2591)用户向YARN中提交应用程序，其中包括ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等。2)ResourceManager为该应用程序分配第一个Container，并与对应的NodeManager通信，要求它在这个Container中启动应用程序的ApplicationMaster。3)ApplicationMaster首先向ResourceManager注册，这样，用户可以直接通过ResourceManager查看应用程序的运行状态，然后，它将为各个任务申请资源，并监控它的运行状态，直到运行结束，即重复步骤47。4)ApplicationMaster采用轮询的方式通过RPC协议向ResourceManager申请和领取资源。5)一旦ApplicationMaster申请到资源后，则与对应的NodeManager通信，要求其启动任务。6)NodeManager为任务设置好运行环境（包括环境变量、jar包、二进制程序等）后，将任务启动命令写到一个脚本中，并通过运行该脚本启动任务。7)各个任务通过某个RPC协议向ApplicationMaster汇报自己的状态和进度，以让ApplicationMaster随时掌握各个任务的运行状态，从而可以在任务失败时重新启动任务。在应用程序运行过程中，用户可随时通过RPC向ApplicationMaster查询应用程序的当前运行状态。8)应用程序运行完成后，ApplicationMaster向ResourceManager注销，并关闭自己。3.7.3MAPREDUCE21)用户向YARN中提交应用程序，其中包括Applica601、MapReduce参数配置优化右图为MapReduce部分调整参数3.7.4MAPREDUCE性能调优1、MapReduce参数配置优化3.7.4MapRed613.8 SPARK通用计算框架3.8.1Spark简介Spark是UCBerkeleyAMPLab(加州大学伯克利分校AMP实验室)所开源的类HadoopMapReduce的通用并行计算框架，Spark是为了跟Hadoop配合而开发出来的，不是为了取代Hadoop。Hadoop虽然已成为大数据技术的事实标准，但其本身还存在诸多缺陷，最主要的缺陷是其MapReduce计算模型延迟过高，无法胜任实时、快速计算的需求，因而只适用于离线批处理的应用场景。3.8Spark通用计算框架3.8.1Spark简介62Hadoop存在如下一些缺点：1.表达能力有限。计算都必须要转化成Map和Reduce两个操作，但这并不适合所有的情况，难以描述复杂的数据处理过程；2.磁盘IO开销大。每次执行时都需要从磁盘读取数据，并且在计算完成后需要将中间结果写入到磁盘中，IO开销较大；3.延迟高。一次计算可能需要分解成一系列按顺序执行的MapReduce任务，任务之间的衔接由于涉及到IO开销，会产生较高延迟。而且，在前一个任务执行完成之前，其他任务无法开始，难以胜任复杂、多阶段的计算任务。3.8.1 SPARK简介Hadoop存在如下一些缺点：3.8.1Spark简介63Spark具有如下几个主要特点：1.运行速度快：Spark使用先进的DAG（DirectedAcyclicGraph，有向无环图）执行引擎，以支持循环数据流与内存计算，中间结果都存储在内存中，大大减少了IO开销基于内存的执行速度可比HadoopMapReduce快上百倍

展开阅读全文

第3章-大数据存储与计算ppt课件

最新文档