云计算导论:概念-架构与应用第7章课件

上传人:文**** 文档编号:241700547 上传时间:2024-07-16 格式:PPTX 页数:47 大小:1,018.63KB
返回 下载 相关 举报
云计算导论:概念-架构与应用第7章课件_第1页
第1页 / 共47页
云计算导论:概念-架构与应用第7章课件_第2页
第2页 / 共47页
云计算导论:概念-架构与应用第7章课件_第3页
第3页 / 共47页
点击查看更多>>
资源描述
1第7章云存储第7章 云存储第7章 云存储12第7章云存储结构模型概述云存储架构云存储类型及其适合的应用7.17.2内容导航C O N T E N T S关键技术7.37.47.5典型的云存储服务7.6结构模型概述云存储架构云存储类型及其适合的应用7.17.2内23第7章云存储7.1 概述云存储这个概念一经提出,就得到了众多厂商的支持和关注。Amazon公司推出“简单存储服务”(SimpleStorageService,S3)技术支持数据持久性存储;Google推出在线存储服务Gdrive。云存储(Cloud Storage)的概念与云计算类似,它是指通过集群应用、网络技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。用户使用云存储,并不是使用某一个存储设备,而是使用整个云存储系统带来的一种数据访问服务。云存储的核心是应用软件与存储设备相结合,通过应用软件来实现存储设备向存储服务的转变,是一个以数据存储和管理为核心的云计算系统。当云计算系统运算和处理的核心是大量数据的存储和管理时,云计算系统中就需要配置大量的存储设备,那么云计算系统就转变成为一个云存储系统,所以云存储是一个以数据存储和管理为核心的云计算系统。7.1 概述云存储这个概念一经提出,就得到了众多厂商的支持34第7章云存储7.1 概述云存储系统的通用特征(3)低成本(4)多租户(5)无接入限制(2)高可扩展性(1)易管理7.1 概述云存储系统的通用特征(3)低成本(4)多租户(45第7章云存储概述云存储类型及其适合的应用7.1内容导航C O N T E N T S结构模型云存储架构7.2关键技术7.37.47.5典型的云存储服务7.6概述云存储类型及其适合的应用7.1内容导航CONTENTS结56第7章云存储7.2 结构模型云存储系统与传统存储系统相比,具有如下不同:l从功能需求来看,云存储系统面向多种类型的网络在线存储服务,而传统存储系统则面向如高性能计算、事务处理等应用l从性能需求来看,云存储服务首先需要考虑的是数据的安全、可靠、效率等指标,而且由于用户规模大、服务范围广、网络环境复杂多变等特点,实现高质量的云存储服务必将面临更大的技术挑战l从数据管理来看,云存储系统不仅要提供类似于POSIX的传统文件访问,还要能够支持海量数据管理并提供公共服务支撑功能,以方便云存储系统后台数据的维护。7.2 结构模型云存储系统与传统存储系统相比,具有如下不同67第7章云存储7.2 结构模型与传统的存储设备相比,云存储不仅仅是一个硬件,而是一个由网络设备、存储设备、服务器、应用软件、公用访问接口、接入网和客户端程序等多个部分组成的复杂系统。各部分以存储设备为核心,通过应用软件来对外提供数据存储和业务访问服务。l存储层:云存储最基础的部分。l基础管理层:云存储最核心的部分,也是云存储中最难以实现的部分。l应用接口层:不同的云存储运营单位可以根据实际业务类型,开发不同的应用服务接口,提供不同的应用服务。l访问层:任何一个授权用户都可以通过标准的公用应用接口来登录云存储系统,享受云存储服务。云存储的结构模型7.2 结构模型与传统的存储设备相比,云存储不仅仅是一个硬78第7章云存储概述云存储类型及其适合的应用7.1内容导航C O N T E N T S结构模型7.2云存储架构关键技术7.37.47.5典型的云存储服务7.6概述云存储类型及其适合的应用7.1内容导航CONTENTS结89第7章云存储7.3 云存储架构云存储架构可以分为两大类:紧耦合对称架构和松耦合非对称架构。传统的存储系统利用紧耦合对称架构,这种架构的设计旨在解决HPC(高性能计算、超级运算)问题,现在其正在向外扩展成为云存储,从而满足快速呈现的市场需求。新的存储系统已经采用了松弛耦合非对称架构,集中元数据和控制操作,这种架构并不非常适合高性能HPC,但是这种设计旨在解决云部署的大容量存储需求。7.3 云存储架构云存储架构可以分为两大类:紧耦合对称架构910第7章云存储7.3 云存储架构构建TCS系统是为了解决单一文件性能所面临的挑战,这种挑战限制了传统NAS系统的发展。HPC系统所具有的优势迅速压倒了存储,因为它们需要的单一文件I/O操作要比单一设备的I/O操作多得多。为了解决这一问题,业内创建了TCS架构的产品,很多节点同时伴随着分布式锁管理(锁定文件不同部分的写操作)和缓存一致性功能。紧耦合对称(TCS)架构LCA系统采用不同的方法来向外扩展,它不是通过执行某个策略来使每个节点知道每个行动所执行的操作,而是利用一个数据路径之外的中央元数据控制服务器。l节点可以利用不同的商品硬件CPU和存储配置,而且仍然在云存储中发挥作用。l用户可以通过利用硬件性能或虚拟化实例来调整云存储。l消除节点之间共享的大量状态开销可以消除用户计算机互联的需要,进一步降低成本。l异构硬件的混合和匹配使用户能够在需要的时候在当前经济规模的基础上扩大存储。l存储节点可以旋转地进行深层次应用程序归档,而且在控制节点上,元数据经常都是可用的。松弛耦合非对称(LCA)架构这种解决方案对于单文件吞吐量问题很有效,已经在很多HPC客户中得到了广泛应用,同时也很先进,需要一定程度的技术经验才能安装和使用。7.3 云存储架构构建TCS系统是为了解决单一文件性能所面1011第7章云存储概述7.1内容导航C O N T E N T S结构模型7.2云存储架构7.3云存储类型及其适合的应用关键技术7.47.5典型的云存储服务7.6概述7.1内容导航CONTENTS结构模型7.2云存储架构71112第7章云存储7.4 云存储类型及其适合的应用云存储是为解决传统存储无法解决的问题而产生的,并不是要完全取代传统的存储。存储方案的选择,要根据数据的形态、数据量及数据读写的方式来做规划。每个存储方案都有它的优点与缺点,用户需要根据自己的应用场景选择合适的云存储类型。我们可以把云存储分成三类:块存储(Block Storage)、文件存储(File Storage)和对象存储(Object Storage)。7.4 云存储类型及其适合的应用云存储是为解决传统存储无法1213第7章云存储7.4.1 块存储块存储会把单笔的数据写到不同的硬盘,借以得到较大的单笔读写带宽,适合用在数据库或者需要单笔数据快速读写的应用。它的优点是对单笔数据读写很快,缺点是成本较高,并且无法解决真正海量文件的存储。块存储系统主要适合于下面两种应用场合。l快速更改的单一文件系统。快速更改单一文件的例子包括数据库、共用的电子表单。l针对单一文件大量写的高性能计算(HPC)。某些高性能计算有成百上千个使用端,同时读写同一个单一的文件,为了提高读写效能,这些文件被分布到很多个节点,这些节点需要紧密地协作,才能保证数据的完整性,这些应用由集群软件负责处理复杂的数据传输。例如石油探勘及财务数据模拟。7.4.1 块存储块存储会把单笔的数据写到不同的硬盘,借以1314第7章云存储7.4.1 块存储两种块存储类型DAS是直接连接于主机服务器的一种储存方式,每一台主机服务器有独立的存储设备,每台主机服务器的存储设备无法互通,需要跨主机存取资料时,必须经过相对复杂的设定,是一种应用较为早的技术实现。DAS(DirectAttachedStorage)SAN(StorageAreaNetwork)SAN是一种用高速(光纤)网络连接专业主机服务器的一种储存方式,此系统会位于主机群的后端,它使用高速I/O连接方式,如SCSI、ESCON及Fibre-Channels。SAN特点是代价高、性能好。7.4.1 块存储两种块存储类型DAS是直接连接于主机服务1415第7章云存储7.4.2 文件存储l文件较大,总读取带宽要求较高。例如,网站、IPTV。l多个文件同时写入。例如,监控系统。l长时间存放的文件。例如,文件备份、存放或搜寻。文件存储系统适合的应用场合l文件的并发读取。l文件及文件系统本身较大。l文件使用期较长。l对成本控制要求较高。存储应用共通的特性文件存储是基于文件级别的存储,它是把一个文件放在一个硬盘上,即使文件太大拆分时,也放在同一个硬盘上。它的缺点是对单一文件的读写会受到单一硬盘效能的限制,优点是对一个多文件、多人使用的系统,总带宽可以随着存储节点的增加而扩展,它的架构可以无限制地扩容,并且成本低廉。7.4.2 文件存储文件较大,总读取带宽要求较高。例如,网1516第7章云存储7.4.3 对象存储与文件系统不同,对象存储系统并非将文件组织成一个目录层次结构,而是在一个扁平化的容器组织中存储文件(在Amazon的S3系统中被称作“桶”),并使用唯一的ID(在S3中被称作“关键字”)来检索它们。其结果是对象存储系统相比文件系统需要更少的元数据来存储和访问文件,并且它们还减少了因存储元数据而产生的管理文件元数据的开销。l对象存储系统是针对Linux集群对存储系统高性能和数据共享的需求而研究的全新的存储架构。Amazon的S3和OpenStack的Swift存储系统就是典型的对象存储系统。l对象存储系统的功能通常是最少的,用户仅仅能够存储、检索、复制和删除文件,还可以控制哪些用户可以进行哪些操作。l对象存储系统的HTTP接口允许全球各地的用户快速、方便地访问文件。l对象存储的另一大缺点是只支持数据的最终一致性。每当用户更新一个文件,直到这一更改被传播到所有副本以后,用户才能获取到最新版本。l对象存储和文件系统在接口上的本质区别是对象存储不支持随机位置读写操作。7.4.3 对象存储与文件系统不同,对象存储系统并非将文件1617第7章云存储7.4.3 对象存储对象存储系统的出现主要是为了满足数据归档和云服务两大需求,对象存储的主要应用场景如下。01OPTION02OPTION03OPTION04OPTION存储资源池(空间租赁)。使用对象存储构建类似AmazonS3的存储空间租赁服务,向个人、企业或应用提供按需扩展的弹性存储服务。网盘应用。使用图形用户界面(GUI)实现对象存储资源的封装,向用户提供类似百度云的网盘业务。集中备份。对象存储通过与ComvaultSimpana、SymantecNBU等主流备份软件结合,可向用户提供更具成本效益、更低TCO的集中备份方案。归档和分级存储。对象存储通过与归档软件、分级存储软件结合,将在线系统中的数据无缝归档/分级存储到对象存储,释放在线系统存储资源。7.4.3 对象存储对象存储系统的出现主要是为了满足数据归1718第7章云存储7.4.4 小结S u m m a r y云存储是希望借由服务器便宜的成本及弹性的架构,解决传统存储不能满足的问题,客户可以根据数据的形态,选择合适的存储方案。l对象存储打破了原来文件系统一统天下的局面,给用户带来了更多的选择,但这并不意味着对象存储系统可以取代文件系统。l文件系统将来的发展趋势更多的是专用文件系统,而不再是像以前那样一套文件系统适用于所有场景,更有一些部分要让位于对象存储或者其他存储形态。l对象存储系统更适合于互联网和类似互联网的应用场景。l对象存储系统适合存储海量10KB级到GB级对象/文件的存储。如果一个应用具有上述两种特点,就可以考虑使用对象存储系统。7.4.4 小结Summary云存储是希望借由服务器便宜的1819第7章云存储概述7.1内容导航C O N T E N T S结构模型7.2云存储架构7.3云存储类型及其适合的应用关键技术7.47.5典型的云存储服务7.6概述7.1内容导航CONTENTS结构模型7.2云存储架构71920第7章云存储7.5.1 存储虚拟化1主要存储虚拟化技术存储虚拟化技术虽然在不同设备与厂商之间略有区别,但从总体来说,可以概括为以下3种:基于存储设备虚拟化基于存储网络虚拟化基于主机虚拟化基于主机的虚拟化存储的实现,其核心技术是通过增加一个运行在操作系统下的逻辑卷管理软件将磁盘上的物理块号映射成逻辑卷号,并以此实现把多个物理磁盘阵列映射成一个统一的虚拟的逻辑存储空间(逻辑块),实现存储虚拟化的控制和管理。基于存储设备虚拟化技术依赖于提供相关功能的存储设备的阵列控制器模块,常见于高端存储设备,其主要应用针对异构的SAN存储构架。基于存储网络虚拟化的技术的核心是在存储区域网中增加虚拟化引擎实现存储资源的集中管理,其具体实施一般是通过具有虚拟化支持能力的路由器或交换机实现。在此基础上,存储网络虚拟化又可以分为带内虚拟化与带外虚拟化两类。7.5.1 存储虚拟化1主要存储虚拟化技术基于存储设备虚2021第7章云存储7.5.1 存储虚拟化2存储虚拟化技术对比实现层面主机网络设备优点支持异构的存储系统;不占用磁盘控制器资源与主机无关,不占用主机资源;能够支持异构主机、异构存储设备;对不同存储设备构建统一管理平台,可扩展性好与主机无关,不占用主机资源;数据管理功能丰富;技术成熟度高缺点占用主机资源,降低应用性能;存在操作系统和应用的兼容性问题;主机数量越多,管理成本越高占用交换机资源;面临带内、带外的选择;存储设备兼容性需要严格验证;原有的磁盘阵列的高级存储功能将不能使用受制于存储控制器接口资源,虚拟化能力较弱;异构厂家存储设备的高级存储功能将不能使用主要用途使服务器的存储空间可以跨越多个异构磁盘阵列,常用于在不同磁盘阵列之间做数据镜像保护异构存储系统整合和统一数据管理(灾备)异构存储系统整合和统一数据管理(灾备)适用场景主机已采用SF卷管理,需要新接多台存储设备;存储系统中包含异构阵列设备;业务持续能力与数据吞吐要求较高系统包括不同品牌和型号的主机与存储设备;对数据无缝迁移及数据格式转换有较高时间性保证系统中包括自带虚拟化功能的高端存储设备与若干需要利旧的中低端存储不适用场景主机数量大,采用SF会涉及高昂的费用,待迁入系统数据量过大,如果只能采取存储级迁移方式,数据格式转换将耗费大量的时间和人力对业务持续能力和稳定性要求苛刻需要新购机头时,费用较高;存在更高端的存储设备存储虚拟化技术对比7.5.1 存储虚拟化2存储虚拟化技术对比实现层面主2122第7章云存储7.5.2 分布式存储技术分布式存储是通过网络使用服务商提供的各个存储设备上的存储空间,并将这些分散的存储资源构成一个虚拟的存储设备,数据分散的存储在各个存储设备上。分布式存储面临的数据需求比较复杂,大致可以分为三类。1概述非结构化数据半结构化数据结构化数据一般存储在关系数据库中,可以用二维关系表结构来表示。介于非结构化数据和结构化数据之间,HTML文档就属于半结构化数据。包括所有格式的办公文档、文本、图片、图像、音频和视频信息。7.5.2 分布式存储技术分布式存储是通过网络使用服务商提2223第7章云存储7.5.2 分布式存储技术分布式文件系统分布式块存储系统分布式对象存储系统分布式表存储系统目前的分布式文件系统存储的实现有软硬件一体和软硬件分离两种方式。主要通过NAS虚拟化,或者基于x86硬件集群和分布式文件系统集成在一起,以实现海量非结构化数据处理能力。分布式块存储系统以标准的Intel/Linux硬件组件作为基本存储单元,组件之间通过千兆以太网采用任意点对点拓扑技术相互连接,共同工作,构成大型网格存储,网格内采用分布式算法管理存储资源。如IBMXIV存储系统。对象存储系统是针对Linux集群对存储系统高性能和数据共享的需求而研究的全新的存储架构。对象存储系统架构具有高可扩展性,支持数据的并发读写,一般不支持数据的随机写操作。最典型的应用实例就是Amazon的S3。分布式表格系统以表格为单位组织数据,每个表格包括很多行,通过主键标识一行,支持根据主键的CRUD功能以及范围查找功能。分布式表格系统借鉴了很多关系数据库的技术,典型的系统包括GoogleBigtable等。2分布式存储系统的种类不同的分布式存储系统适合处理不同类型的数据,分布式存储系统可以分为以下四类:7.5.2 分布式存储技术分布式文件系统分布式块存储系统分2324第7章云存储7.5.2 分布式存储技术S u m m a r y如今分布式存储系统已经得到了快速的发展,其技术已经较为成熟。先进的分布式存储系统必须具备下面几个特性:l高性能:对于分布式系统中的每一个用户都要尽量减小网络的延迟和因网络拥塞、网络断开、节点退出等问题造成的影响;l高可靠性:分布式环境通常都有高可靠性需求,用户将文件保存到分布式存储系统的基本要求是数据可靠;l高可扩展性:分布式存储系统需要能够适应节点规模和数据规模的扩大;l透明性:需要让用户在访问网络中其他节点中的数据时能感到像是访问自己本机的数据一样;l自治性:分布式存储系统需要拥有一定的自我维护和恢复功能。小结7.5.2 分布式存储技术Summary如今分布式存储系统2425第7章云存储7.5.3 数据容错数据容错技术是云存储研究领域的一项关键技术,良好的容错技术不但能够提高系统的可用性和可靠性,而且能够提高数据的访问效率。数据容错技术一般都是通过增加数据冗余来实现的,以保证即使在部分数据失效以后也能够通过访问冗余数据满足需求。冗余提高了容错性,但是也增加了存储资源的消耗。因此,在保证系统容错性的同时,要尽可能地提高存储资源的利用率,以降低成本。目前,常用的容错技术主要有基于复制(Replication)的容错技术和基于纠删码(Erasure Code)的容错技术两种。基于复制的容错技术简单直观,易于实现和部署,但是需要为每个数据对象创建若干同样大小的副本存储空间开销很大;基于纠删码的容错技术则能够把多个数据块的信息融合到较少的冗余信息中,因此能够有效地节省存储空间,但是对数据的读写操作要分别进行编码和解码操作,需要一些计算开销。7.5.3 数据容错数据容错技术是云存储研究领域的一项关键2526第7章云存储7.5.3 数据容错通过集中式的存储目录来定位数据对象的存储位置,这种方法可以利用存储目录中存放的存储节点信息,将数据对象的多个副本放置在不同机架上,提高系统的数据可靠性,Google文件系统(GFS)、Hadoop 分布式文件系统(HDFS)等都采用这种数据布局方式。缺陷是随着存储目录和数据对象数量的增长,查找数据对象所需的开销也会越来越大。此外,还会限制系统的扩展性。副本放置策略一即基于哈希算法的副本布局方法,它完全摒弃了记录数据对象映射信息的做法。该方法需要满足以下要求。l均衡性:根据节点权重为存储节点分配数据对象。l动态自适应性:当系统中的节点数量发生变化时,需迁移的数据量应该尽量少。l低性能开销:尽可能提高存储效率。l高效性:确定副本位置所需的时间开销尽可能小,理想情况下为O(1)。副本放置策略二1基于复制的容错技术基于复制的容错技术对一个数据对象创建多个相同的数据副本,并把得到的多个副本散布到不同的存储节点上。当若干数据对象失效以后,可以通过访问其他有效的副本获取数据。基于复制的容错技术主要关注数据组织结构和数据复制策略两方面的研究。7.5.3 数据容错通过集中式的存储目录来定位数据对象的存2627第7章云存储7.5.3 数据容错2基于纠删码的容错技术l基于复制的容错技术存储开销巨大,要提供冗余度为k的容错能力,就必须另外创建k个副本,存储空间的开销也增大了k倍。基于编码的容错技术通过对多个数据对象进行编码产生编码数据对象,进而降低完全复制带来的巨大的存储开销。l纠删码(Erasure Coding)技术是一类源于信道传输的编码技术,因为能够容忍多个数据帧的丢失,被引入到分布式存储领域,使得基于纠删码的容错技术成为能够容忍多个数据块同时失效的、最常用的基于编码的容错技术。7.5.3 数据容错2基于纠删码的容错技术基于复制的容错2728第7章云存储7.5.4 数据备份在以数据为中心的时代,数据的重要性毋庸置疑,数据备份技术非常重要。数据备份技术是将数据本身或者其中的部分在某一时间的状态以特定的格式保存下来,以备原数据出现错误、被误删除、恶意加密等各种原因不可用时,可快速准确地将数据进行恢复的技术。数据备份是容灾的基础,是为防止突发事故而采取的一种数据保护措施,根本目的是数据资源重新利用和保护,核心的工作是数据恢复。典型的用户备份流程是:每天都要在凌晨进行一次增量备份,然后每周末凌晨进行全备份。一旦出现了数据灾难,用户可以恢复到某天(注意是以天为单位的)的数据,因此在最坏的情况下,可能丢失整整一天的数据。但是,如果缩小备份时间单位,会影响用户的正常使用。7.5.4 数据备份在以数据为中心的时代,数据的重要性毋庸2829第7章云存储7.5.4 数据备份为了确保数据的更高安全性,用户必须对在线系统实行在线实时复制,尽可能多地采用快照等磁盘管理技术维持数据的高可用性,这样势必需要增加很大一部分投资。连续数据保护(CDP)是一种连续捕获和保存数据变化,并将变化后的数据独立于初始数据进行保存的方法,而且该方法可以实现过去任意一个时间点的数据恢复。尽管一些厂商推出了CDP产品,然而从它们的功能上分析,还做不到真正连续的数据保护,比如有的产品备份时间间隔为一小时,那么在这一小时内仍然存在数据丢失的风险CDP系统可能基于块、文件或应用,并且为数量无限的可变恢复点提供精细的可恢复对象。CDP可以提供更快的数据检索、更强的数据保护和更高的业务连续性能力,而与传统的备份解决方案相比,CDP的总体成本和复杂性都要低。CDP系统的特点7.5.4 数据备份为了确保数据的更高安全性,用户必须对在2930第7章云存储7.5.5 数据缩减技术自动精简配置是一种存储管理的特性,核心原理是“欺骗”操作系统,让操作系统认为存储设备中有很大的存储空间,而实际的物理存储空间则没有那么大。l自动精简配置技术是利用虚拟化方法减少物理存储空间的分配,最大限度提升存储空间利用率。这种技术节约的存储成本可能会非常巨大,并且使存储的利用率超90。l自动精简配置这项技术最初由3Par公司开发,目前支持自动精简配置的厂商正在快速增加。随着自动精简配置的存储越来越多,物理存储的耗尽成为自动精简配置环境中经常出现的风险。因此,告警、通知和存储分析成为必要的功能,并且对比传统环境,其在自动精简配置的环境中扮演了更主要的角色。利用云存储中的数据缩减技术,可以满足海量信息爆炸式增长趋势,一定程度上节约企业存储成本,提高效率。1自动精简配置7.5.5 数据缩减技术自动精简配置是一种存储管理的特性,3031第7章云存储7.5.5 数据缩减技术2自动存储分层自动存储分层(Automated Storage Tier,AST)技术能够在同一阵列的不同类型介质间迁移数据,主要用来帮助数据中心最大程度地降低成本和复杂性。l自动存储分层管理系统的基本业务能够将使用不频繁的数据安全地迁移到较低的存储层中并削减存储成本,把频繁使用的数据迁移到更高性能的存储层中。自动存储分层(AST)在于两个目标:降低成本和提高性能。l自动存储分层技术的特点是其分层的自动化和智能化。l自动存储分层的重要性随着固态存储在当前磁盘阵列中的采用而提升。7.5.5 数据缩减技术2自动存储分层自动存储分层管理系3132第7章云存储7.5.5 数据缩减技术目前最常见的“Sub-LUN”式自动分层存储技术,可视为是以下三个功能的综合。(1)存储虚拟化。将分散在不同存储层的磁盘区块,组合成虚拟的Volume或LUN。也就是将Volume或LUN的区块分散到不同存储层上。(2)存取行为的追踪统计与分析。持续追踪与统计每个磁盘区块的存取频率,并透过定期分析,识别出存取频率高的“热”区块,与存取频率低的“冷”区块。(3)数据迁移。以存取频率为基础,定期执行数据搬移,将热点区块数据搬移到高速存储层,较不活跃的冷区块数据则搬移到低速存储层。比较自动分层存储技术时,需注意的功能与参数包括支持的存储层级数目、针对各存储层I/O负载与效能的监控功能等,不过最重要的两个标准分别是“精细度”与“运算周期”。l“精细度”是指系统以多大的磁盘单位,来执行存取行为收集分析与数据迁移操作,理论上越精细、越小越好,不过副作用是越精细,将会增加追踪统计操作给控制器带来的负担。l“运算周期”则是指系统多久执行一次存取行为统计分析与数据迁移操作,这会影响系统能多快的反映磁盘存取行为的变化,运算周期越短、越密集,系统将能更快的依照最新的磁盘存取特性,重新配置数据在不同磁盘层集中的分布。7.5.5 数据缩减技术目前最常见的“Sub-LUN”式自3233第7章云存储7.5.5 数据缩减技术3重复数据删除物理存储设备在使用一段时间后必然会出现大量重复的数据。“重复删除”技术(De-duplication)作为一种数据缩减技术可对存储容量进行优化。它通过删除数据集中重复的数据,只保留其中一份,从而消除冗余数据。使用重复删除技术可以将数据缩减到原来的1/201/50。由于大幅度减少了对物理存储空间的信息量,进而减少传输过程中的网络带宽、节约设备成本、降低能耗。重复数据删除技术原理是按照消重的粒度可以分为文件级和数据块级,重复数据删除技术主要分为两类。NetApp公司为其所有的系统提供重复数据删除选项,并且可以针对每个卷进行激活。此外,重复数据删除会对数据可靠性产生影响。完全文件检测技术主要通过Hash技术进行数据挖掘;细粒度的相同数据块主要通过固定分块检测技术、可变分块检测技术、滑动块技术进行重复数据的查找与删除。利用数据自身的相似性特点,通过Shingle技术、BloomFilter技术和模式匹配技术挖掘出相同数据检测技术不能识别的重复数据。相同数据的检测技术相似数据的检测与编码技术7.5.5 数据缩减技术3重复数据删除Net App公司3334第7章云存储7.5.5 数据缩减技术4数据压缩数据压缩就是将收到的数据通过存储算法存储到更小的空间中去。压缩算法分为无损压缩和有损压缩。相对于有损压缩来说,无损压缩的占用空间大,压缩比不高,但是它有效地保存了原始信息,没有任何信号丢失。数据压缩中使用的LZS算法基于LZ77实现,主要由部分构成:滑窗(Sliding Window)和自适应编码(Adaptive Coding),如下图所示。压缩处理时,在滑窗中查找与待处理数据相同的块,并用该块在滑窗中的偏移值及块长度替代待处理数据,从而实现压缩编码。此外,压缩和去重是互补性的技术,提供去重的厂商通常也提供压缩。7.5.5 数据缩减技术4数据压缩压缩处理时,在滑窗中查3435第7章云存储7.5.5 数据缩减技术5内容分发网络技术内容分发网络(Content Distribute Network,CDN)是一种新型网络构建模式,主要是针对现有的互联网进行改造。基本思想是尽量避开互联网上由于网络带宽小、网点分布不均、用户访问量大等影响数据传输速度和稳定性的弊端,使数据传输的更快、更稳定。CDN部署结构方法是通过在网络各处放置节点服务器,在现有互联网的基础之上构成一层智能虚拟网络,实时的根据网络流量、各节点的连接和负载情况等信息将用户的请求重新导向离用户最近的服务节点上。7.5.5 数据缩减技术5内容分发网络技术CDN部署结构3536第7章云存储概述7.1内容导航C O N T E N T S结构模型7.2云存储架构7.3云存储类型及其适合的应用关键技术7.47.5典型的云存储服务7.6概述7.1内容导航CONTENTS结构模型7.2云存储架构73637第7章云存储7.6 典型的云存储服务云存储的概念一经提出,就得到了众多厂商的支持和关注。目前,业内企业针对云存储推出了很多种不同种类的云服务,Microsoft、EMC、Amazon、和Google等就是代表,下面将简要介绍这几个企业的云服务平台产品。7.6 典型的云存储服务3738第7章云存储7.6.1 EMC ATMOSEMCATOMS是第一套容量高达数千兆兆字节(PetaByte,简称PB)的信息管理解决方案。ATMOS能通过全球云存储环境,协助客户将大量非结构化数据进行自动管理。凭借其全球集中化管理与自动化信息配置功能,可以使Web2.0用户、互联网服务提供商、媒体与娱乐公司等安全地构建和实现云端信息管理服务。EMCATMOS的领先优势在于信息配送与处理的能力,采用基于策略的管理系统来创建不同层级的云存储。ATMOS可以为非付费用户和付费用户创建不同的服务级别,付费用户创建副本更多,保存在全球范围内的多个站点,并确保更高的可靠性和更快的读取速度。EMCATMOS内置数据压缩、重复数据删除功能,以及多客户共享与网络服务应用程序设计接口(API)功能。EMC ATOMS简介7.6.1 EMC ATMOSEMC ATOMS 是第一套容3839第7章云存储7.6.1 EMC ATMOSlEMC ATMOS将强大的存储容量与管理策略相结合,随时随地自动分配数据。l结合功能强大的对象元数据与策略型数据管理功能,能有效进行数据配置服务。l复制、版本控制、压缩、重复数据删除、磁盘休眠等数据管理服务。l网络服务应用程序设计接口包括REST和SOAP,几乎所有应用程序都能轻松整合。l内含自动管理和修复功能,以及统一命名空间与浏览器管理工具。这些功能可大幅减少管理时间,实现任何地点轻松控制和管理。l多客户共享支持功能,可让同一基础架构执行多种应用程序,并被安全地分隔,这项功能最适合需要云存储解决方案的大型企业。EMC ATMOS云存储基础架构解决方案内含一套价格经济的高密度存储系统。目前ATMOS推出三个版本,系统容量分别为120TB、240TB以及360TB。EMC ATMOS的主要功能与特色7.6.1 EMC ATMOSEMC ATMOS 将强大的存3940第7章云存储7.6.2 Amazon云存储服务Amazon S3是一个公有云服务,Web开发人员能够存储各种数据资源(如图片、视频、音乐和文档等),以便在应用程序中使用。使用S3时,它就像一个位于互联网的机器,有一个包含数字资产的硬盘驱动。实际上,它涉及位于多个地理位置的许多机器,其中包含数据资源或者数据资源的某些部分。Amazon还处理所有复杂的服务请求,可以存储数据并检索数据。1Amazon S3Amazon云服务的名称是AmazonWebServices(AWS)。除了弹性计算云(ElasticComputeCloud,EC2)之外,Amazon还提供了两类云存储服务,简单存储服务(SimpleStorageService,S3)和弹性块存储服务(ElasticBlockStorage,EBS)。7.6.2 Amazon云存储服务Amazon S3是一个4041第7章云存储7.6.2 Amazon云存储服务Amazon的S3服务提供了RESTful API,用户能够使用任何支持HTTP通信的语言访问S3。JetS3t项目是一个开源Java库,可以抽象出使用S3的REST API的细节,将API公开为常见的Java方法和类。JetS3t使S3和Java语言的工作变得更加简单,从根本上提高了效率。Amazon S3主要功能介绍理论上,S3是一个全球存储区域网络(SAN),它表现为一个超大的硬盘,用户可以在其中存储和检索数据资源。但是,从技术上讲,Amazon S3采用的是对象存储架构。通过S3存储和检索的资源被称为对象。对象存储在存储桶(Bucket)中。用户可以用硬盘进行类比:对象就像是文件,存储桶就像是文件夹(或目录)。与硬盘一样,对象和存储桶也可以通过统一资源标识符(Uniform Resource Identifier,URI)查找。S3还提供了指定存储桶和对象的所有者和权限的能力,就像对待硬盘的文件和文件夹一样。在S3中定义对象或存储桶时,用户可以指定一个访问控制策略。7.6.2 Amazon云存储服务Amazon的S3服务提4142第7章云存储7.6.2 Amazon云存储服务lAmazon EBS 提供可用性高、可靠性强且可预测的存储卷,并可以与一个正在运行 Amazon EC2实例相连接且在实例中显示的为一个设备。lAmazon EBS卷能独立于实例的生命周期而存在。lAmazon EBS特别适合需要建立数据库、文件系统或可访问原始数据块级存储的应用程序。l存储卷的行为就像是一个原始的、未格式化的块设备,且具有用户提供的设备名称和一个块设备接口。Amazon EBS卷可以是1GB到1TB的大小,可以被挂接到相同可用区域内的任何一个Amazon EC2上。一个卷一次只能挂载到一个实例之上,但是多个卷却可以挂载到同一个实例上。lAmazon EBS卷还可以作为Amazon EC2 实例的一个引导分区。lAmazon EBS卷是设计为高可用和高可靠的。2Amazon EBSAmazon Elastic Block Store(EBS)为Amazon EC2实例提供块级存储容量。主要功能有:7.6.2 Amazon云存储服务Amazon EBS 提4243第7章云存储7.6.3 Google的云存储服务从发表的论文来看,Google使用的云计算基础架构模式包括以理四个相互独立又紧密结合在一起的系统。01OPTION02OPTION03OPTION04OPTIONGoogle建立在集群之上的文件系统(GoogleFileSystem,GFS)针对Google应用程序的特点提出的Map/Reduce编程模式分布式的锁机制ChubbyGoogle开发的模型简化的大规模分布式数据库BigTable7.6.3 Google的云存储服务从发表的论文来看,Go4344第7章云存储7.6.3 Google的云存储服务1Google文件系统为了满足Google迅速增长的数据处理需求,Google设计并实现了Google文件系统(Google File System,GFS)。GFS与过去的分布式文件系统拥有许多相同的目标,但其设计受到以下四个方面的影响。添加标题 添加标题集群中的节点失效是一种常态,而不是一种异常。每时每刻总会有节点处在失效状态,需要通过软件程序模块,监视系统的动态运行状况。Google系统中的文件大小与通常文件系统中的文件大小概念不一样,文件大小通常以G字节计。Google文件系统中的文件读写模式和传统的文件系统不同。在Google应用(如搜索)中对大部分文件的修改,不是覆盖原有数据,而是在文件尾追加新数据。文件系统的某些具体操作不再透明,而且需要应用程序的协助完成,应用程序和文件系统API的协同设计提高了整个系统的灵活性。7.6.3 Google的云存储服务1Google文件系4445第7章云存储7.6.3 Google的云存储服务lBigTable是非关系型数据库,是一个稀疏的、分布式的、持久化存储的多维度排序Map。BigTable的设计目的是快速且可靠地处理PB级别的数据,并且能够部署到上千台机器上。lBigTable看起来像一个数据库,采用了很多数据库的实现策略。BigTable将数据统统看成无意义的字节串,将结构化和非结构化数据写入BigTable时,客户端需要首先将数据串行化。lBigTable已经实现了适用性广泛、可扩展、高性能和高可用性几个设计目标。lBigtable是一个为管理大规模结构化数据而设计的分布式存储系统,可以扩展到PB级数据和上千台服务器。lBigTable已经在超过60个Google的产品和项目上得到了应用,包括 Google Analytics、Google Finance等。2Google BigTableGoogle BigTable是构建于GFS之上的分布式数据库系统,其作用是处理Google内部大量的格式化以及半格式化数据。Google BigTable的特点介绍7.6.3 Google的云存储服务BigTable是非关4546第7章云存储总结S u m m a r y本章我们对云存储做了一个比较全面的介绍。首先对云存储的定义和特点进行了讨论,然后阐述了云存储的结构模型,并对云存储的两种架构体系TCS和LCS做了简单描述。云存储包含分布式块存储、分布式文件系统、分布式对象存储和分布式表存储四种类型。我们在对这四种类型概念进行介绍的基础上,描述了各自的特点和适用的应用场景。云存储是一个相当复杂的系统,它的实现涉及许多技术,包括存储虚拟化、数据容错、数据备份、数据压缩、和内容分发网络等技术。我们对这些技术逐一进行了描述和讨论。最后,我们介绍了几个典型的云存储服务,这些典型应用覆盖了四种云存储类型。总 结Summary本章我们对云存储做了一个比4647第7章云存储THANKSTHANKS47
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!