资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,通信与信息工程学院,*,第,11,章 海量信息存储,11/17/2024,1,通信与信息工程学院,第11章 海量信息存储10/7/20231通信与信息工程学,物联网背景下如何适应海量信息存储的需求,,数据中心,将成为,解决海量数据存储的主要手段,介绍典型网络存储体系结构及数据中心的基本概念,11.1 物联网对海量信息存储的需求,11.2 网络存储体系结构,11.3 数据中心,11.4典型的数据中心*,11.5 Hadoop*,11.6 数据中心的研究热点,第11章 海量信息存储,11/17/2024,2,通信与信息工程学院,物联网背景下如何适应海量信息存储的需求,数据中心将成为第11,11.1,物联网对海量信息存储的需求,11/17/2024,3,通信与信息工程学院,11.1 物联网对海量信息存储的需求10/7/20233通信,11.1 物联网对海量信息存储的需求,11/17/2024,4,通信与信息工程学院,11.1 物联网对海量信息存储的需求10/7/20234通信,11.1 物联网对海量信息存储的需求,全球信息总量迅猛增长,2007,年产生的数据量为281 EB(1 EB=10亿 GB),物联网中对象的数量将庞大到以百亿为单位,物联网中的对象积极参与业务流程的需求,高强度计算需求,数据的持续在线可获取特性,导致,网络化存储,和,大型数据中心,的诞生,11/17/2024,5,通信与信息工程学院,11.1 物联网对海量信息存储的需求全球信息总量迅猛增长10,11.2,网络存储体系结构,11/17/2024,6,通信与信息工程学院,11.2 网络存储体系结构10/7/20236通信与信息工程,11.2 网络存储体系结构,三种基本网络存储体系结构:直接附加存储,网络附加存储,存储区域网络,11.2.1 直接附加存储(DAS:Direct Attached Storage),将存储系统通过缆线与服务器或工作站相连,包括多个硬盘驱动器,与主机总线通过电缆或光纤连接,存储设备和主机总线适配器之间不存在其它网络设备,实现了计算机内存储到存储子系统的跨越,11/17/2024,7,通信与信息工程学院,11.2 网络存储体系结构三种基本网络存储体系结构:直接附加,11.2 网络存储体系结构,11.2.2 网络附加存储(NAS:Network Attached Storage),文件级,计算机数据存储架构,计算机连接到一个仅为其它设备提供基于文件数据存储服务,的网络,NAS,与DAS的区别,DAS,是对已有服务器的简单扩展,并未真正实现网络互联,NAS则将网络作为存储实体,更容易实现文件级别的共享,NAS性能比DAS有所增强,11/17/2024,8,通信与信息工程学院,11.2 网络存储体系结构11.2.2 网络附加存储(NAS,11.2 网络存储体系结构,11.2.3 存储区域网络(SAN:Storage Area Network),通过网络方式连接存储设备和应用服务器的存储架构,由服务器、存储设备和SAN连接设备组成,特点,存储共享,支持服务器从SAN直接启动,11/17/2024,9,通信与信息工程学院,11.2 网络存储体系结构11.2.3 存储区域网络(SA,11.2 网络存储体系结构,DAS:,易管理,结构简单;集中式体系结构,不能满足大规模数据访问的需求;存储资源利用率低,资源共享能力差,造成“信息孤岛”,NAS:,网络存储实体,实现文件级别共享;性能依赖于网络流量,用户数过多,读写过于频繁时性能受限,SAN:,存储管理简化,存储容量利用率提高;无直接文件级别的访问能力,但可在SAN基础上建立文件系统,11/17/2024,10,通信与信息工程学院,11.2 网络存储体系结构DAS:易管理,结构简单;集中式体,11.3,数据中心,11/17/2024,11,通信与信息工程学院,11.3 数据中心10/7/202311通信与信息工程学院,11.3 数据中心,维基百科,数据中心是一整套复杂的设施。不仅包括,计算机系统,和与之,配套的设备,(如通信和存储系统),还包含冗余的,数据通信,连接、环境控制设备、监控设备以及各种安全装置,Google,多功能,网络,建筑物,,容纳多个,服务器及通信设备,。这些设备,被放置在一起是因为它们具有相同的环境要求及物理安全需,求,并且这样放置便于维护,11/17/2024,12,通信与信息工程学院,11.3 数据中心维基百科10/7/202312通信与信息工,11.3 数据中心,大型机,微型机,大规模数据中心,(Mega Data Center),11.3.1 数据中心的起源及发展,11/17/2024,13,通信与信息工程学院,11.3 数据中心大型机微型机大规模数据中心11.3.1 数,11.3 数据中心,11.3.2 数据中心的相关标准,数据中心建设的难题,如何规划一个新的数据中心?,怎样对数据中心进行升级?,数据中心的标准对相关经验进行了总结,ANSI/TIA/EIA-942,(简称TIA-942):数据中心标准,由电信产业协会(TIA)提出,并经美国国家标准学会,(ANSI)批准,11/17/2024,14,通信与信息工程学院,11.3 数据中心11.3.2 数据中心的相关标准10/7/,11.3 数据中心,1、,选址与布局,需要考虑的因素,建设和运营成本,应用需求,政策优惠,布局,按功能区域划分,11/17/2024,15,通信与信息工程学院,11.3 数据中心1、选址与布局10/7/202315通信与,11.3 数据中心,(1)入口室:,放置互联网接入点设备的场所,(2)主分布区:,核心区域,各个LAN与SAN结构的核心路由,器及交换机所放置的区域,同时放置光纤、电缆等,(3)水平分布区:,主分布区的下层,水平缆线集中点,(4)设备分布区:,放置服务器和其它设备的机架与机柜,(5)区段分布区:,水平分布区与设备分布区间的连接点,可,放置独立设备,(6)主干缆线和水平缆线:,各个区域间的连接,11/17/2024,16,通信与信息工程学院,11.3 数据中心10/7/202316通信与信息工程学院,11.3 数据中心,TIA-942规定了,缆线系统、能源系统、降温系统、可靠性分级,(四个等级,P228229,表11.1),缆线系统,规格,如何放置,能源系统,外部电力供应,电池组,发电机,降温系统,降温设备,架空地板,冷通道与热通道,11/17/2024,17,通信与信息工程学院,11.3 数据中心TIA-942规定了缆线系统、能源系统、降,11.4,典型的数据中心,*,11/17/2024,18,通信与信息工程学院,11.4 典型的数据中心*10/7/202318通信与信息工,11.4 典型的数据中心*,11.4.1 Google数据中心,每月将近3.8亿用户、30亿次查询,每天处理20 PB数据、存有数十亿网页地址与个人资料,Google站点可靠性超过99.99%,全球共建有近40个大规模数据中心,单个,数据中心需要至少50兆瓦功率,约等于一个小型城市所有家庭的用电量,独特的硬件设备:定制的以太网交换机、能源系统等,11/17/2024,19,通信与信息工程学院,11.4 典型的数据中心*11.4.1 Google数据中心,11.4 典型的数据中心*,选址考虑,大量而廉价的电能,有利于获得风能、水利等低碳电能,靠近大型水源,为降温设备使用,较大面积空地,提供缓冲带,增加保密性,与其它数据中心的距离,保证数据高速互连,税收优惠,自行研发的软件技术:Google File System,、MapReduce、BigTable等,11/17/2024,20,通信与信息工程学院,11.4 典型的数据中心*选址考虑10/7/202320通信,11.4 典型的数据中心*,11.4.2 Google File System(GFS),Google处理超大规模数据密集型应用的分布文件系统,GFS的设计观念,组件失效不再被认为是意外,而是被看做正常的现象,GFS的文件非常巨大,对文件的操作具有特定的模式,文件系统,应用程序编程接口(,API:,Application Programming Interface),和应用程序的协同设计提高了整个系统的灵活性,11/17/2024,21,通信与信息工程学院,11.4 典型的数据中心*11.4.2 Google Fil,11.4 典型的数据中心*,GFS的设计架构,GFS,集群包含,一个主服务器和多个块服务器,,并被多个客户端访问,文件分成固定大小的“块”。每个块创建时都由主服务,器分配一个固定不变的64位唯一标识,块服务器把,“,块”作为Linux文件存储在本地磁盘上,并,根据指定的块字节范围对数据进行读写操作,11/17/2024,22,通信与信息工程学院,11.4 典型的数据中心*GFS的设计架构GFS集群包含一个,11.4 典型的数据中心*,主服务器维护所有文件系统的元数据,包括,名字空间、访,问控制信息、文件到块的映射信息以及块当前的位置。,此,外,主服务器还控制其它的系统级活动。主服务器周期性,与块服务器通信,以下达指令和收集状态,GFS,客户端代码嵌入到每个应用中,实现文件系统API、主服务器与块服务器的通信,从而代表应用实现读写操作,客户端与服务器交互,从而实现元数据操作,但所有数据操作都通过直接与块服务器交互而完成,11/17/2024,23,通信与信息工程学院,11.4 典型的数据中心*主服务器维护所有文件系统的元数据,,11.4 典型的数据中心*,11.4.3 MapReduce,MapReduce:,一种针对,超大规模数据集,的编程模型和系统,用MapReduce,开发的程序可在计算机集群上,并行执行,、,处理,计算机失效、调度计算机间的通信,MapReduce,的基本思想,用户编写两个程序:Map和Reduce,一个在计算机集群上执行多个程序实例的框架,11/17/2024,24,通信与信息工程学院,11.4 典型的数据中心*11.4.3 MapReduce1,11.4 典型的数据中心*,MapReduce,的执行流程(共7步,P235236),11/17/2024,25,通信与信息工程学院,11.4 典型的数据中心*MapReduce的执行流程(共7,11.4 典型的数据中心*,11.4.4 BigTable,BigTable:,在海量数据规模下(包含PB量级数据和数千台计,算机)管理结构化数据的分布式存储的系统,应用,Google,地球,网页索引,RSS阅读器,11/17/2024,26,通信与信息工程学院,11.4 典型的数据中心*11.4.4 BigTable10,11.4 典型的数据中心*,每个BigTable都是一个稀疏的、分布式的多维有序图,按行,键值、列键值和时间戳建立索引,(P236238),11/17/2024,27,通信与信息工程学院,11.4 典型的数据中心*每个BigTable都是一个稀疏的,11.5,Hadoop*,11/17/2024,28,通信与信息工程学院,11.5 Hadoop*10/7/202328通信与信息工程,11.5 Hadoop*,Hadoop,Apache,开源发布的分布式计算开源框架,用于大型集群廉价服务器设备上运行数据密集型分布式应用程序,早期是Google文件系统与MapReduce分布式,计算框架及相关IT基础服务的开源实现,包括多个子项目,HDFS、MapReduce、HBase、,Chukwa,、Pig、ZooKeeper,11/17/2024,29,通信与信息工程学院,11.5 Hadoop*Hadoop10/7/202329通,11.5 Hadoop*,HDFS(Hadoop Distributed File System)系统架构及特点,(P239240),设计前
展开阅读全文