资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,1,/36,第11章 机群系统,张晨曦 刘依,www.,GotoSchool,.net,第11章 机群系统,1,11.1,机群的基本结构,11.2,机群的特点,11.3,机群的分类,11.4,典型的机群系统,11.1 机群的基本结构,2,目前流行的高性能并行计算机系统结构通常可以分成,5类,:,并行向量处理机,(PVP),对称多处理机,(SMP),大规模并行处理机,(MPP),分布共享存储多处理机,(DSM),机群,(Cluster),优势:,低廉的价格、极强的灵活性和可缩放性,成为近年来发展势头最为强劲的系统结构,目前流行的高性能并行计算机系统结构通常可以分成5类:,3,全球Top500中机群计算机的数量和比例,时间,1997.6,1997.11,1998.6,1998.11,1999.6,1999.11,2000.6,2000.11,数量,1,1,1,2,6,7,11,28,比例,0.2%,0.2%,0.2%,0.4%,1.2%,1.4%,2.2%,5.6%,时间,2001.6,2001.11,2002.6,2002.11,2003.6,2003.11,2004.6,2004.11,数量,32,43,81,93,149,208,289,294,比例,6.4%,8.6%,16.2%,18.6%,29.8%,41.6%,57.8%,58.8%,时间,2005.6,2005.11,2006.6,2006.11,2007.6,2007.11,2008.6,数量,304,361,364,361,374,406,400,比例,60.8%,72.2%,72.8%,72.2%,74.8%,81.2%,80%,全球Top500中机群计算机的数量和比例时间 1997.6,4,机群,一种价格低廉、易于构建、可扩放性极强的并行计算机系统。,由多台同构或异构的独立计算机通过高性能网络或局域网互连在一起,协同完成特定的并行计算任务。,从用户的角度来看,,机群就是一个单一、集中的计算资源。,11.1.1 机群的硬件组成,11.1 机群的基本结构,机群11.1.1 机群的硬件组成11.1 机群的基本结构,5,11.1 机群的基本结构,一个简单,PC,机群的逻辑结构,4,台,PC,机通过交换机连接在一起。,NIC,表示网络接口,,PCI,表示,I/O,总线。,这是一种无共享的结构,大多数机群都采用这种结构。,如果将图中的交换机换为共享磁盘,则可以得到,共享磁盘结构的机群系统,。,11.1 机群的基本结构一个简单PC机群的逻辑结构,6,11.1 机群的基本结构,一个包含4个结点的简单PC机群,11.1 机群的基本结构一个包含4个结点的简单PC机群,7,11.1 机群的基本结构,构成机群的每台计算机都被称为一个,结点,。,每个结点都是一个完整的系统,拥有本地磁盘和操作系统,可以作为一个单独的计算资源供用户使用。,除了,PC机外,机群的结点还可以是工作站,甚至是规模较大的对称多处理机。,结点分类,计算结点,管理登录结点,I/O结点,11.1 机群的基本结构构成机群的每台计算机都被称为一个结点,8,11.1 机群的基本结构,机群的各个结点一般通过,商品化网络,连接在一起。,网络接口与结点的I/O总线以,松散耦合,的方式相连。,11.1.2 机群的软件,机群操作系统:,在各结点的操作系统之上建立一层操作系统来管理整个机群。,机群操作系统的功能,提供硬件管理、资源共享以及网络通信,实现,单一系统映象,11.1 机群的基本结构机群的各个结点一般通过商品化网络连接,9,11.1 机群的基本结构,Single System Image,,简称,SSI,一项重要功能,机群的一个重要特征,11.1 机群的基本结构Single System Imag,10,11.1 机群的基本结构,SSI有4重含义,单一系统,单一控制,逻辑上,最终用户或系统用户使用的服务都来自机群中唯一一个位置;,系统管理员通过一个唯一的控制点配置机群的所有软、硬件组件。,对称性:,用户可以从任一个结点上获得机群服务。,位置透明:,用户不必了解真正提供服务的物理设备的具体位置。,11.1 机群的基本结构SSI有4重含义,11,11.1 机群的基本结构,机群系统中的SSI至少应该提供以下三种服务:,单一登录,即用户可以通过机群中的任何一个结点登录,而且在整个作业执行过程中只需登录一次,不必因作业被分派到其它结点上执行而重新登录。,单一文件系统,在机群系统中,有一些对整个机群所有结点而言都相同的软件,它们没有必要在每一个结点上重复安装。,执行并行作业时要求每个结点都可以访问到这些软件,但它们在整个机群系统中应该只有一个备份。,11.1 机群的基本结构机群系统中的SSI至少应该提供以下三,12,11.1 机群的基本结构,单一作业管理系统,用户可以透明地从任一结点提交作业,作业可以以批处理、交互或并行的方式被调度执行。,PBS、LSF、Condor,和,JOSS,都是目前比较具有代表性的作业管理系统。,并行编程模型以及相关的并行编程环境,比较流行的并行编程工具:,MPI、PVM、OpenMP、HPF,机群系统的软件框架,11.1 机群的基本结构单一作业管理系统,13,11.1 机群的基本结构,机群系统的软件框架,11.1 机群的基本结构机群系统的软件框架,14,机群系统的优点,系统开发周期短,结点采用商品化的,PC,机、工作站,通过商用网络连接。,系统开发的重点,:通信子系统和并行编程环境,可靠性高,每个结点都是独立的,PC,机或工作站,可扩放性强,机群的计算能力随着结点数量的增加而增大,机群结构灵活(结点之间以松耦合方式连接),机群系统的硬件容易扩充和替换,可以灵活配置。,11.2 机群的特点,机群系统的优点11.2 机群的特点,15,11.2 机群的特点,性能价格比高,用户编程方便,机群的迅猛发展还得益于微处理器技术、网络技术和并行程序设计技术的进步。,微处理器技术的进步使得微处理器的性能不断提高,价格不断下降;,机群系统更容易融合到已有的网络系统中,而且随着网络技术的进步和高性能通信协议的引入,机群结点间的通信带宽进一步提高,通信延迟进一步缩短,逐步缓解了由于结点松散耦合引起的机群系统通信瓶颈问题。,11.2 机群的特点性能价格比高,16,11.2 机群的特点,随着PVM、MPI、HPF、OpenMP等并行编程模型的应用与成熟,使得在机群系统上开发并行应用更加方便。,机群的不足之处,由于机群由多台完整的计算机组成,它的维护相当于要同时去管理多个计算机系统,因此维护工作量较大,维护费用也较高。,11.2 机群的特点随着PVM、MPI、HPF、OpenMP,17,根据组成机群的各个结点和网络是否相同,分为:,同构、异构,根据结点是,PC还是工作站,分为:,PC机群、工作站机群,以机群系统的使用目的为依据,分为:,高可用性机群、负载均衡机群以及高性能机群,(最常用的分类方法),11.3 机群的分类,根据组成机群的各个结点和网络是否相同,分为:11.3 机群的,18,11.3 机群的分类,高可用性机群,主要目的:,当系统中某些结点出现故障的情况下,仍能继续对外提供服务。,采用冗余机制,当系统中某个结点由于软、硬件故障而失效时,该结点上的任务将在最短的时间内被迁移到机群内另一个具有相同功能与结构的结点上继续执行。,对于用户而言,系统可以一直为其提供服务。,适用于,Web,服务器、医学监测仪、银行,POS,系统等要求持续提供服务的应用。,11.3 机群的分类高可用性机群,19,11.3 机群的分类,负载均衡机群,主要目的:,提供与结点个数成正比的负载能力,要求:,机群能够根据系统中各个结点的负载情况实时地进行任务分配。,专门设置了一个重要的监控结点,负责监控其余每个工作结点的负载和状态,并根据监控结果将任务分派到不同的结点上。,适合大规模网络应用,如Web服务器或FTP服务器、大工作量的串行或批处理作业(如数据分析),11.3 机群的分类负载均衡机群,20,11.3 机群的分类,负载均衡机群适用于提供静态数据的服务;而高可用性机群既适用于提供静态数据的服务,又适用于提供动态数据的服务。,高性能计算机群,主要目的:,降低高性能计算的成本,通过高速的商用互连网络,将数十台乃至上千台PC机或工作站连接在一起,可以提供接近甚至超过传统并行计算机系统的计算能力,但其价格却仅是具有相同计算能力的传统并行计算机系统的几十分之一。,11.3 机群的分类负载均衡机群适用于提供静态数据的服务;而,21,11.3 机群的分类,按照构建方式将机群分为:,(一种比较常用的分类方法),专用机群,吞吐率较高,响应时间较短。,专用机群的结点往往是同构的,一般采用集中控制,由一个(或一组)管理员统一管理,而且用户一般需要通过一台终端机来访问它。,企业机群,各结点之间一般通过标准的LAN或WAN互连,通信开销较大、延迟较长,企业机群的各个结点一般是异构的,11.3 机群的分类按照构建方式将机群分为:,22,美国加州大学Berkeley分校开发,具有很多,优点:,采用商用千兆以太网和主动消息通信协议支持有效的通信。,通过用户级整合机群软件,GLUNIX,提供单一系统映象、资源管理和可用性,开发了一种新的无服务器网络文件系统,xFS,,以支持可扩放性和单一文件层次的高可用性。,11.4 典型机群系统简介,11.4.1 Berkeley NOW,美国加州大学Berkeley分校开发 11.4 典型机群系统,23,11.4 典型机群系统简介,主动消息,实现低开销通信的一种异步通信机制,基本思想,在消息头部控制信息中携带一个用户级子例程(称作消息处理程序)的地址。,当消息头到达目的结点时,调用消息处理程序通过网络获取剩下的数据,并把它们集成到正在进行的计算中。,主动消息相当高效和灵活,以至于各种系统都逐渐地用它作为基本的通信机制。,11.4 典型机群系统简介主动消息,24,11.4 典型机群系统简介,GLUNIX,运行在工作站标准,UNIX,上的一个软件层,属于自包含软件。,主要思想,机群操作系统应由底层和高层组成;,底层是执行在核模式下的结点商用操作系统,高层是能提供机群所需的一些功能的用户级操作系统。,特别地,这一软件层能够提供机群内结点的单一系统映象,使得所有的处理器、存储器、网络容量和磁盘带宽均可以被分配给串行和并行应用。,11.4 典型机群系统简介GLUNIX,25,11.4 典型机群系统简介,无服务器文件系统xFS,一个无服务器的分布式文件系统;,将文件服务的功能分布到机群的所有结点上,以提供低延迟高带宽的文件系统服务功能;,主要采用廉价冗余磁盘阵列、协同文件缓存和分布式管理等技术。,11.4 典型机群系统简介无服务器文件系统xFS,26,11.4 典型机群系统简介,目标,1GFlops,的计算处理能力和,10GB,的存储容量,价格不能过高,一个具有16个结点的机群,(Thomas Sterling与Don Becker二人构建),硬件:,Intel的DX4处理器以及10Mb/s的以太网,软件:,基于Linux系统以及其它一些GNU软件,11.4.2 Beowulf,11.4 典型机群系统简介目标 11.4.2 Beowulf,27,11.4 典型机群系统简介,将这个系统命名为,Beowulf,这种基于COTS(Commodity Off The Shelf)思想的技术也迅速由NASA传播到其它科研机构。,这类机群被称为,Beowulf机群,。,(Beowulf Class Cluster Computers),Beowulf并不是一套具体的软件包或是一种新的网络拓扑结构,它只是一种思想。,在达到既定目标的前提下,把注意力集中在获取更高的性能价格比上。,11.4 典型机群系统简介将这个系统命名为Beowulf,28,11.4 典型机群系统简介,使用低成
展开阅读全文