第五章 大规模并行处理机系统

上传人:yo****e 文档编号:55225249 上传时间:2022-02-17 格式:DOC 页数:24 大小:1.18MB
返回 下载 相关 举报
第五章 大规模并行处理机系统_第1页
第1页 / 共24页
第五章 大规模并行处理机系统_第2页
第2页 / 共24页
第五章 大规模并行处理机系统_第3页
第3页 / 共24页
点击查看更多>>
资源描述
时间就是金钱,效率就是生命!唯有惜时才能成功,唯有努力方可成就!第五章第五章 大规模并行处理机系统大规模并行处理机系统第五章第五章 大规模并行处理机系统大规模并行处理机系统 .15.1 MPP 技术概论 .15.1.1 MPP特性和问题.45.1.2 MPP系统概述.65.2 实例分析 1:CRAY T3E 的体系结构.95.2.1 T3E的体系结构.95.2.2 T3E的系统软件.105.3 新一代 ASCI/MPP 系统.115.3.1 ASCI可扩放设计策略.125.3.2 硬件和软件要求.135.3.3 定约的ASCIMPP平台.145.4 实例分析 2:INTEL/SANDIA ASCI OPTION RED.145.4.1 Option Red的体系结构.155.4.2 Option Red的系统软件.175.5 三个典型的 MPP 系统的运行性能评估.185.6 小结.20习题.22参考文献.23 本章首先讨论基本的 MPP 技术要点;接着采用实例分析的方式,介绍当前最具代表性的两个 MPP 系统(它们代表了获取大规模并行性的两条不同途径) ,即采用 NCC-NUMA体系结构的 Cray T3E 系统和采用 NORMA 体系结构的 Intel/Sandia ASCI Option Red 系统。同时本章也结合新一代 ASCI/MPP 系统的介绍讨论了 ASCI 可扩放设计策略,最后对三个典型的 MPP 系统的运行性能进行了评估。在小结中还披露了目前位于 TOP500 榜首的ASCI White 的概况。5.1 MPP 技术概论技术概论在诸如科学计算、工程模拟、信号处理和数据仓库等应用中,为了更高的利用并行性,SMP 系统的能力已经不能满足要求,我们需要使用可扩放性更高的计算机平台,这可以通过诸如 MPP,DSM 和 COW 等分布式存储器体系结构来加以实现。大规模并行处理机大规模并行处理机 MPP(Massively Parallel Processor)的结构示于图 5.1,Intel Paragon、IBM SP2、Intel TFLOPS 和我国的曙光-1000 等都是这种类型的机器。MPP 通常是指具有下列特点的大规模的计算机系统:在处理节点中使用商品化微处理器,且每个节点有一个或多个微处理器;在处理节点内使用物理上分布的存储器;使用具有高通信带宽和低延迟的互连网络,这些节点间彼此是紧耦合的;能扩展成具有成百上千个处理器;它是一个异步多指令流多数据流多指令流多数据流 MIMD 机,进程同步采用锁方式消息传递操作,而不是用共享变量同步操作加以实现;程序由多个进程组成,每个进程有自己的私有地时间就是金钱,效率就是生命!唯有惜时才能成功,唯有努力方可成就!址空间,通过显式的消息传递实现进程间互相通信,数据分布对于用户不是透明的。P/CLMNIC定制网络P/CLMNICMBMB图 5.1 MPP 并行机体系结构模型大规模并行处理机 MPP 一词的含义随时间不断在发生变化。按照现今的技术,它是指由成百上千甚至近万个处理器组成的大规模(Large-Scale)计算机系统。MPP 的主要应用是科学计算、工程模拟和信号处理等以计算为主的领域。在 TOP500(http:/www.top500.org)排名中,MPP 系统仍然占据着绝大部分。1999 年由 Intel 和 Sandia 研制成功的 ASCI Option Red(红色选择) ,其处理器数已高达 9632 个,属于高端 MPP 系统。目前的 MPP 系统主要有两种获取大规模并行的不同途径,包括以 Cray T3E 系统为代表的无硬件支持的高速缓无硬件支持的高速缓存一致性的分布式存储器存一致性的分布式存储器 NCC-NUMA 体系结构,和以 Intel/Sandia ASCI Option Red 系统为代表的非远程存储访问的非远程存储访问的 NORMA 体系结构。由于工作站机群 COW 采用的技术与 MPP有所重叠(特别是和采用 NORMA 体系结构的 MPP),两者的界限实际上也变得日益模糊。比如,IBM 的 SP2 除了用作通信网络的专用高性能开关之外,也被认为采用了机群体系结构。所以有时把使用机群机群(Clustering)方法构造的 MPP 系统(例如 IBM SP2 和曙光-2000)也列为机群一类(我们将在第 6 章机群系统中详细介绍)。消息传递的大规模并行处理系统在八十年代后期及九十年代中前期得到迅速发展。这一时期 MPP 系统的互连网络成为并行系统结构的研究热点(我们在第 3 章互连网络中已经做了详细介绍)。MPP 系统的研究虽已有较长的历史,但由于研制费用高,故主要由大公司或研究机构研制生产,尤其是超大规模的 MPP 系统(如峰值运算速度在每秒一万亿次以上浮点运算的系统),通常体现为政府行为,如美国的 ASCI (Accelerated Strategic Computing Initiative) 计划和 CIC (Computing Information and Commnucation Program) 计划中的高端并行机。ASCI 计划由美国能源部出资,在美国三大军用实验室使用由 IBM、Intel、SGI 三家公司研制的超级计算机进行核武器测试。2001 年 6 月 21 日,在德国 Heidelberg 召开的超级计算会议(SC2001 Conference)上发布了第 17 次 TOP500 名单(见表 5.1)。据统计,TOP500 中列出的超级计算机有 314 台MPP,40 台 SMP,33 台 Cluster 以及 113 台向量机,其中占绝大多数的还是 MPP。表 5.2列出了世界各地区/国家所安装的 TOP500 系统统计表。时间就是金钱,效率就是生命!唯有惜时才能成功,唯有努力方可成就!表 5.1 第 17 次 TOP500 名单的前 10 位一览表排名厂商和机器安装地点(位置/年份)用途处理器数Rmax/Rpeak(Gflop/s)Nmax/N1/21IBMASCI WhiteSP Power3 375MHzLawrence Livermore National LaboratoryLiveermore USA/2000能源研究81927226/12288518096/1790002IBMSP Power3 375MHz 16 路NERSC/LBNLBerkeley USA/2001研究25282526/3792371712/1024003IntelASCI RedSandia National Laboratory Albuquerque USA/1999研究96322379/3207362880/754004IBMASCI Blue Pacific SSTIBM SP 604eLawrence Livermore National LaboratoryLivermore USA/1999能源研究58082144/3868431344/未知5HitachiSR8000/MPPUniversity of TokyoTokyoJapan/2001学术11521709.1/2074141000/160006SGIASCI Blue MountainLos Alamos National LaboratoryLos AlamosUSA/1998研究61441608/3072374400/1380007IBMSP Power3 375MHzNaval Oceanographic Office(NAVOCEANO)Bay Saint LouisUSA/2000太空研究13361417/2004374000/未知8NECSX-5/128M8 3.2nsOsaka UniversityOsakaJapan/2001学术1281192/1280129536/102409IBMSP Power3 375MHzNational Centers for Environmental Prediction Camp SpringUSA/2000气候研究11041179/1656未知/未知10IBMSP Power3 375MhzNational Centers for Environmental Prediction Camp SpringUSA/2001气候研究11041179/1656未知/未知表 5.2 各地区/国家安装 TOP500 系统统计一览表公司美国/加拿大欧洲日本其他总计IBM1147467201Sun43276581SGI38168163Cray Inc.26152245Hewlett-Packard2990341NEC259218Hitachi0214016Fujitsu077115Compaq620210其他532010总计2631605423500时间就是金钱,效率就是生命!唯有惜时才能成功,唯有努力方可成就!5.1.1 MPP 特性和问题特性和问题1.MPP 公共结构 当代 MPP 系统的公共体系结构如图 5.2 所示。所有 MPP 都使用物理上分布的主存,并且越来越多的 MPP 使用了分布式 I/O。每个节点有一个或多个处理器和高速缓存(P/C)、一个局部存储器、有或没有磁盘。节点内有一个本地互连网络,连接处理器、主存和 I/O设备。在早期 MPP 中,本地互连网络通常就是一条总线,而目前的 MPP 使用了更高带宽的交叉开关网络。每个节点通过一个网络接口电路网络接口电路 NIC(Network Interface Circuitry)与网络相连。 磁盘和其它I/OP/CP/CMem 本地互连网络NIC 节点1磁盘和其它I/OP/CP/CMem 本地互连网络NIC磁盘和其它I/O高速网络(HSN) 节点N图 5.2 MPP 的公共体系结构2.可扩放性 MPP 的一个特殊之处在于系统被设计成可扩放至数千个处理器,且主存、I/O 能力和带宽能成比例的增加。MPP 采用了如下技术以提高可扩放性:使用物理上分布式主存的体系结构:它比集中式主存体系结构提供了更高的总主存带宽,因此有潜在的更高可扩放性;平衡的处理能力和主存与 I/O 能力:若没有成比例的高速主存和 I/O 子系统,那么数据不能以足够的速度送入处理器,高速处理器就几乎毫无价值;平衡的计算能力和并行性与交互能力:如无此特征,进程/线程管理及通信和同步的开销将是执行时间的主要部分。3.系统成本 因为在一个 MPP 中有许多节点和互连部件,所以控制每一部件的成本是必要的。我们可以采用如下一些技术降低成本:使用现有的商品化 CMOS 微处理器,这些微处理器最初是为工作站和服务器而开发的,它们的商品化特性获得了低价格并且吸引了巨大的投资,使得每 18 到 24 个月性能就翻一番(Moore 定律定律) ;使用稳定的体系结构以支持换代的可扩放性,shell 体系结构6就是这样一种技术;使用物理分布主存的体系结构,它比同样机器规模的集中主存体系结构价格便宜;使用 SMP 节点,可降低内部互连的规模。时间就是金钱,效率就是生命!唯有惜时才能成功,唯有努力方可成就!例例 5.1 用 Shell 方法提供各代可扩放性。如第一章的图 1.22 所示,壳(Shell)体系结构属于无共享系统结构无共享系统结构,它由互连网络相连的众多节点所组成,其中由用户设计的电路(称为壳)将一个商品化微处理器和节点的其余部分相连接,后者包括一个(板级)高速缓存、局部存储器、网络接口电路 NIC 和磁盘。在一个节点中可能有多个处理器。作为稳定体系结构的一个例子,本章讨论的所有 MPP 或多或少遵循了 shell 方法。采用 shell 方法,当微处理器发展至下一代时,系统的其它部分无需改变。当前的商品化微处理器是为小型系统如 PC、工作站和 SMP 服务器设计的,而并非针对 MPP。在使用这样的微处理器带来许多可扩放性和成本高效的好处的同时也产生了一些问题,尤其是那些基于 DSM 体系结构的系统。下面列出了 MPP 设计者必须致力解决的某些问题:微处理器可能没有足够大的物理地址空间,例如,用于 Cray T3D MPP 的Alpha 21064 微处理器仅提供了 8GB 的物理地址空间,而 T3D 有 128GB 的最大物理主存,因此 Cray T3D 的设计者不得不增加一个称为 DTB Annex 的特殊硬件以扩展物理地址空间;微处理器可能没有足够大的转换后援缓冲区后援缓冲区 TLB(Translation Look-aside Buffer),而 TLB缺失远比高速缓存失效代价昂贵,对于有着大数据集和不规则主存存取模式的应用,TLB缺失会大大降低性能;微处理器每次只访问主存的一个高速缓存行,这使得单字(Single-Word Stride)存取的效率很低,同时当前的微处理器仅在小范围中支持无阻塞高速缓存,只允许一到两个未完成的主存访问,这大大限制了 MPP 所需的时延容许能力;与其计算能力相比,微处理器对操作系统支持不足,异常处理和交叉保护边界代价昂贵,使得有效支持进程管理、通信和同步很困难。4.通用性和可用性当代 MPP 成功的经验是:一个成功的 MPP 必须是通用系统,能支持不同的应用(如技术和商业)、不同算法范例以及不同的操作方式。它不应该只支持小范围中的应用,而将特定的环境限于特定的体系结构上。现在的 MPP 更明确地提供了以下特性:MPP 支持异步 MIMD 模式,在通用的 MPP 中,SIMD 已逐渐消失;MPP 支持流行的标准编程模式,包括消息传递消息传递(PVM 及 MPI)和数据并行数据并行(HPF) ;节点被分配到若干个“池” (或称“分区” )中,以在交互和批处理方式中支持小的或大的作业;内部互连拓扑结构对用户透明,用户只看到全互连的节点集合;MPP 在不同层次上支持单一系统映象单一系统映象 SSI(Single System Image) ,紧耦合 MPP 通常使用分布式操作系统,在硬件和 OS 层提供单一系统映像;据估计一台有 1000 个处理器的 MPP 每天至少有一个处理器失效1,所以 MPP 必须使用高可用性技术。5.通信需求 MPP 与工作站机群的关键差别在于节点间的通信:在工作站机群中,节点通常通过标准局域网相连;而在 MPP 中,节点系由高带宽及低时延的高速专有网络互连,同时还提供专有通信软件以实现高性能。 所有这些使得现有 MPP 在通信性能上超过工作站机群。然而可以预见在今后十年间,标准网络技术将有飞速发展,所以目前无法确定应用于 MPP 的连接技术,在未来多长时间时间就是金钱,效率就是生命!唯有惜时才能成功,唯有努力方可成就!内还将继续领先于应用于工作站机群的网络技术。6.主存和 I/O 性能 因为能大规模扩展,所以 MPP 可以提供其它体系结构中无法具有的非常大的总主存和磁盘容量。此外,商用 MPP 尤其注重高速 I/O 系统。目前在许多系统中,不仅主存,I/O子系统也是物理分布的,但 I/O 的发展仍落后于系统的其它部分,所以如何提供可扩放的I/O 子系统是一个活跃的研究领域。5.1.2 MPP 系统概述系统概述表 5.3 列出了三种现有 MPP 的结构特点,它们分别代表构造大型系统的不同方法,其中 IBM SP2 是一种构造 MPP 的机群化方法。表 5.3三种大型并行处理机比较一览表MPP 模型Intel/Sandia ASCI Option RedIBM SP2SGI/Cray Origin2000一个大型样机的配置9072 个处理器,1.8Tflop/s(NSL)400 个处理器,100Gflop/s(MHPCC)128 个处理器,51Gflop/s(NCSA)问世日期1996 年 12 月1994 年 9 月1996 年 10 月处理器类型200MHz, 200Mflop/s Pentium Pro67MHz,267Mflop/s POWER2200MHz,400Mflop/s MIPS R10000节点体系结构和数据存储器2 个处理器,32 到256MB 主存,共享磁盘1 个处理器,64MB到 2GB 本地主存,1GB 到 14.5GB 本地磁盘2 个处理器,64MB到 256MB 分布共享主存和共享磁盘互连网络和主存模型分离两维网孔,NORMA多级网络,NORMA胖超立方体网络,CC-NUMA节点操作系统轻量级内核(LWK)完全 AIX(IBM UNIX)微内核 Cellular IRIX自然编程机制基于 PUMA Portals的 MPIMPI 和 PVMPower C, Power Fortran其他编程模型Nx,PVM,HPFHPF,LindaMPI,PVM Intel ASCI 系统遵循了小节点、紧耦合网络互连和计算节点的微内核操作系统一种更传统的 MPP 方法。它是 Intel Paragon MPP 系统的后代。SP2 和 Intel ASCI 都是使用NORMA 访存模型的消息传递多计算机,节点间通信依靠机器中的显式消息传递。SGI/Cray Origin 2000 代表一种构造 MPP 的不同方法,其特征为一个可全局存取的物理上分布的主存系统,使用硬件支持高速缓存的一致性。另一采用类似于 CC-NUMA 体系结构的 MPP 是 HP/Convex Exemplar X-Class。Cray 的 T3E 系统也是分布式共享存储机器,但没有硬件支持的高速缓存一致性,因此是一个 NCC-NUMA 机器。这种分布式共享存储机器的本地编程环境提供了共享变量模型。在应用编程的层次上,所有 MPP 现在都支持如C、Fortran、HPF、PVM 和 MPI 等的标准语言和库。时间就是金钱,效率就是生命!唯有惜时才能成功,唯有努力方可成就!1.面临的主要问题 MPP 系统长期以来没有很好解决如下问题:实际的性能差:实际的性能差:MPP 的实际可用性能通常远低于其峰值性能,这一点我们可以从表 5.1 中 Rmax 和 Rpeak 的较大差距观察出来;可编程性:可编程性:并行程序的开发比较困难,串行程序向并行程序的自动转换效果不好,且不同平台间并行程序的有效移植也有一定的难度。这两个问题实际上也是高性能计算系统面临的普遍问题。2.过去的 MPP 过去,MPP 主要用于科学超级计算,著名的系统主要包括 Thinking Machine 的CM2/CM5、NASA/Goodyear 的 MPP、nCUBE、Cray T3D/T3E、Intel Paragon、MasPar MP1、Fujitsu VPP500 和 KSR 1 等。其中一些具有向量硬件或仅开拓了 SIMD 细粒度数据并行性。表 5.4 列出了部分 MPP 系统的特性比较。表 5.5 列出了 MPP 所用的几个典型微处理器特性参数。当今微处理器系列及其代表性的 CPU 芯片如图 5.3 所示。表 5.4 典型 MPP 系统特性比较一览表结构特性IBM SP2Cray T3DCray T3EIntel ParagonIntel/Sandia Option Red典型配置400 个节点100Gflops512 个节点153Gflops512 个节点1.2Tflops400 个节点40Gflops4536 个节点1.8Tflops推出日期19941993199619921996CPU 类型67MHz267MflopsPOWER2150MHz150MflopsAlpha 21064300MHz600MflopsAlpha 2116450MHz100MflopsIntel i860200MHz200MflopsPentium Pro节点结构数据存储1 CPU64MB-2GB局存,14.5GB本地磁盘2CPU64MB 主存,50GB共享磁盘48CPU256MB16GBDSM 主存,共享磁盘12CPU16128MB局存,48GB共享磁盘2 CPU32256MB 局存,共享磁盘互连网络多级互连网络3-D 环绕3-D 环绕2-D 网孔Split2-D 网孔访存模型NORMANUMANCC-NUMANORMANORMA节点 OSComplete AIX(IBM Unix)微核基于 Chorus 的微核微核轻量级核(LWK)编程模型消息传递共享变量、消息传递、PVM共享变量、消息传递、PVM消息传递基于 PUMA Portals消息传递编程语言MPI、PVM、HPF、LindaMPI、HPFMPI、HPFNX、MPI、PVMNX、PVM、HPF点到点通信延迟40us2usN/A30us10us点到点带宽35MB/s150MB/s480MB/s175MB/s380MB/s表 5.5 MPP 所用的高性能 CPU 特性参数一览表属性Pentium ProPowerPC 602Alpha 21164AUltra SPARC IIMIPS R10000工艺BiCMOSCMOSCMOSCMOSCMOS晶体管数5.5M/15.5M7M9.6M5.4M6.8M时钟频率150MHz133MHz417MHz200MHz200MHz电压2.9V3.3V2.2V2.5V3.3V功率20W30W20W28W30W时间就是金钱,效率就是生命!唯有惜时才能成功,唯有努力方可成就!字长32 位64 位64 位64 位64 位I/O 高速缓存8KB/8KB32KB/32KB8KB/8KB16KB/16KB32KB/32KB2 级高速缓存256KB(多芯片模块)1128MB(片外)96KB(片上)16MB(片外)16MB(片外)执行单元5 个单元6 个单元4 个单元9 个单元5 个单元超标量3 路(Way)4 路4 路4 路4 路流水线深度14 级48 级79 级9 级57 级SPECint 92366225500350300SPECfp 92283300750550600SPECint 958.0922511N/A7.4SPECfp 956.7030017N/A15其它特性CISC/RISC混合短流水线长L1 高速缓存最高时钟频率最大片上2 级高速缓存多媒体和图形指令MP 机群总线可支持 4个 CPU Intel x86 系列: 86,286,386,486,Pentium, Pentium Pro CISC Motorola 系列: M68x0 和 680 x0 Digital: VAX(VLSI version) 通用芯片 Digital Alpha 系列: 21064, 21164, 21264 MIPS 系列:R2000, R3000, R4000, R5000, R8000 R10000 HP/PA-RISC 系列: PA 7300 和 PA 8000微处理器 RISC Sun SPARC 系列: SPARC, MicroSPARC, SuperSPARC 和 UltraSPARC PowerPC 系列: 601, 603, 604e, 620, 630 DSP 芯片: Digital SA-110, Motorola 68EC040 嵌入式 RISC 媒体处理器: Hitachi SuperH,NEC R4300 微控制器: Intel i960,IBM PowerPC 403GA 图 5. 3 微处理器系列及其代表性 CPU 芯片 现今,许多人认为随着 Thinking Machine 公司、Cray 研究公司、Intel Scalable System Division(Intel 可扩放系统分部)以及许多其它超级计算机公司的衰落,MPP 已经死亡。可事实是,由于近年来在工业、贸易和商业上日益增长的需求,大规模并行处理又重新复苏了。时间就是金钱,效率就是生命!唯有惜时才能成功,唯有努力方可成就!3.商业中的 MPP 应用大多数 MPP 的技术和研究文献均着重于科学工程计算上,许多文章讨论 MPP 上的并行计算如何能解决巨大的挑战性问题。这就可能产生误导,认为 MPP 只适用于非常巨大的、并行的科学计算应用。但事实上,许多 MPP 已经被成功地用于商业和网络应用中。例如在1997 年售出的 3000 台 SP2 系统中,有一半左右是用于商业应用,其余的一半中,有很大比例是用于 LAN 连网,仅有一小部分是用于科学超级计算。 商业 MPP 应用的最热门领域是数据仓库、决策支持系统和数字图书馆。可扩放性、可用性和可管理性在高性能商业应用市场上尤为重要。5.2 实例分析实例分析 1:Cray T3E 的体系结构的体系结构1995 年交付的 Cray T3E 是 1993 年生产的 Cray T3D 系统的后继产品。它使用了更快的部件,并做了一些体系结构上的修改以提升性能。对一系列基准程序测试和应用评估导致了 T3D 体系结构的这些改变2,3,4。5.2.1 T3E 的体系结构的体系结构如图 5.4 所示,Cray T3E 是一个分布式共享主存(NCC-NUMA)的多处理机。系统由多个处理单元 PE(Processing Element)组成,PE 间由一个三维双向环网互连以提供快速通信,并由一些千兆环通道提供与 I/O 设备的连接。双向三维环网链接处理单元(PE)Alpha21164本地主存控制和E-寄存器路由器Shell处理单元(PE)Alpha21164本地主存控制和E-寄存器路由器Shell磁盘、磁带、网络和其他I/O设备(SCSI,IPI,ESON,HiPPI,ATM,FDDI,Fibre Channel等)千兆环通道图 5.4 Cray T3E 体系结构图表 5.6 中列出了 T3E 的体系结构特性。T3E-900 是 1996 年底发布的 T3E 增强型。其最主要的区别是 T3E-900 使用了 450MHz 的处理器时钟(T3E 为 300MHz) ,并且起始价低于时间就是金钱,效率就是生命!唯有惜时才能成功,唯有努力方可成就!50 万美元(T3E 为 100 万)。表 5.6 Cray T3E 和 T3E-900 的性能属性一览表属性T3ET3E-900处理器时钟频率(MHz)300450峰值处理器速度(Mflops)600900处理器数量6204862048系统峰值速度(Gflops)3.612285.41843物理主存容量(GB)1409614096总峰值主存带宽(GB/s)7.224507.22450I/O 通道最大数目11281128总峰值 I/O 带宽(GB/s)11281128峰值三维环网链接带宽(MB/s)6006001.处理单元 T3E 的每个 PE 中有一个 DEC Alpha 21164 微处理器5,其外部是一个 shell 电路,包括一个本地主存、一个控制芯片和一个路由芯片。系统(Shell)逻辑时钟为 75MHz,而21164 处理器时钟为 300MHz,其峰值速度可达 600Mflop/s。 本地主存提供 64MB 到 2GB 的容量以及 1.2GB/s 的峰值带宽。路由芯片有 7 个双向端口,l 个连向 PE,其余 6 个是连到三维环网的 6 个链接上。 定制的控制芯片实现分布式共享主存,它由所有 PE 中的本地主存组成。每个处理器可以存取任何 PE 中的主存,每个 PE 可以通过千兆环通道存取任何 I/O 设备。这个芯片同时负责支持时延隐藏和有效同步。T3E 的处理单元没有主板级高速缓存,而是使用 21164 处理器中的高速缓存。片内的高速缓存有两级:第一级由一个 8KB 指令高速缓存和一个 8KB 数据高速缓存组成;第二级是一个三-路组-相联(Three-Way Set-Associative)的 96KB 统一高速缓存,用于指令和数据。之所以不使用主板级高速缓存是因为可以提高主存储器的带宽。2.互联网络 T3E 采用三维环网15支持低时延高带宽的通信,该网络每个系统时钟(13.3ns) 能向所有六个方向传递一个 64 位字,一个 512PE 系统的对剖带宽超过 122GB/s。网络采用了一个自适应的最短路径选路算法,可允许消息绕过繁忙地段。3.I/O 子系统T3E I/O 子系统的核心是千兆环通道14,它连向环网和处理单元。每个千兆环通道是一对循环计数的 32 位环,两个环中的数据流向相反,以提高带宽和可靠性。最多可有 16 个 PE 连向 1 个千兆环通道,每个通道的峰值带宽 1GB/s。在最大配置中,拥有多个千兆环通道的 I/O 子系统能提供 128GB/s 的 I/O 带宽。除了 PE,其它类型的 I/O节点也连向千兆环通道,其中包括:多用途节点多用途节点:接受 Sbus 控制器卡以支持SCSI、FDDI、Ethernet 和 ATM;磁盘节点磁盘节点:支持连在光纤通道及 IPI(一种 Cray 磁盘技术)上的磁盘和 RAID;磁带节点磁带节点:支持 Block Mux 和 ESCON 磁带驱动;HiPPI 节点节点:时间就是金钱,效率就是生命!唯有惜时才能成功,唯有努力方可成就!支持 100MB/s 或 200MB/s 的 HiPPI 通道。5.2.2 T3E 的系统软件的系统软件 与 T3D 需要一个 Cray C90 作为前端不同,T3E 是一个自主系统,它运行 Cray64 位Unix 系统(UNICOS)的一个变体,称为 UNICOS/mk。这是一个分布式操作系统,在核心层提供单一系统映象。T3E 提供一个集成环境,支持共享变量、消息传递和数据并行编程。1.操作系统 UNICOS/mk 系统分为一些本地和全局服务器。PE 分为用户 PE 和系统 PE:前者运行用户的应用和命令;后者负责提供全局操作系统服务。每个用户 PE 包括本地服务器和一个源自 CHORUS 系统13的 Unix 微内核。 所有特定的进程请求都由微内核和本地服务器进行处理,包括主存分配和消息/数据传递;全局服务器提供系统范围的服务,包括进程管理、文件空间分配、调度、安全性和I/O 管理等。 UNICOS/mk 系统通过自动作业恢复支持可用性,其方法有内核支持的检测点/重启、共享文件系统、保证文件移动等。可用性包括提供资源管理、系统管理、系统监控、记帐、作业调度和安全性服务等一组工具。 为获得可扩放的 I/O,UNICOS/mk 系统实现了分布式文件系统管理。用户 PE 中的本地文件服务器提供无缓冲的读/写请求服务。只是不太常用的请求(如文件打开和关闭)才需要使用全局文件服务器。多文件服务器能够实现并行 I/O 传递。2.编程环境 T3E 提供了 Fortran 90、C 和 C+的优化编译器以及一系列优化和并行化的科学与数学库。T3E 支持使用 Fortran 90 和 HPF 语言的数据并行编程;也支持使用 PVM 和 MPI 库的消息传递编程;还支持使用 Cray 共享主存库 SHMEM 和 CRAFT 编译器命令与库例程的共享变量编程。这些工具可以混合使用。 此外,T3E 提供了一组环境工具以帮助开发有效的并行程序,它们包括:一个称为TotalView 的用于并行应用的符号源程序级调试器,它使用户可以控制和显示单个进程或进程组的进度;一个称为 MPP Apprentice 的并行性能分析工具,这是一个专家系统,它解释性能信息并作出提高性能的建议。5.3 新一代新一代 ASCI/MPP 系统系统 为开发高性能超级计算机,在美国有两个主要努力方向:Petaflops 项目和 ASCI 计划。Petaflops 项目瞄准实现 Pflop/s(每秒千万亿次浮点运算)速度超级计算机的长期目标。近来的研究揭示,使用传统技术和商品化市售商品化市售 COTS(Commodity Off The Shelf)部件,这样的 MPP 可在 2015 年制造出来,其成本为 10 亿美元。时间就是金钱,效率就是生命!唯有惜时才能成功,唯有努力方可成就! 使用特殊的技术,1 个 Pflop/s 的超级计算机可望在 2007 年前出现,但成本尚不可知。目前还不清楚新奇的技术是否会战胜主流计算机公司寄希望的 COTS。但不管怎么说,1Pflop/s 系统必须在几千个处理器的范围中有效地发掘出大规模并行性,以使百万个以上的线程并发运行,这对软件而言提出了巨大的挑战。 在 1994 年,美国能源部 DOE(Department Of Energy)发起加速战略计算创新加速战略计算创新ASCI(Accelerated Strategic Computing Initiative)计划。该计划为期十年,耗资十亿美元制造Tflop/s 的超级计算机系统,用来模拟核武器库存的老化影响,生物技术、医学和制药学的研究,天气预报,航天器和汽车设计,工业处理的发展及环境保护等。5.3.1 ASCI 可扩放设计策略可扩放设计策略1.加速发展和平衡的可扩放设计 ASCI 计划将超级计算机系统开发成为地下核试验的可靠替代品,其目标是到 1996 年完成 1Tflop/s 系统,到 2000 年左右完成 10 至 30Tflop/s 系统,到 2004 年完成 100Tflop/s系统,且这些系统应该成本相近。欲从 1994 年的 1Gflop/s 到 2004 年的 100Tflop/s,在 10 年间性能提高 105倍,按照计算机工业目前的趋势这是无法达到的。根据 Moore 定律,性能提高 105倍同时保持成本稳定需要 26 到 32 年,这就意味着到 2025 年才能达到 100Tflop/s。 ASCI 计划采用的策略有两个显著特点:加速发展加速发展和平衡的可扩放设计平衡的可扩放设计。ASCI 计划不仅瞄准峰值速度,而且总的系统持续的应用性能要 5 倍于 1994 年。这就要求一种用以下加速步骤来表征的平衡的可扩放设计方法:着重用于科学计算应用的高端平台,而非大批量市场平台和市场热点应用;使用尽可能多的商品化市售(COTS)硬件和软件部件,着重开发主流计算机公司未有效提供的关键技术;使用大规模并行体系结构,着重于缩放和集成技术,将数千个 COTS 节点纳入一个有单一系统映象的高效平台。2.可扩放设计途径 表 5.7 给出了直至 2003 年实现平衡可扩放计算环境的 ASCI 途径,该途径针对美国核能和武器研究计划对超级计算需求。平衡设计策略包括下列工程考虑:端对端性能端对端性能:印象深刻的峰值速度或基准测试性能并不是充分的,端坐在桌面计算机前的科学家应该看到的是目标应用的性能提升 105,这包括开发代码的全过程,提交和运行作业,显示结果等等;平衡的可扩放硬件平衡的可扩放硬件:可扩放的和平衡的硬件意味着从桌面机和网络硬件能全面地向超级计算机平台扩展,一条平衡设计准则应是:1Gflop/s 峰值速度应与 1GB 主存、50GB 磁盘、10 TB 档案存储器、16 GB/s 高速缓存带宽、3GB/s 主存带宽、0.1GB/s I/O 磁盘带宽以及 1MB/s 档案存储器带宽相匹配;平衡的可扩放软件平衡的可扩放软件:ASCI 认为新的软件开发将使性能改进 10 到 100 倍,这样的软件工具不仅使科学家能有效地使用超级计算机,而且提高了他们的生产力,ASCI 估计如果没有这些工具,则开发可供生产(Production-quality)的应用程序将耗时 30 年以上。表 5.7 用于未来 MPP 平衡设计的 ASCI 策略一览表属性1996199719982003时间就是金钱,效率就是生命!唯有惜时才能成功,唯有努力方可成就!应用性能(倍数)11000100,000峰值计算速度(Gflops)100100010,000100,000主存容量(TB)0.050.5550磁盘容量(TB)0.11110101001001000档案存储容量(PB)0.131.313130I/O 速度(GB/s)5505005000网络速度(GB/s)0.131.3131305.3.2 硬件和软件要求硬件和软件要求ASCI 基金代理已向美国三大计算机公司提出了用以构造 ASCI 计算平台的一整套硬件和软件要求,这些要求可描述如下:1.硬件要求构造 ASCI 超级计算机的处理器、存储器体系结构和 I/O 子系统的要求均有详细说明。例如,ASCI 对存储器要求如表 5.8 所示。其中,有两组要求指标:大部分指标的要求时限为 1998 年,括号中的指标需要在 2000 年完成。粗体字的指标表示根据 1997 年的时间框架来看,工业的发展落后于要求;细体字的指标是当前的工业能力可达到的。至于对每个处理器的本地主存要求,假设一个处理器时钟为 200MHz(5ns CPU 周期时间) ,速度为 400-Mflop/s,那么表 5.8 中本地主存时延要求相应为 1998 年的 150 到 400 ns,2000 年的 75 到 150 ns。用于随机读/写的主存带宽应该为 800 到 3200MB/s 峰值(2000年保持相同) ,本地主存的容量至少为 400 GB。表 5.8 美国能源部制定的 ASCI 存储器要求一览表存储器层次有效时延(CPU 周期)读/写带宽*存储容量*片内高速缓存,L1231632 B/cycle10-4B/flop/s片外高速缓存,L25616B/cycle10-2B/flop/s本地主存3080(1530)28B/flop 峰值峰值(28B/flop 持续持续)1B/flop/s邻近节点300500(3050)18B/flop(8B/flop) 1B/flop/s1B/flop/s远处节点1000(100200)1B/flop1 B/flop/sI/O 速度(主存磁盘)10ms0.010.1B/flop10100 B/flop/s档案(磁盘磁带)秒级0.001B/flop(0.010.1B/flop)100B/flop/s(104B/flop/s)用户存取时间0.1s(1/60s)OC3/desktop(OC1248/desktop)100 个用户多地点0.1s未知未知注:粗体指标表示工业界无法满足 1997 年要求。细体指标与之相反。大部分指标的需要在 1998 年满足,括号内的指标定于 2000 年满足。*每单位工作负载或每 CPU 时钟的带宽。*每单位速度(flop/s)的容量。时间就是金钱,效率就是生命!唯有惜时才能成功,唯有努力方可成就!2.软件要求 ASCI 对软件要求在表 5.9 中作了详细说明。在软件领域中,工业远远落后于要求。因此,主要应着重于软件的开发。以下列举的是 ASCI 对人/机界面、应用和编程环境及分布式操作系统等的要求:人机界面人机界面:可视化和因特网技术;应用环境应用环境:数学算法、网格生成、域分解和科学数据管理;编程环境编程环境:编程模型、库、编译器、调试器、性能工具和对象技术;分布式操作软件分布式操作软件:I/O、文件和存储系统、可靠性、通信、系统管理、分布式资源管理;诊断性能监控器诊断性能监控器:系统状态正常和监控仪器。表 5.9 ASCI 软件要求和工业能力一览表软件要求安全性可扩放性功能性可移植性人机界面可视化因特网应用环境编程环境分布式操作软件诊断性能监控器注:表示工业能满足需求。表示工业无法满足需求。 表示需求随时间上升。表示需求保持不变。5.3.3 定约的定约的 ASCIMPP 平台平台表 5.10 综合了 ASCI 计划中已启动的 4 个项目。命名分别为 Option Red、Blue Pacific、Blue Mountian 和 Option White 的 4 个 MPP 系统已被安装在 3 个 DOE 国家实验室中。2 个 IBM 系统均为高端 SP 系统,其中 Option Red 机将在 5.4 节中详细论述。表 5.10中的一个节点是指运行一个操作系统映像拷贝的一个子系统。应注意的是,MIPS 处理器(以及 PowerPC 处理器)在一个时钟周期内可完成 2 个浮点运算,Pentium Pro 处理器则是每个时钟周期完成 1 个浮点运算,而 POWER3 处理器在每个时钟周期内完成 4 个浮点运算。Blue Mountain 系统由 48 个节点的机群所组成,其中每一个节点是一个有 128 个处理器的 Origin 2000 CC-NUMA 系统。节点内的互连为胖超立方体。48 个 Origin 2000 系统用4 兆位 HiPPI 一 800 交换开关连成一个机群,其中每个链路的双向峰值带宽为1.6Gb/s。SGI 计划通过扩展 CC-NUMA 节点最多可含有 512 个处理器,并用基于 HiPPI-6400 标准的千兆字节系统网络千兆字节系统网络 GSN(Gigabyte System Network)将这些节点互连,其链路的双向峰值带宽可达到 1.6GB/s。表 5.10 四个 ASCI MPP 平台综合一览表Option Blue特性Option RedBlue PacificBlue MountainOption White制造商IntelIBMSGIIBM安装场所SandiaLivermoreLos AlamosLivermore完成日期1997 年 6 月1998 年 12 月1998 年 12 月2000 年 12 月成本(百万美元)559411085所选用处理器Pentium Pro 200MHz200Mflop/sPowerPC 604 332MHz664Mflop/sMIPS 10000250MHz500Mflop/sPOWER3311MHz1244Mflop/s系统体系结构NORMA-MPPSMP 机群 CC-NUMA 机群SMP 机群时间就是金钱,效率就是生命!唯有惜时才能成功,唯有努力方可成就!4CPU/节点1464 节点128CPU/节点48 节点16CPU/节点512 节点节点内连接总线交叉开关胖超立方体交叉开关节点间连接分离 2D 网孔Omega 开关千兆位开关Omega 开关处理器数量9216585661448192峰值速度1.8Tflop/s3.888Tflop/s3.072Tflop/s10.2Tflop/s主存容量594GB2.5TB1.5TB4TB磁盘容量1TB75TB75TB150TB5.4 实例分析实例分析 2:Intel/Sandia ASCI Option Red Option Red 是一个由 Intel 可扩放系统公司和 Sandia 国家实验室联合开发的 MPP 系统,系统在 1996 年 12 月移交给 Sandia 国家实验室,完整的配置在 1997 年 6 月完成。5.4.1 Option Red 的体系结构的体系结构Option Red 是一个如图 5.5 所示的分布式存储 MPP 系统,它总共有 4608 个节点(每个节点有两个 200MHz Pentium Pro 处理器)和 594GB 的主存,其峰值速度为 1.8Tflop/s、峰值截面(Cross-Section)带宽为 51 GB/s。在这些节点中,计算节点计算节点(Compute Node)4536 个,服务节点服务节点(Service Node)32 个, I/O 节点节点(I/O Node) 24 个,系统节点系统节点(System Node)2 个,其余是备份节点。系统有 1540 个供给电源,616 个互连底板和 640 个磁盘(大于 1TB 的容量) 。A AT TM MHiPPI,等PCI节点计算节点计算节点服务节点PCI节点PCI节点计算节点计算节点服务节点以太网节点磁盘PCI节点计算节点计算节点服务节点引导节点磁带节点站操作员引导RAID系统结点I/O节点计算节点服务节点I/O节点E Et te er rn ne et t图 5.5 ASCI Option Red 系统框图1.节点体系结构 计算节点用于执行并行计算,服务节点用于支持登录、软件开发及其它交互操作,I/O节点用于存取磁盘、磁带、网络(以太网、FDDI、ATM 等)和其它 I/O 设备。另有两个系统节点用于支持系统 RAS 能力:其中引导节点引导节点(Boot Node)负责初始系统引导及提供服务;节节时间就是金钱,效率就是生命!唯有惜时才能成功,唯有努力方可成就!点站点站(Node Station)用于单一系统映象支持。计算节点和服务节点的实现相同,如图 5.6(a)所示,两个节点在一块主板上。两个SMP 节点通过网络接口部件 NIC 相连在一起,只有一个 NIC 连向互连底板。 每个节点的本地 I/O 包括以下部分:一个称为节点维护端口节点维护端口(Node Maintenance Port)的串行口,它连至系统内部以太网,并用于系统引导程序、诊断和 RAS;扩展连接器用于节点测试;引导支持硬件包括一个快闪(Flash)ROM,它内含节点可信测试(Node Confidence Test) 、BIOS 以及诊断节点失效和装载操作系统所需的其它代码。I/O 和系统节点的主板(图 5.6(b)与双节点主板(图 5.6(a)相似。然而,此处只有 2 个处理器(1 个节点) 、l 个本地单总线和 1 个单 NIC。每个节点的主存容量可从 32 到 256MB上升至 64MB 到 1GB。133MB/s 的 PCI 卡数量可从 2 上升到 3。每个 I/O 节点主板同样有可通过前方控制板进行存取的板上基本 I/O 设备,如 RS232、以太网(10Mbps)和 Fast-Wide SCSI。二级高速缓存P6NICP6引导支持I/O桥扩展连接器主存控制SIMMsNIC主存控制SIMMs64位,66MHz本地总线64位,66MHz本地总线P6P6引导支持I/O桥扩展连接器(a)作计算和服务节点使用的双节点板LCF链接PCI总线PCI总线(b)作I/O和系统节点使用的单节点板NICP6引导支持I/O桥扩展连接器主存控制SIMMsPCI卡主存控制SIMMs64位,66MHz本地总线P6引导支持I/O桥扩展连接器LCF链接PCI总线PCI总线二级高速缓存二级高速缓存二级高速缓存二级高速缓存二级高速缓存 图 5.6 两种用于计算、I/O 与服务的 Option Red 节点主板2.系统互连节点由一个内部互连设备 ICF(Inter-Connection Facility)相连,ICF 使用了如图 5.7 所示的双平面(Two-Plane)网孔拓扑。每个节点主板通过主板上的 NIC 连至一个定制的ASIC(Application-Specific Integrated Circuit) ,它称为网孔选路部件网孔选路部件 MRC(Mesh Routing Component) 。如图 5.7 所示,MRC 有六个双向端口,每个能以 400 MB/s 的单向峰值速度传时间就是金钱,效率就是生命!唯有惜时才能成功,唯有努力方可成就!MRC平面间上下右左节点板MRCMRCMRCMRCMRCMRCMRCMRCMRCMRCMRCMRCMRCMRCMRCMRCMRCMRC节点板NIC节点板NIC图 5.7 Option Red 互连体系结构送数据,全双工时为 800 MB/s,4 个端口用于平面内左、右、上、下的网孔互连,还有一个端口用于平面间互连。从任意节点发出的消息借助虫蚀选路通过任一平面送至另一节点,这将降低时延,从而提高了系统可用性。5.4.2 Option Red 的系统软件的系统软件 ASCI Option Red 系统软件是 Paragon 环境的演变。系统、服务和 I/O 节点都运行Paragon 操作系统,它是一个基于 OSF 的分布式 Unix 系统。诸计算节点运行一个称为Cougar 的轻量级内核轻量级内核 LWK (Light-Weight Kernel)。同时提供了对这两个系统间接口的支持,包括高速通信、unix 编程接口和一个并行文件系统。1.轻量级内核轻量级内核操作系统源于 PUMA 系统12,它具有以下四个设计特点:LWK 设计更强调性能,它能有效支持多达几千个节点的 MPP,只提供并行计算所需的功能,而不是一般的操作系统服务;由于 TFLOPS 系统中有几千个计算节点,Cougar
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业管理 > 营销创新


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!