HPC 网络设计指南 v1

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2010/12/6,#,HPC,网络解决方案,服务器的讨论会耦合在网络部分,文档目标,技术目标,阐述,HPC,网络的架构,各个功能区的分析,应用需求分析,可选的网络优化措施,Cisco,产品选择以及原因,计算节点子系统,存储以及并行文件子系统,管理节点子系统,高频交易类系统, ,听众目标,了解,HPC,网络的应用需求,了解,Cisco,抛弃,infiniband,的原因,了解,Cisco,在,HPC,网络中的创新技术和解决方案,Solution,应用模板示范,感谢！,多位同事、专家的鼎力相助,Shengli Hou,Xu Lu,Jun Xie,Steve Yang,Wang Jin,GuoLing Zhang,Starry Wu,以及,其它,HPC,单位人员的帮助,如,RedHat /,气象局, ,的专家,HPC,网络架构,简述,HPC,网络,架构综述,计算节点,计算网络,存储网,文件系统,管理网,计算节点特性,计算网特性,存储网特性,并行文件系统,存储节点特性,管理网特性,管理节点特性,传统,HPC,网络设计,Brief,计算节点,I/O,节点,存储：,磁盘,前言,.,传统,HPC,网络架构综述,传统的,HPC,网络设计示意图：,多个网络,for,不同的流量,!,存储网,SAN,或者,NAS,以,SAN,居多,I/O,节点：,快速读取磁盘,对计算节点提供并发文件存储服务,如果对存储性能有要求，就一定会用,SAN,。,(NAS,的性能很差,I/O,网,以前有,Infiniband,或者,GE,两种,方案,;,I/O,网的主要作用是为,“并行文件系统”提供网络通道,带宽敏感,+,部分功能区时延敏感,计算通讯网,- IPC,以前是,Infiniband,或,GE,现在也有用,10GE,的,Inter-Process Communication (IPC),提供计算节点之间的通讯,绝对时延敏感,管理网,可以单建，也有可能和,IPC,或者,I/O,网复用,管理网的主要作用是,:,提供,各,节点监控、,Image,分发等等,流量不会太大,前言,.,传统,HPC,网络逻辑示意,SAN,网络,I/O,节点,MDS,服务器,类似,Master,目录服务器,并行文件系统,管,理,网,Master,节点,用户终端,不在,重点,讨论范围,IPC,网络,计算节点,用户终端接入连接,User,接入连接的主要任务,:,Job initiation,典型情况下是,SSH / Telnet / Bproc,等控制方式,观测实时的任务结果,可能是图形化的结果,图形化的结果：一般情况下会从一台,若干台,特定的服务器上获取。,图形的传送一般,GE,带宽,就够了。,有时会被用作,Inter-Cluster (GRID),的,通讯,这种情况下需要参考,IPC,网络的设计；,需要考虑：安全和,QOS,一般情况下,User,只会和,Master Node,通讯,由,Master Node,来管理其它,节点,通常用户接入用,GE & TCP/IP,足够,.,User,Master Node,HPC,网络架构简述：计算系统,HPC,网络,架构综述,计算节点,计算网络,存储网,文件系统,管理网,计算节点特性,计算网特性,存储网特性,并行文件系统,存储节点特性,管理网特性,管理节点特性,传统,HPC,网络设计,Brief,1.1,计算网络特性简析,-A,HPC,计算网络：主要负责,Process,之间的通讯,松耦合,&,紧耦合,=,指,Process,之间的,交互,频度,某些特别的松耦合应用甚至在,Process,之间没有交互流量，这些用户,是,对网络不敏感的,我们关心的是瓶颈在,I/O,上的,HPC,应用场景,包括带宽,&Latency,如果,HPC,应用是绝对的本地计算,那么重点在,CPU/Core/GPU/Memory,速度,&,大小,首要考虑如何提高,I/O,传输时延,=,Latency,I/O Latency,Process,就能越快地摆脱等待的状态，,CPU,利用率,最直接的证明就是多,CPU inter-connect,的超级计算机系统,某些,HPC,应用甚至会用,Multicast,来同步数据,L2 Multicast Latency,Latency,会从,/,协议栈,/,网卡,-IO /,线路,/,设备转发,/,拓扑,/,拥塞的,Queue,等多处引入,低延迟网络方案有,Infiniband,或,10GE w Low Latency,或者,RDMA,over Converged Ethernet,(,RoCE),可选,必须是,DCB,的网络,，才能支持,RoCE,1.1,计算网络特性简析,-B,HPC,计算网络,，,其它：,安全控制,对故障,Server,的,隔离，防止干扰整个,L2,域,:,广播抑制、,Loop,防止、,Flapping ,网络要求,HA ,对,”,实时,HPC”,应用非常重要,流量统计和分析,QoS:,在多个网络复用情况下的,QoS (,管理网复用,;,个人不建议和,I/O,网复用，除非是松耦合,),对关键流量的,QoS,优化,如果采用,Socket,Ethernet,应用流量模型是否允许采用不丢包的,Ethernet,技术,ToE,网卡的重要性,个人认为必备,组播技术的用法,目前只在某些特定的,HPC,应用系统中作为重点使用。,10Gb Ethernet vs IB HPC,领域,Initiator Speed,Target Speed,Data Througput,Per I/O Node,Gigabit Ethernet,Gigabit Ethernet,112-118MBps,Gigabit Ethernet,10 Gigabit Ethernet,325-350MBps,10 Gigabit Ethernet,10 Gigabit Ethernet,700-1100MBps,IB SDR - IPoIB,IB SDR - IPoIB,350-375MBps,IB SDR IPoIBCM (ofed 1.2),IB SDR IPoIB (ofed 1.2),525-575MBps,IB SDR SDP,IB SDR - SDP,590-625MBps,IB DDR IPoIB,IB DDR IPoIB,350-375MBps,IB DDR IPoIBCM (ofed 1.2),IB DDR IPoIB (ofed 1.2),525-700MBps,IB DDR SDP,IB DDR SDP,920-1150MBps,Sockets API,MPI,TCP,SDP,OFED 1.2,MPI,OFED 1.2,IP,IPoIB,GE,10 GE,10 GE with ToE,SDR IB,DDR IB,SDR IB,DDR IB,10G,LLE,MVAPICH,OMPI,Latency (us),35.3,25.8,9.0,20.3,14.3,10.0,8.8,3.82,3.29,3.32,Bandwidth MB/s,118,1214,1219,560,727,896,1033,1220,1354,1351,CPU,9%,25%,25%,23%,26%,27%,28%,25%,25%,25%,比较的情况,MPI,编程接口,以太,网卡,用,10G,w RDMA,时,效果,相当,编程用,Sockets or MPI (,各占,50%, I/O,敏感会选,MPI),IPoIB,和,10GE,比较无明显优势,TCP Offload Engine (ToE),必备,降低网络时延,降低,CPU,利用率,解放,PCI-E,总线（小突发效率低）,注,: TOE,有很多,Sub-Feature,SDP-IB vs,10GE w ToE,无,任何,优势,交换机的低延迟,= DCE(DCB) Switch,TCP,协议栈的普适和灵活,结论,:,10GE w ToE,在非,MPI,编程的环境中有明显优势；,10GE w RDMA,在,MPI,环境中和,IB,接近,IB (2.5Gbps,为单位, x1 x4, x12,倍速,; 8B/10B,编码,),一般用,x4,所以,SDR/DDR,等价以太网带宽是,8G/16G,Server,背靠背,要表达为消耗了多少,HZ,的,CPU,才有意义,最差的情况是,1bit,耗用,1HZ/Core,的,CPU,RoCE (RDMA Over Converged Ethernet),Source: Mellanox Corp.,OFA Verbs Interface,IB,Transport,Protocol,Network Layer,InfiniBand,Link Layer,InfiniBand,OFA* Stack,InfinBand,Management,RDMA Application / ULP,RDMAP,DDP,IP,SCTP,MPA,TCP,Ethernet,Link Layer,iWARP,Ethernet,Management,RoCE,Ethernet,Link Layer,Ethernet,Management,IB,Transport,Protocol,Network Layer,I/O Stack,比较,Source: Mellanox Corp.,Applications / OS Services,Sockets,SCSI,FCP/FC,TCP,IP,DCB Ethernet,FCoE,RoCE,OFA RDMA Verbs,iWARP,iSCSI,SDP,MPI,RDS,Single Chip 10 watts,Available from major vendors,Emulex, RoCE,NIC,Qlogic,iWARP NIC,Intel,iWARP,Chelsio,iWARP,Cisco ,DCE/DCB switch,Broadcom RoCE NIC,Mellanox, RoCE,NIC,Brocade,DCB Switch,2,nd,CNAs,MPI (MVAPICH2) Performance,RoCE,vs IB,http:/mvapich.cse.ohio-state.edu/performance/interNode.shtml,MVAPICH2 IB-DDR,MVAPICH2 Ipath-DDR,RoCE,one-sided put latency,micro-second,3.35,7.65,4.83,one-sided get latency (4Bytes),micro-second,6.26,12.91,11.13,one-sided put bandwidth,Million Bytes/sec,1641,1950,1142,one-sided get bandwidth,Million Bytes/sec,1651,1333,1142,put bidirectional bandwidth,Million Bytes/sec,2985,3286,2284,在这个性能评测的结构中，我们可以发现,10GE RoCE,和,Infiniband HCA,在“延迟”,这个,技术指标上已经非常接近了。,所以除非是有很大的带宽需求，否则,RoCE,完全可以替代,Infiniband,了。,RoCE,: RDMA over Ethernet.,最新的,Ethernet HPC,技术，有取代,iWARP,的趋势。,明确表示,RoCE,需要网络支持,DCB & lossless Ethernet,http:/, in lossless Ethernet (DCB) for an efficient RDMA over,Ethernet, ,Lowest latency of 1.3 microseconds on,lossless Ethernet,RDMA,Transport offload with zero copy for low CPU,utilization, ,Ethernet,vs IB HPC,领域,市场份额,45.6%,42.8%,Top 500,统计情况,推论：相信在,Top 500,以外，,GE/10GE,份额数远大于,IB,！,IB,生态环境！,1.2,计算节点,-A,HPC,计算节点主要考虑节点内的计算能力,将尽可能多的,Process/Core,放在一个,Server,内,Core,之间的交互可以走更高速的,share L2 cache,，最差也是,FSBMemory,CPU,之间的交互可以通过,Memory(DRAM) ,有硬件,Arbitor 4*CPU,的一般都是,SMP,，更复杂的还有,NUMA/MPP,方式,.,延迟更低、带宽更高、不占外部,I/O,；,明显,Core,数量多，会有多个优势,目前来看,CPU-Memory,的带宽不是瓶颈,单一,Server,能支持的,Core/CPU,数量,一般一个,PC Server,，,4,个,CPU,是,SMP,架构下性能较好的数量,单一,Server,内，需考虑操作系统对,Core/CPU,数量的支持能力；,一般,Core & Process,是一个量级的；出于性能考虑甚至可以,per Process per Core,.,1.2,计算节点,-B,HPC,计算节点的其它考虑,内存的,I/O,速度,某些应用,也,会需要计算节点支持,大,内存；,应用算法会有明确的需求,;,个人接触到的,:,最大,16G/Process;,最小,1G/Process; ,本地存储,:,SSD,是趋势吗,=,除非采用本地预读取的方案；,网卡,Infiniband HCA: SDR,、,DDR,、,QDR =,一般用,DDR,(,x4),GE -,管理接口,10GE w/o RCoE,(,RDMA over Ethernet:,在,MPI,环境,中,，降低,延迟,、实现基于,Ethernet,的,RDMA;,网络支持,DCB,非常,关键,.,可以认为是,Ethernet,Infiniband.,),10GE w/o ToE,(,TCP offload Engine:,在,I,P,环境中，对降低延迟、减少,CPU,开销、提高,PCI-E,总线吞吐量非常关键,.,在和,I/O,节点的通讯时，尤其重要,.,),可靠性,:,由于主控节点会把故障机的任务,Re-Schedule,，所有有一定的容忍度,但实际上非常不希望出问题,(,影响时效性,),HPC,网络架构简述,:,文件系统,HPC,网络,架构综述,计算节点,计算网络,存储网,文件系统,管理网,计算节点特性,计算网特性,存储网特性,并行文件系统,I/O,节点特性,管理网特性,管理节点特性,传统,HPC,网络设计,Brief,2.1,并行文件系统,I/O,节点简析,-A,HPC,是一种并行计算的方式，所以会有多个节点对同一个文件进行操作，具备这种能力的文件系统 ,并行文件系统,GFS,就是一种设计架构非常,高,效的分布式并行文件系统,鉴于目前,的,HPC,中不,常用,GFS,，所以我们在此不以,GFS,为分析对象,并行文件系统有很多，我们以比较典型的,Linux,开源的,Lustre,文件系统,来,说明,甚至部署,NFS,文件系统,时,的技术需求也可以参照,Lustre,的要求来设计,HPC,并行文件系统的思路,由多台,I/O,节点机来,并发,地对外提供存储的读写,单个文件可以进行,“条纹化”,处理，分散到不同的,I/O,节点上,由,主控机,(,一台或者多台,),来控制多个对象对同一个文件的操作 “锁”,所以客户端访问文件时，首先要从主控机那里拿到权限,&Index,I/O,节点机可互相提供,LUN,的,A/S,备份,2.1,并行文件系统,I/O,节点简析,-B,并行文件系统,Lustre,各个功能节点需求分析,Meta Data Server(,MDS,),相当于,Index,服务器,=,快速存储读写,= 12% file-system;,强劲的,CPU,能力,(,最少,4 core) ,典型的,I/O,读写速度敏感，而非流量,。需要有大内存做,Cache ,给,Client,提供,Index;,MDS,目前支持双机主备,(,将来甚至更多,A/A),，所以要求有,SAN,连接；读写,的,特点,是大量小数据块的随机读写,Object Storage Server(,OSS,),相当于文件的存储点，它的任务是把,RAW-Disk,变成,Client,能读写的文件。所以它一方面要求,高,速的外部磁盘读写,大数据块的读写为主,，另一方面需要给文件系统的,Client,大吞吐量回应。,一般性能要求较高的场合会用,HBA(SAN),后端, & 10GE/IB,前端,；简单地说就是大带宽的系统总线通道,最少要,2,倍,理论,/3.5,倍,实际,于,NIC/HBA/HCA,OSS,节点也需要部分,Memory,，用来做,CacheRead-Only File-,不同的,HPC,应用的读写比例不一样,读,2,写,8,或者读,8,写,2,，,需,根据实际情况配置,。,CPU,在,NIC/HCA-RDMA &HBA,做,Offload,的情况下不会高，反之则会有相当消耗,尤其是用,CPU,来处理,TCP,时。,Lustre,组网示意图,2.2,并行文件系统,前端网络简析,并行文件系统的,前端,网络需求,并行,文件系统,(Lustre,),网络需求,简析,支持,IB,或,TCP/IP ,实践中以,IP,略多,.,整个系统的,绝,大部分流量基本为南北向；,即,Client OSS,系统对带宽敏感，后端的磁盘阵列是,I/O,瓶颈的主要焦点,信令流量的关键部分呈以,MDS,为核心的星形结构,;,MDS,的响应能力是整个系统的关键,并行文件系统,(Lustre,),前端网络构建要点,并行文件系统的信令流量特点,是,:,流量不大、但要求,快速响应,(,低延迟,),；,并行文件系统的数据流量特点是,持续大流量,+,大包,；,所以非常有必要对信令流量做专门的优化！,2.3,存储网络,(SAN),简析,SAN,网络需求,MDS,的,SAN,网络需求,简析,外部存储容量不大，约为数据文件系统的,12%,要求有冗余,目前,MDS,工作在,A/S,模式,.,对外部存储的优化方案以小数据块的随机读写为主,FC or SAS & RAID 0+1,单列的“日志记录”存储提高性能,20%!,OSS,的,SAN,网络构建要点,网络规模大小取决与,OSS,的能力,每个,OSS,能带多少个外部存储,以及对总体存储容量的需求,.,要求有冗余,OSS,工作在分区模式的,A/A,模式,对外部存储的优化方案,以大数据,块,的,顺序,读写为主,RAID 5 or RAID 6 striping pattern,HPC,网络架构简述：管理,系统,HPC,网络,架构综述,计算节点,计算网络,存储网,文件系统,管理网,计算节点特性,计算网特性,存储网特性,并行文件系统,I/O,节点特性,管理网特性,管理节点特性,传统,HPC,网络设计,Brief,3.1,管理节点简析,Master Node (,管理节点,),功能,Image,分发,、,任务分发、调度,预处理、后处理,Monitoring & Report,管理平台,需求,Master Node,可以监控包括,SAN,在内的所有节点,这意味着有可能是多块,NIC/HBA,Master Node,在做,Post-Process,时，某些应用的特殊需要：,Memory,&,Fast I/O,& CPU/Core &,较大的存储等等；（,HPC,软件会有直接的要求）,Master Node,一般会做,A/S,冗余，要求,Dual Power Supply ,Master Node,的故障会导致整个系统,Down;,但一般计算节点会保存一个中间状态。,下次计算开始时，可以从中间状态再开始的,3.2,管理网简析,管理网,流量分析,除了特定的情况,如,Image,分发、,Post-Process,时有大文件的检查和拼装, ,，平时的流量都不大。,平时的,Monitoring,都是小包；,Monitoring & Report,管理平台,对实时性要求不高,网络需求,在没有特定需求的情况下，,GE,足够,可以和计算网,、,I/O,网复用,HPC,网络详解：,Cisco,的解决方案,深入分析,计算节点,+,网络子系统,存储,&,并行文件网络子系统,管理,网络,子系统,1.,数据流量分析,2.,网络方案选择,4.Cisco,产品的匹配和优势,1.,数据流量分析,3.Server,的考虑,2.,网络方案选择,3.Server,的考虑,4.Cisco,产品的匹配和优势,1.,数据流量分析,3.Server,的考虑,2.,网络方案选择,4.Cisco,产品的匹配和优势,总结,Overview,思科总拼装图,+,思科有利的配置,传统设计,vs,新设计,计算子系统：数据流量分析,我们在此关心对“延迟,&,带宽”敏感的,HPC,应用,延迟敏感,延迟的引入,:,协议栈,+,多次内存读写,+NIC(SFP),+,线路,+Switch Forwarding,+,拓扑,(Nodes),+Congestion,MPI,RoCE,ToE,Infiniband,Ethernet,RDMA,RoCE,w DCB,或,iWARP,S/D/QDR,10/40/100GE,SFP+,光,vs,电,IB Switch,DCE 10/40GE,100GE Switch,减少层次,减少层次,Credit,机制,Lossless-E,& Credit,&Buffer,&,拥塞控制,带宽的考虑,:,CPU/Core Memory,系统总线,NIC/HCA/HBA,NIC/HCA/HBA,网络,4/8 Core,不是问题,(L2 Cache),4,路,CPU,以内也不是问题,FSB: Intel-QPI & AMD HT,PCI-E x16,有效带宽约,40Gbps !,如果做,网卡之间的转发,加速比法则：有效带宽在,40/3.5=12G,左右,网络设计无阻塞,中科院超算中心实测,12G(,背靠背,),计算子系统：网络模型推荐,- 1,计算节点数,96,计算节点,96,Nexus 5596 or 5548,网络层面延迟分析, 1500,字节,L2 Unicast 2us - FIFO,L2 Multicast 6us,(,RFC3918),L3,主要用来做南北向流量；不是计算流量；,从,10GE NIC,出来开始计算,(,1500,字节,的帧,):,网络上的,Unicast Latency:10GE Link (1.2us)+2us(FIFO) = 3.2us,网络上,的,Multicast Latency,:10GE Link (1.2us,)+6us(FIFO),=,7.2us,由此可以看出,:,通过组播来实现,一,对多的传送是相当有效率的,一般的小型,GE,以太网交换机转发时延,LIFO,在,7us(Unicast) & 9us(Multicast),所以，相对应的,网络上的,Unicast latency,：,GE Link(12us)+,7us+GE Link(12us),= 31us,网络上的,Multi,cast,latency,：,GE Link(12us,)+,9us+GE Link(12us) =,33us,Infiniband 96 ports,带,Fabric 420ns / 36 ports,以内不带,Fabric 140ns,(,组播性能不明,),SDR Unicast,：,SDR Link(1.5us) +0.14us +,SDR Link(1.5us),= 3.14us,DDR Unicast,：,DDR,Link(0.75us,) +,0.14us,+ SDR,Link(0.75us,),= 1.64us,Note: N50xx,的,L2,组播没有优化过，性能不好,IB,比,10GE,提高的这几个,us,的时延优势，最终反映到应用层面是非常微弱的。,10GE/GE,大概能提高,30%50%,据此简单计算,IB/10GE +1,.,5%,左右,计算子系统：网络模型推荐,- 2,计算节点数,352(,全线速,),或,512(1.5:1,过载,),计算节点,352,或者,512,Nexus 7018 or 7010 w F1,N7K w F1,延迟分析,-1500,字节,L2 Unicast,轻载,6us;,重载时会上升到,9us,L2 Multicast ,RoCE/ToE,* 10GE,解决方案,(,大、中、小,),N7018/N7010:,512/256,*,10GE Ports,全线,速,N5596/N5548,: 96/48 * 10GE Ports,全线速,DCE/DCB ,低延迟，,Lossless Ethernet,完美支持,RoCE/ToE,技术,低延迟、可扩展的硬件组播能力,扁平化的、可扩展的网络拓扑方案,单层,架构提供最多,512,个,10GE,节点,w,低延迟,&,全线速,双层,架构,(Fabric Path),提供,8192,个,10GE,节点,w,低延迟,&,全线,速,在现有平台平滑地向,40GE/100GE,过渡的技术方案,专业的,QoS,技术提供流量优化和网络复用的手段,高可靠的设备以及良好的安全保护能力,Cisco UCS,统一计算平台提供适合,HPC,的服务器计算平台？,HPC,网络详解：,Cisco,的解决方案,深入分析,计算节点,+,网络子系统,存储,&,并行文件网络子系统,管理,网络,子系统,1.,数据流量分析,2.,网络方案选择,4.Cisco,产品的匹配和优势,1.,数据流量分析,3.Server,的考虑,2.,网络方案选择,3.Server,的考虑,4.Cisco,产品的匹配和优势,1.,数据流量分析,3.Server,的考虑,2.,网络方案选择,4.Cisco,产品的匹配和优势,总结,Overview,思科总拼装图,+,思科有利的配置,传统设计,vs,新设计,I/O,子系统：数据流量分析,信令数据流,MDS :,频繁的信令交互,小包,要求快速的响应,OSS :,持续的大流量数据包,根据前面的分析，,PCI-E,服务器做,Transport,的时候，带宽最高也就,11Gbps,左右；,所以可以支持前端,10GE &,后端,8G FC HBA,网络过载时，对,Buffer,敏感,由于,存储的数据流量的特点是持续的大流量,所以如何保证,信令流量不受数据流量的影响,在网络复用时，必须对信令流量做高优先级的,QoS,设置，以保证信令流量的快速传递,OSS,Server,HBA 8G,FCoE 10GE,10GE NIC,SAN :,标准的,A/B,平面设计；,8G FC,或,条件允许的话,10GE,FCoE,是优选,(FCoE,可以获得轻微的带宽和延迟优势,),；,Index&,日志,用,RAID 0/1,；,Data,用,Raid 5/6,I/O,节点数,256 (1:1,全线速,),MDS,的信令通道需要,Switch,支持,QoS,所以这里是比,IB,有优势的地方,Switch QoS,比较简单的做法是根据,Src/Dst MDS_IP_Addresses,因为文件的读写是一种持续的大流量行为，所以不建议将它和计算网合并,如果,SAN,支持,FCoE,，倒是正好可以考虑和前,端,的网络合并。,流量正好不冲突,目前高密度的,FCoE/Ethernet,要明年,Q1 Ready,小规模的情况下，,N55xx,比较适合做这种融合的网络,I/O,子系统：网络模型,Fabric Path,提供网络矩阵,网络的流量主要从,OSS Client,主要对带宽敏感；,OSS,节点,256,N7018,N7018,128,*,10GE,128,*,10GE,Fabric Path,16*8 10GE,合计对,Client,提供,512,个,10GE,接口,SAN,网络,最好,8G,FC,或者,10G,FCoE,MDS,10GE,前端网络,负责,Client,到,OSS,节点,Raid 5/6,Raid 0/1,I/O&,存储的节点数,48 FCoE,网络融合,(1:1,全线速,),I/O,子系统：融合的网络模型,OSS,节点,转发有效,12,G,1G,10G,延迟,1.643.5,微妙,33,微妙,3.2/7.2,微妙,组播,有扩展性问题,(5001000,个组，性能未知,),-,好，延迟低,HA,能力,好,好,非常好,-,ISSU,扩展性,差,无,Port-Channel,！,-,FabricPath,网络矩阵,网络融合,无,无,FcoE/HPC/Ethernet,三网合一,更高速率,QDR,-,40G / 100G,安全保护,无,有,有,QoS,无,有,有,编程,只有,MPI,才能,发挥,带宽,&,延迟的优势,Socket & MPI,都可以,Socket & MPI,都可以,NIC,HCA,-,NIC w,ToE,or,RoCE,总结：新设计下,的,HPC,方案,总拼装图,A,UCS,服务器计算节点,Nexus,低时延,DCE,交换机,计算网,Nexus,高带宽,DCE,交换机,UCS,服务器,计算节点,UCS,服务器,计算节点,UCS,服务器,计算节点,UCS,服务器,计算节点,UCS,服务器,I/O,节点,UCS,服务器,I/O,节点,I/O,网,MDS,SAN-B,交换机,MDS,SAN-A,交换机,存储,网,Phase 1: 20102011,的实现方案,特点,:,在,Socket,的编程条件下，,10GE ToE,和,IB DDRx4,的性能一致,在,MPI,的,编程,条件,下,，,10GE RoCE,和,IB,DDRx4,的,性能,接近,DCE,网络,完美,支持,RoCE,的实现,巨大的可扩展性,+,带宽升级能力,支持向融合的网络演进,(Ethernet/FCoE/IPC),高可靠的网络,+,安全保护能力,总结：新设计下,的,HPC,方案,总拼装图,B,UCS,服务器计算节点,Nexus,低时延,DCE,交换机,计算网,Nexus,高带宽,FCoE,RoCE/DCE,交换机,UCS,服务器,计算节点,UCS,服务器,计算节点,UCS,服务器,计算节点,UCS,服务器,计算节点,UCS,服务器,I/O,节点,UCS,服务器,I/O,节点,I/O,存储网融合,Phase 2: 20112012,的实现方案,2010,年支持小规模部署,特点,:,在,Socket,的编程条件下，,10GE ToE,和,IB DDRx4,的性能一致,在,MPI,的编程条件下，,10GE RoCE,和,IB DDRx4,的性能接近,DCE,网络完美支持,RoCE,的实现,巨大的可扩展性,+,带宽升级能力,融合的网络,高可靠的网络,+,安全保护能力,总结：新设计下,的,HPC,方案,总拼装图,C,UCS,服务器计算节点,Nexus,40/100G,DCE,交换机,UCS,服务器,计算节点,UCS,服务器,计算节点,UCS,服务器,计算节点,UCS,服务器,计算节点,UCS,服务器,I/O,节点,UCS,服务器,I/O,节点,三,网融合,Phase 3: 2013,实现方案,特点,:,支持在,Socket/MPI,的编程条件下,超过,用,4xDDR-MPI,编程的性能,DCE,网络完美支持,RoCE,的,实现,巨大的可扩展性,+,带宽升级能力,完全融合的网络,高可靠的网络,+,安全保护能力,

展开阅读全文

HPC 网络设计 指南 v1

最新文档

HPC 网络设计指南 v1