InfiniBand高速网络互连技术

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,InfiniBand,高速网络互连技术,清风明月,2012,年,5,月,内容提要,超级计算机系统及其互连结构,Infiniband,互连网络的体系结构,在,HPC,中的,典型互连,架构及应用,IB,网络优化技术,未来展望,Lecture 1,Lecture 2,内容提要,超级计算机系统及其互连结构,Infiniband,互连网络的体系结构,在,HPC,中的,典型互连,架构及应用,IB,网络优化技术,未来展望,国际超级计算机,500,强排名,(TOP500),是美国田纳西大学、伯克利,NERSC,实验室和德国曼海姆大学一些专家为评价世界超级计算机性能而搞的民间学术活动，每年,2,次排出世界上实际运行速度最快的前,500,台计算机。,(6,月、,11,月,),排名的依据是线性代数软件包,Linpack,的实际测试数据，而峰值浮点运算速度作为参考值列出。,Linpack,基准测试程序,是一个可以分解和解答线性方程和线性最小平方问题的,Fortran,子程序集,.,于,20,世纪,70,年代到,80,年代初为超级计算机而设计,测试出的最高性能指标作为衡量机器性能的标准,TOP500,分析,中国,TOP100,总,Linpack,性能达到,11.85 Pflops (2010,年,6.3PFlops),，是,2010,年的,1.88,倍,;,跟全球,TOP500,相比，,2011,年,6,月全球,TOP500,排行榜第一名被日本的,K-Computer,夺得，,2010,年,11,月,TOP500,第一名的天河,1A,降为世界第二，但中国的机器份额首次取得第二名,仅次于美国,;,国家超级计算天津中心以国防科大天河,1A,再次蝉联中国,TOP100,第一名，,Linpack,性能,2.57PFlops,，峰值,4.7PFlops;,国家超级计算济南中心以国家并行计算机工程技术研究中心全国产神威蓝光力夺得中国,TOP100,第二名，,Linpack,性能,795.9TFlops,，峰值,1.07PFlops,，神威蓝光是我国历史上首台全国产的千万亿次超级计算机,;,国家超级计算长沙中心以国防科大天河,1A-HN,力夺中国,TOP100,第三名，,Linpack,性能,771.7TFlops,，峰值,1.34PFlops,。,全部机器的,Linpack,性能超过,22.1Tflops,是,2010,年,9.6TFlops,的,2.3,倍,比去年的,1.41,倍大幅提升。,全部系统的峰值超过,25.6TFlops,，是,2010,年,11TFlops,的,2.33,倍，比去年的,1.36,倍大幅提升,;,排名前三的机器两套是,CPU+GPU,异构,MPP;,97,个,(2010,年,98,个,),系统都是机群架构，机群继续占据主导地位，在前,10,名里,4,台是,CPU+GPU,体系架构，在,TOP100,中共有,13,套,CPU+GPU,异构机群。,近,3,年来的,TOP5,超级计算机系统,2009,年,2010,年,2011,年,Rank1,美洲虎,Cray XT5-HE,NUDT TH-1A,K computer,Rank2,IBM BladeCenter,美洲虎,Cray XT5-HE,NUDT TH-1A,Rank3,Cray XT5-HE,曙光“星云”,美洲虎,Cray XT5-HE,Rank4,IBM,蓝色基因,HP ProLiant,曙光“星云”,Rank5,NUDT TH-1,Cray XE6,HP ProLiant,No1: K Computer,日本理化研究所,(RIKEN),高级计算科学研究院,(AICS),和富士通共同研制,每秒运算速度超越,1,亿亿次大关。,Linpack,测试的最大计算性能达到了,10.51PFlops,，也就是每秒钟,1.051,亿亿次浮点计算，这也是人类首次跨越,1,亿亿次计算大关。,采用的处理器是富士通制造的,SPARC64 VIIIfx,，八核心，主频,2.0GHz,，二级缓存,6MB,，热设计功耗,58W,，峰值浮点性能,128GFlops,。为了获得更高性能，富士通还在其中加入了一系列高性能集群计算扩展，可以有效管理其共享二级缓存，并支持,SIMD,、每核心,256,位浮点寄存器、高级核心间硬件同步等等。,处理器数量是,88128,颗，核心数量为,705024,个，占据,864,个机柜。这些处理器通过名为“豆腐”,(Tofu),的特殊,6-D mesh/torus,网络连接在一起，带宽,5GB/s,。同时，“京”的峰值计算性能也达到了,11.28PFlops,，执行效率为惊人的,93.2%,K Computer:,10.51 Petaflop/s,on Linpack,705024 SPARC64 cores (8 per die; 45 nm),(Fujitsu design),Tofu interconnect (6-D torus),12.7 MegaWatt,K Computer,的互连架构,6D-mesh/Tours,No 2,：天河,-1A,，国防科技大学,这是超过美国橡树岭国家实验室产品高达,40,的系统。达到每秒万亿次的峰值性能和每秒万亿次的实测性能。,14336,颗英特尔六核至强,X5670 2.93GHz CPU,、,7168,颗,Nvidia Tesla M2050 GPU,，以及,2048,颗自主研发的八核飞腾,FT-1000,处理器,天河一号,A,将大规模并行,GPU,与多核,CPU,相结合，在性能、尺寸以及功耗等方面均取得了巨大进步，是当代异构计算的典型代表。该系统采用了,7168,颗英伟达（,NVIDIA,）,Tesla M2050 GPU,以及,14,336,颗,CPU,。如果单纯只使用,CPU,的话，要实现同等性能则需要,50,000,颗以上的,CPU,以及两倍的占地面积。,更重要的是，如果完全采用,CPU,打造，可实现,2.507 Petaflops,（千万亿次）性能的系统将消耗,1200,万瓦特的电力。多亏在异构计算环境中运用了,GPU,，天河一号,A,仅消耗,404,万瓦特的电力，节能效果高达,3,倍。二者之间的功耗之差足够满足,5000,多户居民一年的电力所需。,三大突破,“,天河一号”除了使用了英特尔处理器，还首次在超级计算机中使用了,2048,个我国自主设计的处理器。这款名为“飞腾,-1000”,的,64,位,CPU,。它利用,65,纳米技术设计生产，共有,8,个核心。,中国首创了,CPU,和,GPU,融合并行的体系结构。,制造了先进的通信芯片，设计了先进的互联结构。,160Gb/s,，是国际上的商用,IB,的两倍。,TH-1A,互连架构,超级胖树结构,NO.3 Jaguar,美洲虎,2.331Pflops,Cray XT5-HE Opteron Six Core 2.6 GHz,近,25,万个内核,美洲虎的,3D-Torus,CRAY,超级计算机的,Roadmap,Cray XT5: 1+ PF,Leadership-class system for science,DARPA HPCS: 20 PF,Leadership-class system,FY 2009,FY 2011,FY 2015,FY 2018,Future system: 1 EF,100250 PF,美洲虎,NO.4,曙光“星云,”, 2.9843Pflops,Infiniband,互连,No14:,神威蓝光：全国产化的超级计算机问世,该机器获得科技部,863,计划支持，由国家并行计算机工程技术研究中心制造，于,2011,年,9,月安装于国家超算济南中心，全部采用自主设计生产的,CPU(ShenWei processor SW1600),，系统共,8704,个,CPU,，峰值,1.07016PFlops,，持续性能,795.9TFlops,，,Linpack,效率,74.37%,，总功耗,1074KW,。,国家超级计算济南中心是科技部批准成立的全国,3,个千万亿次超级计算中心之一，由山东省科学院计算中心负责建设、管理和运营。,是国内首台全部采用国产中央处理器（,CPU,）和系统软件构建的千万亿次计算机系统，标志着我国成为继美国、日本之后第三个能够采用自主,CPU,构建千万亿次计算机的国家。,神威蓝光拥有四大特点：,全部采用国产的,CPU,Linpack,效率高达,74.4%,，而一般的千万亿次机都在,50%,左右,采用液冷技术，节能,高密度，在一个机仓（机柜）里可以装入,1024,颗,CPU,，千万亿次规模仅需要,9,个这样的机仓。,计算机节点，在,1U,高的机箱中可以放入,4,个,CPU,板，每个板上可以装两颗,16,核的,CPU,。,这就是神威蓝光的“心脏”：申威,1600,实物照,在计算节点中采用液冷（据说是使用,500,元,1,吨的纯净水）设计也是神威蓝光的一大技术特色，中间是铝制液冷散热板。,国内三大系统比较,Total cores:,0,Total flop/s:,0,Opteron socket,Roadrunner,（走鹃）,Part 1: Opteron Blades,Opteron,core,Total cores:,1,Total flop/s:,3,600,000,000,Opteron,core,Total cores:,2,Total flop/s:,7,200,000,000,1.8 GHz,3.6 Gflop/s,64+64 KB L1 cache,2 MB L2 cache,Total cores:,2,Total flop/s:,7,200,000,000,Total cores:,4,Total flop/s:,14,400,000,000,LS21 Blade,Roadrunner,（走鹃）,Part 1: Opteron Blades,Opteron socket,Opteron,core,Opteron,core,Opteron socket,Opteron,core,Opteron,core,8 GB,DDR2 memory,10.7 GB/s,8 GB,DDR2 memory,10.7 GB/s,HyperTransport,6.4+6.4 GB/s,Total cores:,2,Total flop/s:,7,200,000,000,Total cores:,4,Total flop/s:,14,400,000,000,Roadrunner,（走鹃）,Part 1: Opteron Blades,Roadrunner Architecture,Part 2: Cell Blades,QS22 Blade,FlexIO,25 GB/s,25.6 GB/s,4 GB DDR2 memory,25.6 GB/s,PowerXCell 8i socket,EIB, 204.8 GB/s,SPE,core,SPE,core,SPE,core,SPE,core,SPE,core,SPE,core,SPE,core,SPE,core,PPE,core,PowerXCell 8i socket,EIB, 204.8 GB/s,SPE,core,SPE,core,SPE,core,SPE,core,SPE,core,SPE,core,SPE,core,SPE,core,PPE,core,4 GB DDR2 memory,Roadrunner Architecture,Part 2: Cell Blades,Roadrunner Architecture,Part 3: Nodes,（,Triblade=,1,*,Opteron +2,*,cell,）,InfiniBand 2:1 fat tree,HT2100,HT2100,InfiniBand 4X DDR,HT x16,6.4 GB/s,PCIe x8,2 GB/s,IB,2 GB/s,Roadrunner Architecture,Part 4: Scaling Out,BladeCenter,BladeCenter,BladeCenter,BladeCenter,Compute Unit (CU),Roadrunner Architecture,Part 4: Scaling Out,Total cores:,480,Total flop/s:,5,395,200,000,000,Total cores:,7,200,Total flop/s:,80,928,000,000,000,Roadrunner Architecture,Part 4: Scaling Out,Total cores:,7,200,Total flop/s:,80,928,000,000,000,Roadrunner,Total cores:,122,400,Total flop/s:,1,375,776,000,000,000,Roadrunner Architecture,IBM,计划,10,万万亿次,HPC 12,倍于世界最快！,今年预计,BlueGene/Q “Sequoia”,其峰值性能可达到,20petaflops,，,而其升级版将是首个超过,10,万万亿次浮点计算的超级计算机，达到,107petaflops,，是目前世界最快,K Computer,的,12,倍。,Sequoia,（红杉）,Sequoia,超级计算机是,IBM,正在为,Lawrence Livermore,国家实验室研制的一种超级计算机，而这种计算机中使用的,Blue Gene/Q,处理器就将采用,IBM,在,Hot Chips,大会上发表的论文中披露的这种新部件。,Sequoia,将在,2012,年完工，有望提供,20petaFLOPs,（,peta,1015,）的强大性能。,当,Sequoia,完工时，这台超级计算机可能成为世界上功能最强大的系统之一。,计算机技术的发展,自,1946,年以来，计算机近,70,年有了惊人的发展,性能：（加法）速度提高了,5,个数量级,计算机性能以大约每年,35%,的速度提高,价格：今天,$1000,的机器相当于,60,年代中,$10,6,的机器，这里同性能计算机的价格比，改善了个数量级。,处理器速度持续提高（广度）,从,1971,年第一颗微处理器,Intel 4004,问世以来，,40,年间处理器芯片集成的晶体管数目从,2300,个发展到今天的数十亿个，处理器频率从不到,1MHz,发展到今天最高接近,5GHz,，与英特尔,4004,相比，如今下一代英特尔酷睿处理器的性能是其,35,万倍，每个晶体管的能耗却降低了,5,千倍。同期，晶体管的价格下降了约,5,万倍。,在,30,年间计算机系统的速度提高了,6,个数量级,对计算能力的需求持续增长,超级计算机的性能趋势,CAGR = 1.9,1,st,Pasadena Petaflops Workshop,GFlops,ExaFlops,PetaFlops,TeraFlops,Figure courtesy of Peter Kogge,超级计算机发展路线图,时间,2020,年,2030,年,2050,年,器件,CMOS,纳米量子器件,量子、生物分子,计算速度,Exaflops(10,18,),Zettaflops(10,21,),Yottaflops(10,24,),并行度,10,9-10,10,11,-10,12,10,13,-10,15,内存容量,25PB,EB(10,18,B),ZB(10,21,B),功耗,40MW,MW,MW,用途,核聚变模拟,蛋白质折叠等,地球模拟,生命科学等,MEMS,优化,脑科学模拟等,2010,2020,2030,2050,TOP500,中的互连网络统计,TOP500 Nov 2011,，,IB,占,42%,TOP10,中有,5,家采用,IB(4/5/7/9/10),TOP20,中有,8,家,TOP100,中有,55%,采用,IB,基于,GPU,混合系统中有,92%,采用,IB,TOP100,中的,IO,互连架构统计,在,TOP100,机器的,IO,互连中,55%,采用,IB,Top500,中各种互连的趋势图,典型商业互连网络的性价比,InfiniBandPCI-Express,10GigE,GigE,Myrinet D,Myrinet E,Data Bandwidth,(Large Messages),950MB/s,900MB/s,100MB/s,245MB/s,495MB/s,MPI Latency,(Small Messages),5us,50us,50us,6.5us,5.7us,HCA Cost,(Street Price),$550,$2K-$5K,Free,$535,$880,Switch Port,$250,$2K-$6K,$100-$300,$400,$400,Cable Cost,(3m Street Price),$100,$100,$25,$175,$175,Top500,中,IB,互连的趋势图,内容提要,超级计算机系统及其互连结构,Infiniband,互连网络的体系结构,在,HPC,中的,典型互连,架构及应用,IB,网络优化技术,未来展望,为什么,TOP500,中有,42%,机器采用,IB,互连？,高带宽,目前主流的单链路传输能力,40Gbps,，,10GB,以太网不可比拟,超低延时,应用程序之间通信延时小于,1 us,高可靠性、低误码率、自管理的网络,链路级流控,拥塞控制,IB,网络组成,Host Channel Adapters (HCA),Target Channel Adapters (TCA),Switches,Routers,IB,网络组成,多个子网，每个子网是一个独立的路由域,子网之间通过交换机互连，一般的,HPC,只使用一个子网。,IB,网络,硬件实体,IB,网络,硬件实体,Blade/RackServers,Storage,Switch,SWITCH,基于,IB,网络构建的,Cluster,系统,CA,（端结点,-,主机适配卡）,两种类型的,CA,HCA,，通过,IB verbs,为用户提供操作,TCA,，,IBA,未定义,TCA,接口语义,CA,是一个具备一定保护功能的可编程,DMA,引擎,Virtual Lane(VL),Local ID(LID),独立的发送和接收缓冲区,内存翻译和保护,子网管理代理,GUID,IB,交换机（多端口交换）,子网内部路由设备,交换机端口具备,LID,，,具有,HCA,特性。,子网内部的每个端口分配一个或多个唯一的,LID,通过报文,Local Route Header,标识目标端口,LID,，交换机根据该地址信息交换到目标端口,提供单播和多播路由,支持多路径（负载均衡，链路容错）,IB,传输分层（对比,TCP/IP,）,Physical Layer Link Rate,InfiniBand,使用串行差分链路传输,链路宽度,1x One differential pair per Tx/Rx,4x Four differential pairs per Tx/Rx,8x Eight differential pairs per Tx/Rx,12x - Twelve differential pairs per Tx and per Rx,链路速度,Single Data Rate (SDR) - 2.5Gb/s per lane (10Gb/s for 4x),Double Data Rate (DDR) - 5Gb/s per lane (20Gb/s for 4x),Quad Data Rate (QDR) - 10Gb/s per lane (40Gb/s for 4x),Fourteen Data Rate (FDR) - 14Gb/s per lane (56Gb/s for 4x),Enhanced Data rate (EDR) - 25Gb/s per lane (100Gb/s for 4x),目前多采用,4X,链路,Physical Layer link width,Lane,的概念，,1x,即,1 lane,，类似于,PCIE lane,1 x Link,4 x Link,12 x Link,IB,物理链路速率历程,串行高带宽链路,SDR: 10Gb/s HCA links,DDR: 20Gb/s HCA links,QDR: 40Gb/s HCA links,FDR: 56Gb/s HCA links,EDR: 100Gb/s HCA links,Physical Layer Cables & Connectors,单个,物理信道,上复用多个,虚拟链路信道,Link Layer Protocol,Message,长度最大,2Gbyte,MTU,尺寸从,256byte,到最大,4Kbyte,Link Layer Addressing,每个节点（,HCA,端节点和交换机）必须拥有一个全局唯一,的,64,位,ID,（,GUID,），类似于以太网,MAC,地址。,同时，为了方便路由，在每个子网内为节点分配一个本地,ID,(LID) - 16,bits,，子网内,线性,编号,GUID,GUID,GUID,GUID,GUID,GUID,GUID,GUID,LID=1,LID=2,LID=3,LID=4,LID=5,LID=6,LID=7,LID=8,IB,通信协议的硬件实现原理,Transport Layer Using Queue Pairs,发送和接收队列是成对出现的。,Transport Layer ,队列模型,IB,通信传输示例,Link Layer Flow Control,基于信用（,Credit,）的链路级流控,反压原理,Transport Layer Services Properties,可靠与不可靠,面向连接与数据报（非面向连接）,服务分类,服务类型,面向连接,是否应答,传输协议,可靠链接,是,是,IBA,不可靠链接,是,否,IBA,可靠数据报,否,是,IBA,不可靠数据报,否,否,IBA,原始数据报,否,否,RAW,如何管理子网？,IB,网络维持一个子网管理器,Subnet Manager (SM),是一个独立软件,通过与每个节点上的子网管理代理通信的方式来管理子网,子网管理和路由,每个子网必须有一个子网管理器,子网管理器的作用：,管理,IB,网络中的所有节点，包括端节点,HCA,和交换机,SW,子网网络拓扑发现,为每个节点分配一个本地,ID,（,LID,），用于路由,为交换机分配转发表，用于网络路由,监控子网状态，当网络发生改变时负责重新分配路由表。,维护网络正常运转,子网管理器,SM,SM,是,IB,网络中一个重要元素,负责配置和管理交换机、路由器、,HCA,。,SM,可以被实现在,HCA,或者交换机等设备上。,一个子网内可以有多个,SM,，其中一个,SM,为主，其余为备份,SM,功能,进行子网拓扑发现,产生子网前缀，为端口分配,LID,配置每个交换的,LID,，配置转发表,提供节点和服务的数据库服务,子网管理基础,子网管理器（,1,）,相对于以太网的分布式管理，在,Infiniband,网络中，,SM,通过,SMA,对子网进行集中管理。,这种方式结构简单易于管理。,为了防止单点失效问题，在,Infiniband,中可存在多个,SM,，一个主,SM,，多个备份,SM,。备份,SM,检测到主,SM,死亡时，会选择一个备份,SM,成为主,SM,，接管子网管理权。,子网管理基础,子网管理器（,2,）,主,SM,是,IB,子网初始化和配置的关键因素。主,SM,的选择也是初始化过程的一部分。主,SM,的主要作用是：,发现子网的物理拓扑结构。,为每个端节点，交换机和路由器分配本地标识符,LID,。,确定各端节点之间的合理路径。,扫描子网，发现拓扑改变处理节点加入和节点删除。,子网管理基础,子网管理器（,3,）,子网探测主要是指在,Infiniband,子网初始化时，,SM,通过,SMA,获得子网内各节点信息。主要的信息就是各个节点的,GUID,，节点类型，端口信息以及各节点之间的连接关系。,在子网初始化完毕后，,SM,还会定时的检查网络拓扑是否发生变化（某个交换机端口的状态发生改变）。,交换机检测到自己的某个端口状态发生改变，可以通过,Trap,机制主动向,SM,报告拓扑改变。,子网探测,子网发现的过程：子网启动时，,SM,发送包含,Get,方法的直接路由,SMP,，,SMA,收到后会响应一个,SMP,，从而找到一个新的节点，然后,SM,通过这个新节点向外辐射只到找到所有的设备。,子网探测,子网发现,对于一个已经初始化的子网，如果,SM,发现某一个交换机的一个端口的状态从,DOWN,变为,UP,，则说明有设备加入到子网中。,子网探测,增加设备,对于一个已经初始化的子网，如果,SM,发现某一个交换机的一个端口的状态从,UP,变为,DOWN,，则说明有设备从子网中移除。,子网探测,删除设备,在规范中，并没有规定,LID,的分配规则，只要满足上述的性质即可。具体实现时，,LID,的分配与特定的路由算法有关。,最简单的分配方式是按照设备的发现顺序，从,1,开始连续分配。,LID,分配,路由计算主要是指,SM,在得到子网拓扑以后，确定每两个节点之间的路径的过程。,SM,将这个计算结果以转发表的形式发布给交换机，使数据包沿着计算好的路径传递。,转发表是一个,LID,PORT,组成的表，交换机接收到一个,LID,路由的数据包时，通过查找目的,LID,对应的表项，从而确定应该从那个端口转发这个数据包。,路由计算,网络拓扑发现过程,由子网管理器（,SM,）发起,从,SM,软件驻留的节点开始，按照宽度优先（,BFS,）、或深度优先（,DFS,）方法逐个发现，将发现好的节点加入拓扑链表中,在进行子网发现的过程中，为每个已发现的节点分配一个本地,ID,（,LID,），为后继的路由做准备,网络拓扑发现过程,LID=1,LID=2,LID=3,LID=4,LID=5,LID=6,LID=7,LID=8,IB,网络路由过程,交换机内部转发机制,LFT,：,Lineral Forward Table,（线性转发表）,首先，根据报文头的,SL,查找,SL-to-VL-Table,（服务等级映射表），获得该报文的转发的,VL,通道。,而后，根据目的,DLID,查找,LFT,线性转发表，获取下一跳的端口号。,LFT,(DLID to Port),IB,网络路由过程,寻径过程,SW2,cn0,cn1,cn2,cn3,LID=2,LID=3,LID=4,LID=5,LID=6,目的,LID,输出端口,1,1,2,2,5,3,6,3,1,2,3,4,1,2,3,4,目的,LID,输出端口,1,2,2,2,5,3,6,4,SW1,线性转发表,SW2,线性转发表,LID=1,SW1,查表,查表,SM,路由节点的添加和删除,子网管理器,SM,发现拓扑变化,主动发现，通过子网扫描,被动发现，节点的代理软件主动上报自己的故障端口,当拓扑发生改变时，更新路由表,IB,网络路由更新过程（,1,）,SW2,cn0,cn1,cn2,cn3,LID=2,LID=3,LID=4,LID=5,LID=6,目的,LID,输出端口,1,1,2,2,5,3,6,4,1,2,3,4,1,2,3,4,目的,LID,输出端口,1,2,2,2,5,3,6,4,SW1,线性转发表,SW2,线性转发表,LID=1,SW1,SMA,SM,SMA,链路故障报告,IB,网络路由更新过程（,2,）,SW2,cn0,cn1,cn2,cn3,LID=2,LID=3,LID=4,LID=5,LID=6,目的LID,输出端口,1,1,2,2,5,3,6,3,1,2,3,4,1,2,3,4,目的,LID,输出端口,1,1,2,1,5,3,6,4,SW1,线性转发表,SW2,线性转发表,LID=1,SW1,SMA,SM,SMA,更新转发表,IB,分层协议栈,由,OpenFabric,组织制定,IB,规范,RDMA NIC,R-NIC,Host Channel Adapter,HCA,User Direct Access Programming Lib,UDAPL,Reliable Datagram Service,RDS,iSCSI RDMA Protocol (Initiator),iSER,SCSI RDMA Protocol (Initiator),SRP,Sockets Direct Protocol,SDP,IP over InfiniBand,IPoIB,Performance Manager Agent,PMA,Subnet Manager Agent,SMA,Management Datagram,MAD,Subnet Administrator,SA,Common,InfiniBand,iWARP,Key,InfiniBand HCA,iWARP R-NIC,Hardware,Specific Driver,Hardware Specific,Driver,ConnectionManager,MAD,InfiniBand Verbs / API,SA Client,Connection,Manager,Connection Manager,Abstraction (CMA),User Level Verbs / API,SDP,IPoIB,SRP,iSER,RDS,UDAPL,SDP Library,User Level MAD API,Open SM,Diag,Tools,Hardware,Provider,Mid-Layer,Upper Layer Protocol,User APIs,Kernel Space,User Space,NFS-RDMA,RPC,Cluster,File Sys,Application Level,SMA,R-NIC Driver API,Clustered,DB Access,(Oracle,10g RAC),Sockets,BasedAccess,(IBM DB2,),Various,MPIs,Access to,File,Systems,Block,Storage,Access,IP Based,App,Access,Apps & AccessMethodsfor usingOF Stack,IB,分层协议栈,SRP,Miniport,StorPort,SDP*,SDP,SPI*,Applications,User,Kernel,Windows,Applications,OF Windows,Hardware,* Windows Compute,Cluster Server 2003,* Will be available in,the future,WSD SAN,Provider,Management,Tools,HCA Hardware,Access Layer,Verbs Provider Driver,Verbs Provider Library,Access Layer Library,Kernel Bypass,Winsock Socket Switch,WinSock,Provider,MPI2*,IPoIB,NDIS,TCP/UDP/ICMP,IP,VNIC*,Sockets Direct Protocol (SDP) &Reliable Datagram Sockets (RDS),Host Channel Adapter,OpenIB Access Layer,IPoIB,IP,Oracle 10g,Socket,Applications,TCP,UDP,SDP,RDS,Kernel,User,UDP Applications,IPoIB,IPoIB Packet Format,IPoIB,子网视图,每个端结点,HCA,的每个,IB,端口都分配一个独立的,IP,地址，支持,IP v4/v6,地址格式,结点间通信，可使用,IP,地址标识,Node,D,IPd IPs,Node A,A,IPa,IPp,IPr IPc,Node,C,IPq IPb,Node,B,IB switched network,IPoIB UD broadcast domain,IPoIB Connected network,FCoIB,IB,网到,FC,网之间采用透明网桥,Gateway,Host,Fibre Channel,Host,Host,InfiniBand,FC over IB Gateway Model,NPIV N_Ports,FC Begins Here,Physical View:,Handling initiators logins,Acts as an NPIV N_Port,Reflects F_LOGI as F_DISC,Virtualized,Server,Logical View:,NPIV HBA,Fibre Channel,Host,Host,Host,FCoIB to FCGateway,Fibre Channel,InfiniBand,“PCIe,extension”,FCoIB Gateway Stateless Packet Relay,IB to FC,Strip IB headers,Payload contains entire FC frame,FC to IB,D_ID lookup to retrieve addressing LID, QPN, etc.,Encapsulate FC frame as UD payload,IB CRC,IB Headers,FC Frame,FC Frame,IB CRC,IB Headers,FC Frame,FC Frame,内容提要,超级计算机系统及其互连结构,Infiniband,互连网络的体系结构,在,HPC,中的,典型互连,架构及应用,IB,网络优化技术,未来展望,典型的,IB,交换机实现结构（,1,）,9 x Fabric Boards,(single and double dense),2 x Fan Units,6 x Power Supplies,2 x Management Boards,18 x Line Boards,19U,典型的,IB,交换机实现结构（,2,）,两级胖树结构,或者“折叠的,clos,网络”,L2,L1,18,IB,网络拓扑,Topologies that are mainly in use for large clusters, Fat-Tree, 3D Torus, Mash,IB,网络拓扑,3D Torus,An oversubscribed network, easier to scale,Fit more applications with locality,IB,网络拓扑,Fat-tree (also known as CBB),Flat network, can be set as oversubscribed network or not,In other words, blocking or non blocking, Typically the lowest latency network,胖树结构是互连已知硬件数量的一种通用方法。,胖树相对传统树，越靠近根部带宽越大。如果要使网络是,非阻塞的,，每层的总带宽都要相同。,胖树结构,常用的,IB,网络拓扑结构,利用多个“,IB,交换机”构造大规模,IB,网络,每个,IB,交换机内部是胖树结构,64 Node Cluster using blades and Shark-GTs,972 Node Full CBB using Shark/Orca (max 11,664),CoreFabric,8x SFS TS740288 ports each,Edge,256x TS12024-ports each,18 Compute Nodes),18 Compute Nodes),8192 Processor 60TFlop SuperCluster,2048 uplinks(7m/10m/15m/20m),Real Deployments Today: Wall Street Bank with 512 Node Grid,SAN,LAN,2 96-portTS-270,23 24-port TS-120,512 Server Nodes,2 TS-360 w/ Ethernet and Fibre Channel Gateways,Core Fabric,Edge Fabric,GRID I/O,Existing Networks,Fibre Channel and GigE connectivity built seamlessly into the cluster,520 Dual CPU Nodes1,040 CPUs,NCSA,National Center for Supercomputing Applications,Tungsten 2: 520 Node Supercomputer,Core Fabric,Edge Fabric,6 72-portTS270,29 24-port TS120,174 uplinkcables,512 1mcables,18 Compute Nodes,18 Compute Nodes,Parallel MPI codes for commercial clients,Point to point 5.2us MPI latency,Deployed: November 2004,1,066 Node Super Computer,Fault Tolerant Core Fabric,Edge Fabric,12 96-portTS-270,89 24-port TS-120,1,068 5m/7m/10m/15muplink cables,1,066 1mcables,12 Compute Nodes,12 Compute Nodes,1,066 Fully Non-Blocking Fault Tolerant IB Cluster,1,Direct-attach storage,Servers with unused storage, uncontrolled growth,Storage dedicated to one server,Decentralized backup,2,Fibre Channel SANs,Eliminates islands of storage,Increases utilization and availability,Highest performance levels,6,Fibre Channel over Ethernet,Converges LAN and SAN traffic on single link,Lowers operational costs (cabling and Converged Network Adapters),Scalability for virtual environments,4,iSCSI/NAS,Consolidates small or isolated servers,Offers low-cost server attachment,NAS is ideal for files and unstructured data,FCIP/iFCP,Connects geographically dispersed SANs,Low cost and easy to deploy for disaster recovery solutions,3,5,Infiniband,Low latency, high bandwidth,Ideal for high-performance computing (HPC),当前的网络存储技术,New,Networked,storage,Fibre Channel,SAN,2,Mainframe,Servers,VMware,1,Rack-mounted servers with CNAs,6,Fibre Channel,over Ethernet,4,iSCSI/NAS,Remote/isolated,servers,3,FCIP/iFCP,Disaster recovery site,5,Infiniband,Server Network HPC,典型,IO,互联架构,SAN,Server Fabric,LAN/WAN,Server Cluster,Fibre Channel to InfiniBand gateway for storage access,Ethernet to InfiniBand gateway for LAN access,Single InfiniBand link for:,- Storage,- Network,SAN/NAS,存储结构,Management,Console,S,A,N,NAS,NAS,NAS,tape,数据中心的,IO,加速,内容提要,超级计算机系统及其互连结构,Infiniband,互连网络的体系结构,在,HPC,中的,典型互连,架构及应用,IB,网络优化技术,未来展望,有效的,IB,通信优化方法,GPUDirect,CORE-Direct,Offloading,Congestion Control,Adaptive Routing,Management,Messaging Accelerations,Advanced,Auto-negotiation,MPI,IB,网络中典型的,MPI,通信性能,IB,网络路由和拥塞控制,通过子网管理器,SM,（软件）集中管理,每个节点（,host,和,switch,）驻留管理代理,SMA,，与,SM,交换信息，实现路由和拥塞控制功能,路由算法,寻径过程，为两个机器之间选择一条通信路径。,目标：,最小代价,(,最小跳步数,),无死锁、活锁,平衡网络流量负载,避免拥塞，避免通信“热点”竞争,网络拓扑,规则网络,网络具有规则的拓扑图结构,(ring, meshes,Fat-tree,，,hypercube, etc),易于优化,不规则网络,不规则的网络图形状,拓扑发现比较关键,需要精心设计路由算法，保证无死锁,路由算法的分类：,oblivious,和,adaptive,Oblivious,（确定性路由）,为每个源和目的对分配一个路由，而不考虑网络流量。这种路由具有一定的吸引力,attractive,，因为其路由可以事先计算出来，尽管计算的代价可能很高。,Adaptive,（自适应路由）,力图根据当前流量来调节节点间的路由。这种路由能够对全局网络的通信状况迅速作出反应，并实时改变路径以达到流量均衡的目的，通常会使用快速但并非最优化的算法来实现。,IB,网络路由,IB,网络路由是,确定性路由（,oblivious,）,因为,IB,网络使用基于目标,LID,的路由,转发表在网络构建之初已经形成，,转发表是线性的,:,目的地的,LID,号,下一跳输出端口,任意网络上的确定性路由（

展开阅读全文

InfiniBand高速网络互连技术

最新文档