资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2011/12/7,#,蓝,翼俱乐,部,成功案例及技术分享,西安神州数码有限公,司 毋果津,项,目背景:,项目名称,XX,制,造行业高性能计算集群系统,项目建设单位:,XX,制造行业,项目背景:,XX,制造行业在其信息化建设过程中,需要对其工程制造中涉及的产品进行工作状态及运行行为的模拟仿真,及早发现设计缺陷、改进和优化设计方案,拟初步建立一套高性能计算群集测试系统,测试高性能计算群集对其工程设计的效率提升程度,应用系统包括,CAD,、,CAM,等;如测试效果良好,计划后期扩大高性能计算群集的规模。,我当时负责神州数码,IBM X,服务器的售前技术支持工作,和当地,IBM,销售人员及,IBM,售前工程师共同跟进此项目。,项,目背景:,客户困难:,客,户由于是初次进行,HPC,项目建设,没有此类项目的建设经验,需要为其提供从硬件平台至应用系统的整体解决方案;,客户对,HPC,对其在工程制造的帮助无法预期,所以无法投入大量资金用于此系统的建设;,客户同时希望在项目预算内,尽可能地依据工程制造行业的,HPC,特点,搭建尽可能接近实际生产环境的高性能硬件平台。,CAE-HPC,的目标是,“,用最低的成本模拟真实世界,”,,即,“,用最短的时间、最少的人力、最低的资金,进行复杂单场模拟和多场耦合分析,”,。,计算速度、网络连接、数据安全、整体管理是重点考虑对象,分布式并行提高计算速度,。多核,高速连接提高系统并行处理能力,对于建模仿真等,分布式内存应用程序,采用,更大的内存,,用户可以建立高保真模型。,I/O,瓶颈需要,大内存允许中间数据存储在内存中而不需要和硬盘交换数据,可以减少,I/O,频度,明显提高速度。,并行环境下需要考虑节点间的交互,尽可能提供高带宽低延迟的计算网络,大规划计算需要考虑散热、通风以及管理问题,数据安全性问题,系,统设计原则与选型依据,设,计方案,-,系,统架构图:,整,体设计方案,分,为三套独立网络:计算网络、管理网络和存储网络;,Infiniband,网络作为计算网络,保证高带宽低延迟的数据交互;,FC,存储网络;,千,兆管理网络;,将管,理网络与,IO,网络分开,采用刀片服务器作为计算节点,设,计方案,-,硬,件构成:,硬,件构成说明:,14,个计算节点,采用,IBM 2,路刀片式服务器;使用,Infiniband,作,为计算网络;,1,个,IO,节点,采用,IBM 2,路机架式服务器,也连接至计算网络;,1,个管理节点,采用,IBM 2,路机架式服务器;,1,个刀片机箱,配置,1,个以太网交换机和,1,个,InfiniBand,交换机,;,1,个,FC,接口磁盘阵列,配置,5TB,可用容量,通过,FC,线缆连接至,IO,节点,设,计方案,-,计,算网络:,计算网络设计,计算网络的,网络,性能,是,HPC,集,群最关键的部,分,,,它,的容量和性能直接影响了整个系统对高性能计,算的,适用,性,;,由,于,HPC,网络的复杂性,尽可能将管理、计算任务分开;,由于用户是进行建模仿真,需要大批量高密度的数据交换。因此采用高带宽低延迟的,Infiniband,网络;,将,IO,节点也连接至计算网络。,设,计方案,-,存储,网络:,存,储网络设计,对于本次电子数据仿真设计,HPC,项目,存储只作为最终结果的存放地,不要求非常高的性能;,存储网络采用,SAN,架构,采用,4GB FC,连接至存储服务器,简化数据操作的复杂性且方便扩展;,一个,IO,节点,承担汇数据总及传输作用。,设,计方案,-,管理,网络:,管,理网络设计,管理网络在,HPC,中承担着硬件状态监控、集群管理和任务分发等管理职能;,采用千兆以太网络作为管理网络;,使,用一台机架式服务器作为管理节点。,设,计方案,-,计,算节点设备选型:,计算节,点的计算能力直,接影响高性能计算的性能。,对于建模仿真来说,需要更大内存在前后,处理方面获,得,更好的性能;,大规,模计算情况下,还需要考虑节点的交互,散热和管理;,计算节点采用,IBM 2,路刀片式服务器,HS22,,配置,2,路,四核,Intel,5560,处理器,,24GB,内存,,146GB,硬盘,。,HS22,刀片服务器,设,计方案,-,软件和应用系统,操,作系统,Redhat Linux,硬件管理和监控,IBM Director,集群管,理和监控,xCat,作,业调度,OpenPBS+Maui Scheduler,并行库和数学库,MPICH,、,PVM,、,GNU C/C+,、,Fortran,、,Java,性,能测试工具,HPL,设,计方案,-,性能及功,耗,GFlops,理,论,Gflops,:,1.254GFlops,(,2.8G44214,),预计效率:,85%,以上(,infiniband,效,率,千兆网络),功率,设,备最大总,功率,=14899+2332+370=5933W,设,计方案,-,硬,件配置:,硬,件配置清单,部件号,说明,数量,BladeCenter,HS22/2C/16G/14,节点,88524YC,BladeCenter H,机箱,,9,U,14,个槽位,标准带,2,个,2900,W,电源,,1,个,AMM,2,个冗余风扇,,DVD RW Drive,,支持高速交换机,1,31R3335,BladeCenter H 2900W,电源模块包,含,2,个独立电源模块,1,32R1860,Nortel L2/3 Copper,以太网交换机模块,对外,6,口,RJ45,1,25R5785,BladeCenter H IEC 320 C20(200-240V)2.8M,电源线,对外接口为,3,个,C19,接口,2,49Y9980,3m Copper QDR Infiniband QSFP Cable,1,46M6005,Voltaire 40 Gb InfiniBand Switch module for BladeCenter H,1,小计,7870C3C,HS22,Xeon 4C X5560 95W 2.80GHz/1333MHz/8MB L2,2x2GB,O/Bay 2.5inSATA/SAS,14,44T1886,Intel Xeon 4C,处理器,Model X5560 95W 2.80GHz/1333MHz/8MB L2,14,44T1487,2GB(1x2GB)DDR3 1Rx4 Chipkill,内存,1333,MHz HS22,84,43W7536,146GB 10K SAS(SFF),热插拔硬盘 适用于,HS12/HS22,14,46M6001,2-port 40 Gb InfiniBand Expansion Card(CFFh)for IBM BladeCenter,14,小计,Sysx,Mgt&I/O(I/O,节点,)1,台,x3650m2,机架式服务器,794762C,x3650 M2,Xeon Quad Core E5540 80W 2.53GHz/1066MHz FSB/8MB L2,2x1GB,O/Bay 2.5in HS SAS,SR MR10i,CD-RW/DVD Combo,675W p/s,Rack,1,46M1084,Intel Xeon QC Processor Model E5540 80W 2.53GHz/1066MHz/8MB L2,1,44T1480,1GB(1x1GB)DDR3 1Rx8,低电压内存,x3400M2,x3500M2,x3550M2,x3650M2,-2,44T1482,2GB DDR3-1333 2Rx8 LP RDIMM,4,42D0637,IBM 300 GB 2.5in SFF Slim-HS 10K SAS HDD,2,46M1075,Redundant 675W Power supply,1,43W4420,Voltaire 4X InfiniBand DDR Expansion Card,安装在,I/O,节点中,1,42C2071,Emulex 4 Gb FC HBA PCI-E Controller Dual Port,安装在,I/O,节点中,1,小计,Sysx,Mgt&I/O(,管理节点,)1,台,x3650m2,机架式服务器,794762C,x3650 M2,Xeon Quad Core E5540 80W 2.53GHz/1066MHz FSB/8MB L2,2x1GB,O/Bay 2.5in HS SAS,SR MR10i,CD-RW/DVD Combo,675W p/s,Rack,1,46M1084,Intel Xeon QC Processor Model E5540 80W 2.53GHz/1066MHz/8MB L2,1,44T1480,1GB(1x1GB)DDR3 1Rx8,低电压内存,x3400M2,x3500M2,x3550M2,x3650M2,-2,44T1482,2GB DDR3-1333 2Rx8 LP RDIMM,4,42D0637,IBM 300 GB 2.5in SFF Slim-HS 10K SAS HDD,2,46M1075,Redundant 675W Power supply,1,小计,SSD,DS3400,存储,可用空间,5TB,172642X,IBM System Storage DS3400 Dual Controller,双控制器,1,39R6517,DS3000 1GB Cache Memory Upgrade,缓存升级选件,2,42D0519,IBM 450GB 3.5in HS 15K SAS HDD,热插拔硬盘,12,39R6475,IBM 4-Gbps Optical Transceiver-SFP,短波模块,4,39M5696,1m Fiber Optic Cable LC-LC,光纤通道线缆,4,小计,Sysx,RACK/KVM,93074RX,S2 42U,标准机柜,1,172317X,1U 17,液晶折叠套件(键盘可选),1,17353LX,1x8,控制台交换机,1,39M2895,USB KVM,连接线缆,UCO,(,4,根一包),2,40K5372,USB,旅行键盘,1,小计,PDU,39Y8934,DPI Single-phase 32A Front-end PDU-HV,2,39Y8959,通用电源分配器,16A/220V 7,个,C13,输出插座,线缆,:4.3m GB 2099.1,2,39Y7932,Rack Power Cord-C13/C14,2,8767HNX,SAS,半高桌面式磁带机外置盒,1,43W8478,LTO3 400/800GB SAS,接口 磁带机 半高,1,产品招标参数:,刀片机箱 数量,1,台,设备名称,指标项,技术规格要求,刀片中心,品牌,国际知名品牌,高度,/,密度,9U,高,/,14,个刀片,要求每个机柜最多可以放置,84,个刀片或者,168,颗处理器,可靠性要求,全冗余的双背板设计,电源支持,N+N,冗余,即在刀片满配情况下,,2,路供电中的一路出现问题时仍需保证所有刀片不能宕机,满配电源和风扇,易用性要求,机箱集成本地光驱,DVD/RW,机箱集成本地,KVM,集成的管理模块,网络支持,配置,1,个,Nortel L2/3 Copper,以太网交换机模块,对外,6,口,RJ45,配置,1,个,Voltaire 40 Gb InfiniBand Switch module,配置,1,条,3,m Copper QDR Infiniband QSFP Cable,最多支持,10,个网络模块,支持,L2-7,交换机(或者基于硬件的负载均衡功能),支持,Qlogic 4Gb FC,交换机,支持智能直通模块,并可升级成交换机,支持,SAS,连接模块,与外接,SAS,盘柜联接,支持无阻塞,Infin
展开阅读全文