中科大-并行计算讲义第二讲-PC机群的搭建.ppt

上传人:max****ui 文档编号:8326163 上传时间:2020-03-28 格式:PPT 页数:37 大小:174KB
返回 下载 相关 举报
中科大-并行计算讲义第二讲-PC机群的搭建.ppt_第1页
第1页 / 共37页
中科大-并行计算讲义第二讲-PC机群的搭建.ppt_第2页
第2页 / 共37页
中科大-并行计算讲义第二讲-PC机群的搭建.ppt_第3页
第3页 / 共37页
点击查看更多>>
资源描述
并行计算 中国科学技术大学计算机科学与技术系国家高性能计算中心 合肥 2003年9月 国家高性能计算中心 合肥 2 2020 3 28 PC机群的搭建 机群系统概述硬件的选择与安装软件的选择与安装机群系统性能评测 国家高性能计算中心 合肥 3 2020 3 28 机群系统概述 什么是机群 机群是一组独立的计算机 节点 的集合体 节点间通过高性能的互连网络连接 各节点除了可以作为一个单一的计算资源供交互式用户使用外 还可以协同工作并表现为一个单一的 集中的计算资源供并行计算任务使用 一种造价低廉 易于构筑 并且具有较好可扩放性的并行机体系结构 国家高性能计算中心 合肥 4 2020 3 28 发展迅速的原因 作为机群节点的工作站系统的处理性能越来越强大 更快的处理器和更高效的多CPU机器将大量进入市场 随着局域网上新的网络技术和新的通信协议的引入 机群节点间的通信能获得更高的带宽和较小的延迟 机群系统比传统的并行计算机更易于融合到已有的网络系统中去 机群上的开发工具更成熟 而传统的并行计算机上缺乏一个统一的标准 机群价格便宜并且易于构建 机群的可扩放性良好 节点的性能也很容易通过增加内存或改善处理器性能获得提高 国家高性能计算中心 合肥 5 2020 3 28 重要特征 机群的各节点都是一个完整的系统 节点可以是工作站 也可以是PC机或SMP机器 互连网络通常使用商品化网络 如以太网 FDDI 光通道等 部分商用机群也采用专用网络互连 网络接口与节点的I O总线松耦合相连 各节点有一个本地磁盘 各节点有自己的完整的操作系统 国家高性能计算中心 合肥 6 2020 3 28 分类 根据不同的标准 可有多种分类方式针对机群系统的使用目的可将其分为三类 高性能计算机群负载均衡机群高可用性机群 国家高性能计算中心 合肥 7 2020 3 28 典型机群系统 BerkeleyNOWBeowulfCOTS Commodityofftheshelf LAMPSMP cluster 国家高性能计算中心 合肥 8 2020 3 28 PC机群的搭建 机群系统概述硬件的选择与安装软件的选择与安装机群系统性能评测 国家高性能计算中心 合肥 9 2020 3 28 硬件的选择与安装 节点构建处理器 内存 总线 磁盘与I O系统构建网络适配卡 交换机机群系统示例天体物理中心64个节点PC机群1个服务节点 兼作计算节点 和63个计算节点 国家高性能计算中心 合肥 10 2020 3 28 机群系统示例 服务节点配置 CPU Pentium 2 0G 512KB全速二级缓存 内存 1G 2 512M Rambus硬盘 80GBIDE主板 ASUSP4TSocket423网卡 3com905 TX 两个 显卡 显示器 键盘 鼠标 光驱 软驱 略计算节点配置 CPU Pentium 1 5G 512KB全速二级缓存 内存 512MB 2 256M Rambus硬盘 40GBIDE主板 ASUSP4TSocket423网卡 3com905 TX 国家高性能计算中心 合肥 11 2020 3 28 机群系统示例 交换设备由2个3com3c16980和1个3com3c16985的交换机通过一个matrixmodule堆叠而成 并安装了一个千兆光纤模块 以备服务接点连接内部机群的网卡升级为千兆网卡 国家高性能计算中心 合肥 12 2020 3 28 PC机群的搭建 机群系统概述硬件的选择与安装软件的选择与安装机群系统性能评测 国家高性能计算中心 合肥 13 2020 3 28 软件的选择与安装 OS的选择SSI的构建编程环境的选择 国家高性能计算中心 合肥 14 2020 3 28 OS的选择 WindowsUNIXLinux机群系统示例Redhat7 2版本 内核2 4 10 国家高性能计算中心 合肥 15 2020 3 28 SSI的构建 单一系统映像SSI SingleSystemImage 单一系统 尽管系统中有多个处理器 用户仍然把整个机群视为一个单一的系统来使用单一控制 逻辑上 最终用户或系统用户使用的服务都来自只有唯一接口的同一个地方对称性 用户可以从任一个节点上获得机群服务 也就是说 对于所有节点和所有用户 除了那些对一般访问权限作保护的服务和功能外 所有机群服务和功能都是对称的位置透明 用户不用了解真正执行服务的物理设备的位置 国家高性能计算中心 合肥 16 2020 3 28 SSI提供的三种服务 单一登录 SingleSignOn 单一文件管理 SingleFileHierarchy 单一作业管理系统 SingleJobManagementSystem 国家高性能计算中心 合肥 17 2020 3 28 单一登录 SingleSignOn 两种方法网络信息系统NIS NetworkInformationSystem Shell脚本 ShellScript 国家高性能计算中心 合肥 18 2020 3 28 网络信息系统NIS 服务器端 设置NIS域名 在文件 etc sysconfig network中添加如下一行 NISDOMAIN PCCluster 初始化数据库 运行 usr lib yp目录下的ypinit命令初始化系统信息数据库 node0 usr lib ypinit m 启动守护进程 在 etc rc d rc3 d目录下增加两个链接 以便系统在启动时自动载入守护进程 node0 cd etc rc d rc3 d node0 ln s init d ypservS61ypserv node0 ln s init d yppasswddS61yppasswd 国家高性能计算中心 合肥 19 2020 3 28 网络信息系统NIS 客户端 在客户节点上 node1到node63 运行setup命令 然后在出现的对话框中选择 AuthenticationConfiguration 选择NIS 填入域名PCCluster以及服务器名node0 并在文件 etc passwd中加入以下一行 0 0 国家高性能计算中心 合肥 20 2020 3 28 Shell脚本 NIS 设置方便 但是采用客户 服务器模式 在应用启动的时有可能产生瓶颈 为了提高性能 我们可以采用Shell脚本的方式来完成同样的工作 例如 对用户信息的管理 可以创建一个名为cluster user的脚本 负责在其所在结点上创建新的用户 而后再将相关的配置文件 etc passwd etc groups 复制到机群系统中所有其它节点 这里要注意的一点是用户的主目录应该建立在全局共享的分区中 NFS共享 对其它的一些信息 比如 etc hosts和 etc host equiv等文件可同样处理 国家高性能计算中心 合肥 21 2020 3 28 单一文件管理 NFS是一种Unix Linux之间通过网络共享文件的标准方式 使用NFS 就能够透明的安装和访问网络上远程主机的文件系统 将其安装 mount 在本地的文件系统中 类似于Windows下的映射驱动器 示例机群 节点node0是服务器 把目录 home和 Cluster进行共享 节点node1到node63是客户端 把服务器的 home和 Cluster安装到自己的文件系统当中 国家高性能计算中心 合肥 22 2020 3 28 单一文件管理 服务器端 1 启动服务进程 NFS服务器需要使用守护进程nfsd和mountd 通过在目录 etc rc d rc3 d之下增加链接可以使系统在启动时自动载入这两个进程 node0 cd etc rc d rc3 d node0 ln s init d nfsS60nfs 国家高性能计算中心 合肥 23 2020 3 28 单一文件管理 2 设置共享目录 首先 在根目录下建立目录 home和 Cluster node0 mkdirhome node0 mkdirCluster然后 在文件 etc exports当中增加以下几行 homenode1 rw Clusternode1 rw homenode63 rw Clusternode63 rw 这几行的意思是将服务器上的 home和 Cluster目录进行共享 设置节点node1到node63可以访问 rw表示允许读和写 缺省为只读 这里要注意的一点是所有用到的主机名必须在文件 etc hosts中给出ip地址 例如 192 168 0 11node1 国家高性能计算中心 合肥 24 2020 3 28 单一文件管理 客户端 在文件 etc fstab当中加入两行 node0 home homenfsnode0 Cluster Clusternfs当然 相应的要在文件 etc hosts中给出主机node0的ip地址 192 168 0 10node0这样就完成了NFS在机群系统中的设置 以后所有用户的主目录都可以设置在 home中 所有可以共享安装的软件可以放在 Cluster中 国家高性能计算中心 合肥 25 2020 3 28 单一作业管理系统 用户可以透明地从任一节点提交一项作业 作业可以调度为以批处理 交互或并行的模式运行用户服务器 任务调度器 资源管理器典型的作业管理系统PBS PortableBatchSystem LSF LoadSharingFacility CondorJOSSPBS的安装 国家高性能计算中心 合肥 26 2020 3 28 软件的选择与安装 OS的选择SSI的构建编程环境的选择 国家高性能计算中心 合肥 27 2020 3 28 编程环境的选择 流行的编程软件MPI OpenMP HPFMPICH的安装及配置示例机群中构建了单一映象系统 64个节点 node0到node63 中node0共享 Cluster目录给所有其它节点 这样只需将MPICH安装在这个共享目录中即可 即整个系统中只需安装一次 国家高性能计算中心 合肥 28 2020 3 28 MPICH的安装 MPICH是一个开放源码的软件 所以可以从网上免费获取它的源代码 用户可以直接从MPICH的主页下载最新的软件包mpich tar gz 然后将它置于 Cluster目录下 使用如下命令解压缩源代码 node0 tar zxfmpich tar gz解压缩后会生成一个名字为mpich 1 2 4的目录 国家高性能计算中心 合肥 29 2020 3 28 MPICH的安装 进入该目录 并执行位于该目录下configure脚本 为下一步编译源代码进行准备 该配置脚本可以接受很多的参数 Options 通过运行命令如下 node0 configure help可以获取更详细的参数信息 这里只列举几个最常用的参数 prefix 指定mpich的安装目录 with device 指明所使用的通信系统类型 一般情况下我们使用ch p4 它表示通常的TCP IP通信系统 with arch 指明所使用的操作系统的类型 运行如下命令完成前期配置 node0 configure prefix Cluster MPICH with device ch p4 with arch LINUX 国家高性能计算中心 合肥 30 2020 3 28 MPICH的安装 最后 先通过运行su命令转变到root用户身份 再运行如下命令完成MPICH的编译和安装 node0 make node0 makeinstall至此就完成了机群系统中MPICH的安装 国家高性能计算中心 合肥 31 2020 3 28 MPICH的配置 第一步要进行rsh的配置 使系统中不同节点之间的rsh操作不需要密码的输入 这首先需要在每个节点的 etc hosts文件中写入node0到node63的 主机名 IP地址 对 然后在 etc host equiv中写入所有的机群节点主机名 下面是node0上的这两个文件内容 node0 cat etc hosts192 168 0 10node0192 168 0 11node1192 168 0 12node2 192 168 0 163node63 node0 cat etc host equivnode0node1node2 node63 国家高性能计算中心 合肥 32 2020 3 28 MPICH的配置 第二步要更改MPICH的节点列表文件 该文件位于 Cluster MPICH share目录下 这里我们使用的arch参数是LINUX 相应的列表文件为machines LINIUX 在这个文件中要写明机群系统中所有的节点的主机名 该文件以一定的方式指明了实际执行MPI程序时进程是如何分配到各个节点上的 以下是示例机群中的machines文件 node0 cat Cluster MPICH share machines LINUXnode0node1node2 node63 国家高性能计算中心 合肥 33 2020 3 28 MPICH的运行 MPICH中最常用的两个命令就是mpicc和mpirun mpicc是一个MPI编译器 它负责将源程序编译为可执行文件 它最常用的参数是 o用来指明输出文件 node0 cd Cluster MPICH examples node0 bin mpicccpi c ocpinewmpirun则是用来执行一个编译好的MPI程序 下面是它最常用的一些参数 np 用来指明所要生成的进程数 machinefile 缺省时使用的machines文件是前面介绍过的位于share目录下的machines LINUX 但通过这个参数可以指定一个临时的machines文件 从而使用不同的进程指派方式 一个标准的mpirun命令如下 node0 bin mpirun np10cpinew machinefile new machine file 国家高性能计算中心 合肥 34 2020 3 28 MPICH的运行 node0 mpirun np10cpiProcess1onnode1Process4onnode4Process3onnode3Process7onnode7Process8onnode8Process9onnode9Process2onnode2Process6onnode6Process5onnode5Process0onnode0piisapproximately3 1416009869231249 Erroris0 0000083333333318wallclocktime 0 015806 国家高性能计算中心 合肥 35 2020 3 28 PC机群的搭建 机群系统概述硬件的选择与安装软件的选择与安装机群系统性能评测 国家高性能计算中心 合肥 36 2020 3 28 机群系统性能评测 基准测试程序 Benchmark LINPACK LAPACK BLAS BLACS LivermoreLoops Dhrystone Whetstone NAS SPEC SimLinPACK Top500的标准测试程序性能分析工具监视程序的执行 产生性能数据 甚至能够作初步的分析 以帮助你更为容易的确定性能瓶颈的所在 从而找到改善的方案DEEP MPE和Jumpshot Pablo Paradyn 国家高性能计算中心 合肥 37 2020 3 28 谢谢
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!