资源描述
,*,*,*,*,化工学院,高性能计算机,集群(,HPC,),使用说明,浙江大学化工学院,曙光计算机公司,6/15/2015,本项目由18个曙光I620-G20高性能节点构成了基于Linux系 统并行环境,以千兆快速TCP/IP以太通信网为基础,以NFS 共享存储方式组的高性能并行计算系统;,其中TC5000与TC5001为登录及管理节点、,node1node16为计算节点;,其中TC5000与TC5001同时承担集群共享I/O服务,所有节,点必须有共享/public目录;,其中/public/software/下面为集群软件安装路径,所有软件 安装到该目录下面,不同的软件安装到该目录下面的不同文 件目录,文件目录最好以软件名为名以进行区分。,系统物理组成,开机顺序:,1、先开以太网交换机,FC光纤磁盘阵列电源;,2、1分钟后打开TC5000与TC5001节点电源;3、3分钟后打开node1node16电源;,关机顺序:,1、先关闭node1node16电源,;,2、等待3分钟以后,关闭TC5000及TC5001电源;,3、等待红3分钟后,关闭交换机及FC光纤磁盘阵列电源。,开关机顺序,管理节点登录,IP,:,用户名:(需要申请)密码:(需要申请),登录方式:ssh命令行登录、VNC图形化界面登录;,登录工具:putty命令行登录、VNC Viewer图形化登录;,Linux to Windows文件传输工具:winscp,系统登录,命令行登录-putty工具,命令行登录,命令行登录,图形化登录,使用VNC Viewer工具,输入服务器IP:端口号,然后点击OK,图形化登录,输入登录密码,图形化登录-图形化界面登录成功,右键、open terminal打开命令操作窗口,图形化登录-图形化界面命令窗口,启用VNC步骤:1、su-username,2、vncserver(注意,第一次运行会提示设置密码),运行完后,注意生成的ID号,然后即可以用VNC viewer客户 端工具连接了。,高级操作:,1、vncserver-kill:ID号(杀掉刚刚生成的图形连接ID号)2、示例使用:,vncserver-geometry 1920 x1080-depth 24:5,指定分辨率1920 x1080,指定端口ID为5;3、改图形化登录密码:vncpasswd,图形化登录开启方法,文件传输工具,文件传输工具,操作系统:Red Hat Enterprise Linux Server release 6.4,系统位数:64位,编译器:Intel 14,安装路径/public/software/intel,也可以 使用which icc或which ifort查看详细路径;GCC编译器,使用which gcc查看详细路径;,Open-MPI 1.6.3安装路径,/public/software/mpi/openmpi1.6.3-intel/,也可以使用 which mpirun查看详细路径,作业调度系统:torque;,并行软件环境,集群操作命令,集群状态显示:pestat,集群状态显示:pestst,查看IP:ifconfig 查看文件系统挂载:df-h 显示当前所在文件夹路径:pwd,显示当前所在文件夹下文件及文件夹:ls-a 显示当前文件夹大小:,切换文件夹:cd 文件夹路径 创建文件夹:mkdir 文件夹名,删除文件夹:rm-rf 文件夹名 删除文件:rm-rf 文件名 查看文本文件内容:cat 文件名,编辑配置文件:vi 配置文件名 载入软件环境变量:source 环境变量文件绝对路径,系统基本操作命令,集群管理命令:clusconf,【添加账号:clusconf-au 账号名】,【删除账号:clusconf-du 账号名】,【同步文件:clusconf-yf 路径加文件名】,【批量执行命令:clusconf,【测试IP:cluster-n】,【集群文件系统显示:,-yd 命令】,cluster-s-yd df-h|grep-E node|public】,集群操作命令,rootnode15#,clusconf-au testuser,REMOTE_SH using ssh/scp,Operation is done in following hosts:,node1 node2 node3 node4 node5 node6 node7 node8 node9 node10 node11,node12 node13 node14 node15,Now add user:testuser on the Whole cluster 5.4.3.2.1.,Input the Home directory for user:testuser/public/home/testuser:,直接回车,Input the Group Name for user:testuserusers:,直接回车,Input the uid for user:testuser505:,直接回车,Changing password for user testuser.,New UNIX password:,此处输入密码,BAD PASSWORD:it is based on a dictionary word Retype new UNIX password:,此处输入确认密码,passwd:all authentication tokens updated successfully.,Now Synchronize user and group on the Whole cluster,5.4.3.2.1.,adduser testuser on the whole cluster successfully!,集群添加账号过程,切换账号:su-用户名 切换节点:ssh 节点名 文件编辑工具:vi 重启命令:reboot,使用此命令切换到某个账号,使用此命令登录到某个节点,关机命令:shutdown-h now,集群操作命令,vi是Linux系统下面最常用的文本编辑工具,几乎所有系统配,置相关的修改都要使用到这个工具。,例:有/test.txt文档,该文档内容为 rootnode1#cat/test.txt 11111111,22222222,33333333,实验内容:先在/test.txt文件第4行添加44444444,同时复,制第2行内容到第5行。,最基础最常用vi,在介绍cat命令时,我们使用了more与grep参数,这两个参 数非常的有用,可以在任何显示内容性的命令后面添加这个 参数,以方便我们获取到需要的有用信息。,more参数可以让我们一页一页的查看内容;,grep参数可以让我们筛选出所需要的信息。,通用参数more与grep,一、本地文件及文件夹的复制,cp 源文件目标文件 例:cp/a/b,二、网络文件及文件夹的复制,scp 源文件 目标文件例:scp/a 192.168.1.1:/b,通用参数:,-r复制文件夹时必须添加的参数;,-a不改变任何文件属性的复制,-f强制复制,-u只复制目标没有的文件,文件及文件夹复制,一、文件及文件夹的移动、重命名,mv 源文件 目标文件 当源文件与目标文件存放路径一致时,实际执行重命名操作 参数:-f强制模式、-u只移动目标没有的文件或文件夹,二、文件及文件夹的删除 rm 文件名,可以删除文件,参数:-r删除文件夹时必须添加该参数;,-f强制模式,注:所有的文件及文件夹操作均可使用通配符*,但请慎用。,文件移动、重命名及删除,一、一般使用ls rootnode1#ls aaaDesktop,二、查看权限及修改时间用ll rootnode1#ll,total 14820,software,drwxr-xr-x 2 rootroot4096 Dec 12 10:58 aaa,通用参数:-a显示所有文件,包含文件名前为.的隐藏文件,-h格式化显示文件大小,列出文件列表,集群账号目录:,roottc5000#ls/public/home/msitestuser00,使用clusconf au添加账号时,默认会把用户目录建到上面 路径下面。,集群软件安装目录:,roottc5000#ls/public/software/,集群安装软件时,需要在TC5000节点安装到,/public/software下面,如果软件只有自己使用,则可以安 装在自己的账号目录下面即可。,集群软件安装,appcompiler,intel-oldmathlib,matthlab-old,modulesmpi,mpi-oldprofile.d,查看文件夹下面的文件及文件夹大小可以使用du命令:,du 文件夹-h,查看某个文件夹具体大小 du 文件夹-sh,查看文件夹总大小,PBS作业调度使用说明,1.,准备,:编写描述改作业的脚本,包括作业名,需要的资源等。,2.,提交,:使用qsub命令将该作业提交给PBS服务器,3.,排队,:服务器将该任务排入适当的队列,4.,调度,:服务器检查各工作节点的状态是否符合该作业的要求,并 进行调度。,5.,执行,:当条件满足时,作业被发给相应的执行服务器执行。程序 运行时执行服务器会收集程序的标准输出和标准错误流,等程序 结束时,将这些信息返回给用户。,6.,查询和调整,:当作业在运行时,用户可以使用qstat进行状态查询。用户发现作业提交错误时,可以使用qdel删除正在运行的作业。,7.,查看结果,:使用文本编辑软件vi或者系统命令cat,less等查看输出,及错误信息显示。,PBS作业提交步骤,在PBS系统中,用户使用 qsub 命令提交用户程序。用 户运行程序的命令及PBS环境变量设置组成PBS作业脚本,,作业脚本使用如下格式提交到PBS系统运行:,qsub,qsub-N test.vasp-l nodes=4:ppn=2-q defaults,PBS作业提交基本命令,本质是一个SHELL脚本,注释以“#”开头,PBS运行参数,以“#PBS”开头,可以直接调用SHELL命令和系统命令,#PBS-N vasp,#PBS-l nodes=1:ppn=1,#PBS-l walltime=12:00:00,#PBS-q high,cd/home/test/work,./test.exe,PBS作业脚本,PBS运行参数,在 PBS 脚本和 qsub 命令行中均有效,qsub命令行参数的优先级更高,运 行 参 数,说明,-a,向PBS系统指定作业运行的开始时间。作业运行时间格式为:CCYYMMDDhhmm.SS,-A,使用不同的用户来提交作业,缺省使用当前用户名,-o,-e,该参数指定标准错误输出的位置,缺省的情况下,PBS系统把标准输 出和标准错误输出放在用户qsub命令提交作业的目录下。,标准错误输出:.o 标准错误输出:.e 路径使用如下格式标准::,-N,指定提交的作业名,-q,指定作业提交的目标队列,其中目标队列可以是目标队列、目标节点 名或者是目标节点上的队列。如果目标队列是一个路由队列,那 么服务器可能把作业路由到新的队列中。如果该参数没有指定,命令qsub会把作业脚本提交到缺省的队列中。,-l,该参数指定作业脚本申请的PBS系统资源列表。申请资源列表使用如下格式:,=,资源名=,.例如作业希望申请在双路节点上申请5个CPU资源的情况,则可以在脚本中如下:,#PBS l nodes=2:ppn=2+1:ppn=1,PBS的环境变量,变 量 名,说明,登陆,SHELL,继承来的变量,包括,$HOME,,,$LANG,,,$LOGNAME,,,$PATH,,,$MAIL,,,$SHELL,和,$TZ,。,$PBS_O_HOST,qsub,提交的节点名称,$PBS_O_QUEUE,qsub,提交的作业的最初队列名称,$PBS_O_WORKDIR,qsub,提交的作业的绝对路径,$PBS_JOBI
展开阅读全文