高性能集群作业调度系统课件

上传人:txadgkn****dgknqu... 文档编号:241969997 上传时间:2024-08-08 格式:PPT 页数:83 大小:2.62MB
返回 下载 相关 举报
高性能集群作业调度系统课件_第1页
第1页 / 共83页
高性能集群作业调度系统课件_第2页
第2页 / 共83页
高性能集群作业调度系统课件_第3页
第3页 / 共83页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,高性能集群作业调度系统,曙光信息产业股份有限公司,1,高性能集群作业调度系统曙光信息产业股份有限公司1,提纲,作业调度系统概述,PBS,作业调度系统,Maui,调度器,曙光,Gridview,作业调度中间件,Q&A,2,提纲作业调度系统概述2,1.1,集群使用中存在的问题,节点多,用户多,任务多,3,1.1 集群使用中存在的问题节点多用户多任务多3,系统资源整合,异构资源,软硬件资源的整合,任务综合管理,用户提交的任务的统一安排,用户权限的管理,对用户进行各类权限控制,1.2,作业调度系统的功能,4,1.2 作业调度系统的功能4,资源管理器:,管理集群的软硬件资源及认证信息等,队列管理器:,管理当前所有已提交但还未完成的作业,调度器:,为作业分配资源,1.3,作业调度系统的组成,5,资源管理器:1.3 作业调度系统的组成5,作业调度系统的结构,1.3,作业调度系统的组成,6,作业调度系统的结构1.3 作业调度系统的组成6,1.4,作业调度系统的发展历史,7,1.4 作业调度系统的发展历史7,提纲,作业调度系统概述,PBS,作业调度系统,Maui,调度器,曙光,Gridview,作业调度中间件,Q&A,8,提纲作业调度系统概述8,PBS,(,Portable Batch System,),最初由,NASA,的,Ames,研究中心开发,设计为一个能满足异构计算网络需要的软件包。它力求提供对批处理的初始化和调度执行的控制,允许作业在不同主机间的路由。,PBS,的开源版本为,OpenPBS,,目前已经停止开发。,PBS,的商业版为,PBS Pro,,由,Altair,公司开发和维护。,TORQUE(Tera-scale Open-source Resource and Queue manager,)为,OpenPBS,的后续开源版本,修正了,OpenPBS,的很多,bug,,功能和可扩展性都有很大提高。,2.1,PBS,作业调度系统,9,PBS(Portable Batch System,服务器,:pbs_server,调度器,:pbs_sched,执行器,:pbs_mom,2.2,PBS,的组成,10,服务器:pbs_server2.2 PBS的组成10,解压源文件包,tar zxvf torque-2.5.12.tar.gz,编译设置,cd torque-2.5.12,./configure,-prefix=/usr,/local,-with-server-home=/var,/spool/torque,-enable-syslog,-with-scp,-enable-docs,默认情况下,,TORQUE,将可执行文件安装在,/usr/local/bin,和,/usr/local/sbin,下。其余的配置文件和运行时环境将安装在,/var/spool/torque,下,编译和安装,make,make install,2.3,PBS,的安装,(,Torque Server,端),11,解压源文件包 2.3 PBS的安装(Torque Serve,节点操作系统相同,可以用如下,SHELL,脚本在计算节点(,torque,客户端)上安装,#,在管理节点上,make packages,#!/bin/bash,for i in seq 1 20;,do,echo=node$i=,ssh node$i/public/sourcecode/torque-2.5.12/,torque-package-mom-linux-*.sh-install,Done,2.3,PBS,的安装,(,Torque Client,端),12,节点操作系统相同,可以用如下SHELL脚本在计算节点(tor,以,root,作为,torque,的管理员账号创建作业队列,在,torque,的安装源文件根目录中,执行,./torque.setup root,Server,配置目录,/var/spool/torque/server_priv/,计算节点列表及属性:,/var/spool/torque/server_priv/nodes,node2 np=12 amd chem,node3 np=12 amd chem,node4 np=8 intel chem,node5 np=8 intel chem,node6 np=4 intel bio gpu,node7 np=4 intel bio gpu,2.3,PBS,Server,配置,13,以root作为torque的管理员账号创建作业队列2.3 P,Server,的系统启动脚本,/etc/init.d/pbs_server,Scheduler,系统启动脚本,/etc/init.d/pbs_sched,Mom,系统启动脚本,/etc/init.d/pbs_mom,Torque,服务端,chkconfig pbs_server on,chkconfig pbs_sched on,service pbs_server start,service pbs_sched start,Torque,客户端,chkconfig pbs_mom on,service pbs_mom start,2.3,PBS,系统服务,14,Server的系统启动脚本/etc/init.d/pbs_,2.4,PBS,主要操作,队列设置,节点查看,提交作业,查看作业,作业其他操作,15,2.4 PBS主要操作队列设置节点查看提交作业查看作业作业其,PBS,要能正常运行还需要通过,qmgr,命令在,server,进行配置,设置一些属性。输入,qmgr,命令进入配置交互命令,格式为,qmgr,动作,对象类型和操作符,动作 对象类型 对象名 属性 操作符 值(,属性 操作符 值),create,创建一个对象,delete,删除一个对象,set,设置对象的属性,unset,除去对象的属性,print,打印对象的属性,list,列出对象的属性,server,服务器,queue,队列,node,节点,2.4.1,PBS,的队列设置,16,PBS要能正常运行还需要通过qmgr命令在server进行配,创建队列,create queue,队列名,queue_type=execution,打开和启动队列,set queue,队列名,enable=t,started=t,打开调度,set server scheduling=t,设置默认队列,set server default_queue=,队列名,2.4.1,PBS,的队列设置,下面是让,PBS,可以正常运行的基本设置,17,创建队列create queue 队列名 queue_typ,导入,server,配置文件,qmgr queue.conf,配置文件例子,create queue default,set queue default queue_type=execution,set queue default max_running=10,set queue default enabled=True,set queue default started=True,set server scheduling=True,set server default_queue=default,set server query_other_jobs=True,2.4.1,PBS,的队列设置,18,导入server配置文件 create queue de,资源和用户限制,resources_default.cput,该队列默认的作业的,CPU,时间,格式:时,:,分,:,秒,注意:该,CPU,时间为:进程数,*,(结束时间,-,开始时间),resources_default.walltime,该队列默认的墙上时间,格式:时,:,分,:,秒,max_running,某队列最多可运行的作业数,如果该项为,0,或没有该项,表示没有限制,max_user_run,一个用户最多可以运行的作业数,acl_user_enable,是否启用用户访问控制,如果,acl_user_enable=True,,则在,acl_users,中列出的用户才能使用该队列,acl_users,格式:,,用户名不接受通配符,acl_host_enable,如果,acl_host_enable=True,,则,acl_hosts,属性中列出的主机才能使用该队列,acl_hosts,该队列可以使用的节点列表,2.4.1,PBS,的队列设置,19,资源和用户限制resources_default.cput,dawningnode1$,pbsnodes-a,node2,state,=free,np,=12,ntype,=cluster,status=rectime=1347344839,varattr=,jobs=,state=free,netload=199480,4223313,gres=,loadave=0.15,ncpus,=32,physmem=132133404kb,availmem,=147084788kb,totmem=148910612kb,idletime=1721946,nusers=1,nsessions=1,sessions=2455,uname=Linux node2 2.6.32-220.el6.x86_64#1 SMP Wed Nov 9 08:03:13 EST 2011 x86_64,opsys=linux,gpus,=0,node3,state=down,np=12,ntype=cluster,2.4.2,PBS,查看节点状态,20,dawningnode1$pbsnodes-a,pbsnodes,命令的主要参数,-a,列出所有结点及其属性,属性包括“,state”,和“,status”,-o,将指定结点的状态标记为“,offline”,。这将帮助管理员暂时停止某些结点的服务,-l,以行的方式列出被标记的结点的状态,如,-l free,,,-l offline,-c,清除结点列表中的“,offline”,或“,down”,状态设置,使结点可以被分配给作业,-r,清除指定结点的“,offline”,状态,2.4.2,PBS,查看节点状态,21,pbsnodes命令的主要参数2.4.2 PBS查看节点状态,步骤:,准备,:编写描述该作业的脚本,包括作业名,需要的资源等。,提交,:使用,qsub,命令将该作业提交给,PBS,服务器,排队,:服务器将该任务排入适当的队列,调度,:服务器检查各工作节点的状态是否符合该作业的要求,并进行调度。,执行,:当条件满足时,作业被发给相应的执行服务器执行。程序运行时执行服务器会收集程序的标准输出和标准错误流,等程序结束时,将这些信息返回给用户。,查询和调整,:当作业在运行时,用户可以使用,qstat,进行状态查询。用户发现作业提交错误时,可以使用,qdel,删除正在运行的作业。,查看结果,:使用文本编辑软件,vi,或者系统命令,cat,less,等查看输出及错误信息显示。,2.4.3,PBS,作业提交,22,步骤:2.4.3 PBS作业提交22,在,PBS,系统中,用户使用,qsub,命令提交用户程序。用户运行程序的命令及,PBS,环境变量设置组成,PBS,作业脚本,如下,qsub,2.4.3,PBS,作业提交基本命令,#PBS,-N,vasp,#PBS,-l,nodes=2:ppn=1,#PBS,-l,walltime=12:00:00,#PBS,-q,default,cd,$PBS_O_WORKDIR,./test.exe,作业脚本使用如下格式提交到,PBS,系统运行,23,在PBS系统中,用户使用 qsub 命令提交用户程序,运 行 参 数,说 明,-a,向,PBS,系统指定作业运行的开始时间。,作业运行时间格式为:,CCYYMMDDhhmm.SS,-A,使用不同的用户来提交作业,缺省使用当前用户名,-o,-e,该参数指定标准错误输出的位置,缺省的情况下,,PBS,系统把标准输出和标准错误输出放在用户,qsub,命令提交作业的目录下。,标准错误输出:,.o,标准错误输出:,.e,路径使用如下格式标准:,:,-N,指定提交的作业名,-q,指定作业提交的目标队列。如果该参数没有指定,命令,qsub,会把作业脚本提交到缺省的队列中。,-l,该参数指定作业脚本申请的,PBS,系统资源列表。,申请资源列表使用如下格式:,=,资源名,=,,,.,例如作业希望申请在双路节点上申请,4,个,CPU,资源的情况,,则可以在脚本中如下:,#PBS l nodes=2:ppn=2,运行参数在,PBS,脚本和,qsub,命令行中均有效,,qsub,命令行参数的优先级更高,2.4.3,PBS,运行参数,24,运 行 参 数说 明-a 向,变 量 名,说 明,登陆,SHELL,继承来的变量,包括,$HOME,,,$LANG,,,$LOGNAME,,,$PATH,,,$MAIL,,,$SHELL,和,$TZ,。,$PBS_O_HOST,qsub,提交的节点名称,$PBS_O_QUEUE,qsub,提交的作业的最初队列名称,$PBS_O_WORKDIR,qsub,提交的作业的绝对路径,$PBS_JOBID,作业被,PBS,系统指定的作业号,$PBS_JOBNAME,用户指定的作业名,可以在作业提交的时候用,qsub N,指定,或者在,PBS,脚本中加入,#PBS N,。,$PBS_NODEFILE,PBS,系统指定的作业运行的节点名。该变量在并行机和机群中使用。当在,PBS,脚本中用,#PBS l nodes=2:ppn=2,指定程序运行的节点数时,可以使用,$PBS_NODEFILE,在脚本中引用,PBS,系统指定的作业运行的节点名。比如:,#PBS l nodes=2:ppn=2,mpirun np 4 machinefile$PBS_NODEFILE,$PBS_QUEUE,PBS,脚本在执行时的队列名,2.4.3,PBS,环境变量,25,变 量 名说 明登陆SHELL继承来的变量包括$H,#,这是一个串行作业脚本的例子,#PBS-N test,#PBS-l nodes=1:ppn=1,cd$HOME/test/,./a.out$HOME/result/a.result,#,这是一个并行作业脚本的例子,#PBS-N vasp_job,#PBS-l nodes=2:ppn=2,#PBS-q low,echo This job is,$PBS_JOBID$PBS_QUEUE,cd,$PBS_O_WORKDIR,mpirun-np 16-machinefile,$PBS_NODEFILE,./vasp,2.4.3,PBS,脚本举例,#PBS-l nodes=2:ppn=4:amd:chem,#PBS-l nodes=,1:ppn=8:chem,+,1:ppn=8:bio,#PBS-l nodes=,node1:ppn=8,+,node2:ppn=8,指定节点特性,26,#这是一个串行作业脚本的例子#这是一个并行作业脚本的例子,一些软件有特殊的节点指定格式,比如,ANSYS,的命令行参数,格式,为:,ansys121-dis,-machines,node1:2:node2:2,-i test.inp-o,test.log,这时我们可以对,$PBS_NODEFILE,进行字符处理,得到需要的格式,2.4.3,PBS,脚本举例,#,这是一个,ANSYS,并行作业的例子,#PBS-N ansys_job,#PBS-l nodes=2:ppn=8,#PBS-q low,INPUTFILE=test.inp,OUTPUTFILE=test.log,hosts=cat$PBS_NODEFILE|uniq-c|awk print$2:$1|tr n:|sed s/:$/,cd,$PBS_O_WORKDIR,ansys121-dis-machines,$,hosts,-i$INPUTFILE-o$OUTPUTFILE,27,一些软件有特殊的节点指定格式,比如ANSYS的命令行参数格式,作业提交后,会生成一个作业号,如:,dawningnode1$qsub test.pbs,93.node1,查看集群作业运行状态:,dawningnode1$qstat,Job id Name User Time Use S Queue,-,93.node1 test.pbs test 0 R default,95.node1 vasp.Hg vasp 0 E default,111.node1 structure amber 0 Q default,2.4.4,PBS,查看作业状态,E,:退出,Q,:排队,H,:挂起,R,:运行,C,:结束,查询某个作业运行状态:,qstat 93.node1(,或者,qstat 93),显示作业运行在哪些节点上,:,qstat,-n,93.node1,显示作业运行详细信息,:,qstat,-f,93.node1,28,作业提交后,会生成一个作业号,如:2.4.4 PBS 查看作,dawningnode1$qstat,Job id Name User Time Use S Queue,-,93.node1 test.pbs zhaocs 0 R default,95.node1 vasp.Hg vasp 0 E default,111.node1 structure amber 0 Q default,qdel 93.node1,注:用户只能删除自己的作业,管理员可以删除所有用户作业,2.4.5,PBS,作业其他操作,删除作业,29,dawningnode1$qstat qdel,dawningnode1$qstat,Job id Name User Time Use S Queue,-,93.node1 test.pbs zhaocs 0 R default,95.node1 vasp.Hg vasp 0 E default,111.node1 structure amber 0 Q default,挂起作业:,qhold 111.node1,取消作业挂起,qrls 111.node1,作业挂起及取消,2.4.5,PBS,作业其他操作,30,dawningnode1$qstat 挂起作业:,dawningnode1$qstat,Job id Name User Time Use S Queue,-,93.node1 test.pbs zhaocs 0 R default,95.node1 vasp.Hg vasp 0 E default,111.node1 structure amber 0 Q default,更改作业,2.4.5,PBS,作业其他操作,更改作业运行队列:,qmove high 111.node1,更改作业资源属性:,qalter-l walltime=10:00:00 111.node1,31,dawningnode1$qstat 更改作业2,交换作业顺序,2.4.5,PBS,作业其他操作,dawningnode1$qstat,Job id Name User Time Use S Queue,-,93.node1 test.pbs zhaocs 0 R default,95.node1 vasp.Hg vasp 0 E default,111.node1 structure amber 0 Q default,112.node1 gaussian gauss 0 Q default,交换两个作业的排队顺序:,qorder 111.node1 112.node1,dawningnode1$qstat,Job id Name User Time Use S Queue,-,93.node1 test.pbs zhaocs 0 R default,95.node1 vasp.Hg vasp 0 E default,112.node1 gaussian gauss 0 Q default,111.node1 structure amber 0 Q default,32,交换作业顺序2.4.5 PBS 作业其他操作dawning,2.4.5,PBS,作业其他操作,PBS,脚本中可以指定多个作业之间的依赖关系,比如作业提交前另一个作业必须完成,否则处于排队状态,#PBS-N step2,#PBS-l nodes=4:ppn=4,#PBS-q high,#PBS-W depend=after:,#PBS-N job_rerun,#PBS-l nodes=4:ppn=4,#PBS-q high,#PBS-W depend=afternotok:,当指定作业非正常结束,作业才能提交运行,33,2.4.5 PBS 作业其他操作PBS脚本中可以指定多个作业,作业调度系统概述,PBS,作业调度系统,Maui,调度器,曙光,Gridview,作业调度中间件,Q&A,提纲,34,作业调度系统概述 提纲34,Torque,带有自己的默认调度策略器(,pbs_sched,),但是这个最基本的调度策略并不高级。它根据,fifo,的原则安排作业,对一般的集群管理应该是足够了,但如果你的集群有几,百,个以上节点,分成若干个队列,那,pbs_sched,就力不从心了。,为此,可以使用一系列第三方的调度策略进行补充。,Maui,就是被广泛使用的,调度,策略之一,。,3.1,Maui,调度器介绍,35,Torque带有自己的默认调度策略器(pbs_s,3.1,Maui,调度器介绍,Maui,采用积极的调度策略,优化资源的利用,和减,少作业的响应时间,。,Maui,的资源和负载管理允许高级的参数配置:作业优先级,(Job Priority)、,调度和分配,(Scheduling and Allocation)、,公平性和公平共享,(Fairness and Fairshare),和预留策略,(Reservation Policy)。Maui,的,QoS,机制允许资源和服务的直接传递、策略解除,(Policy Exemption),和指定特征的受限访问。,Maui,需要资源管理器和其配合使用。我们可以把,Maui,想象为,PBS,中的一个插入部件。,36,3.1 Maui调度器介绍 Maui采用积极的调度策,集群已安装配置好,Torque,解压源文件包,tar zxvf maui,-3.2.6p17.tar.gz,编译设置,cd maui,-3.2.6p17,./configure-with-pbs=/usr/local,-with-pbs,指定,Torque,安装目录,编译和安装,make,make install,3.1,Maui,安装,(Server),37,集群已安装配置好Torque3.1 Maui安装(Serve,编辑启动脚本,cd maui,-3.2.6p17,cp etc/maui.d/etc/init.d/,vim/etc/init.d/maui.d,修改其中的,”,MAUI_PREFIX=/usr/local/maui,”,(maui,的安装目录,),停用,pbs_sched,,启用,maui,chkconfig pbs_sched off,chkconfig maui.d on,service pbs_sched stop,service maui.d start,3.1,Maui,安装,(Server),38,编辑启动脚本3.1 Maui安装(Server)38,Maui,的配置参数都写在配置文件,maui.cfg,中,,配置,参数可以参考官方手册,Maui Administrators Guide,主要参数如下:,vim maui.cfg,#,设置,Maui,服务器主机名,SERVERHOST,server,#,一级权限用户,拥有,Maui,所有控制权限,包括更改调度策略,更改作业属性,ADMIN1 root,#,二级权限用户,不能更改调度策略,但能更改作业属性,ADMIN2 zhang wang zhao,#,三级权限用户,只有查看权限,,ALL,表示所有账户,ADMIN3 ALL,3.2,Maui,配置,39,Maui的配置参数都写在配置文件maui.cfg中,配置参数,#,定义资源管理器(,Resource Manager,),指定类型为,PBS,,以及,Torque,服务器主机名,,刷新资源信息的时间,端口号,RMCFG0,TYPE=PBS HOST=server,RMPOLLINTERVAL 00:00:30SERVERPORT,42559,SERVERMODE NORMAL,#,日志设置,LOGFILE maui.logLOGFILEMAXSIZE 10000000LOGLEVEL 3,3.2,Maui,配置,40,#定义资源管理器(Resource Manager),指定,#,设置,Fair share,策略,#FSPOLICY PSDEDICATED#FSDEPTH 7#FSINTERVAL 86400#FSDECAY 0.80,#,设置回填(,Backfill,)策略,BACKFILLPOLICY FIRSTFIT RESERVATIONPOLICY CURRENTHIGHEST,#,节点分配策略,#NODEALLOCATIONPOLICYMINRESOURCE#NODEALLOCATIONPOLICY CPULOAD,#NODEALLOCATIONPOLICY SHARED NODEALLOCATIONPOLICYFIRSTAVAILABLE,3.2,Maui,配置,41,#设置Fair share策略3.2 Maui配置41,#QOS,配置,QOSCFGpreemptor QFLAGS=PREEMPTOR,QOSCFGpreemptee QFLAGS=PREEMPTEE,CLASSCFGhigh PRIORITY=11000 QDEF=preemptor,CLASSCFGlow PRIORITY=6000 QDEF=preemptee,CLASSCFGmiddle PRIORITY=9000 QDEF=preemptee,#,用户优先级设置,USERCFGroot MAXPROC=400 MAXNODE=100 MAXJOB=100,USERCFGtest PRIORITY=100 MAXPROC=200 MAXJOB=10,USERCFGDEFAULT PRIORITY=100 MAXPROC=100 MAXJOB=4,3.2,Maui,配置,42,#QOS配置3.2 Maui配置42,作业调度系统概述,PBS,作业调度系统,Maui,调度器,曙光,Gridview,作业调度中间件,Q&A,提纲,43,作业调度系统概述 提纲43,4,曙光,Gridview,作业调度中间件,介绍,功能,中间件应用,使用方法,44,4 曙光Gridview作业调度中间件介绍功能中间件应用使,作业调度中间件结构图,4.1,曙光,Gridview,作业调度中间件,45,作业调度中间件结构图4.1 曙光Gridview作业调度中间,增加节点,修改节点,删除节点,创建队列,修改队列,删除队列,队列,节点,用户,修改用户身份,修改用户等级,修改用户权限,强大的资源管理,4.2,作业调度中间件功能,46,增加节点创建队列队列节点用户修改用户身份强大的资源管理4.2,基于,WEB,图形界面,集成度高,嵌入到,Gridview,中,流程简单,界面友好,1,4,2,3,轻巧的专业应用提交,4.2,作业调度中间件功能,47,基于WEB图形界面集成度高,嵌入到Gridview中流程简单,管理多个集群,1,提供完善的参数设置,2,灵活的提交方式,3,4.2,作业调度中间件功能,作业提交,48,管理多个集群1提供完善的参数设置2灵活的提交方式34.2 作,提供作业监控功能,1,提供修改作业状态功能,2,提供多集群作业监控,3,4.2,作业调度中间件功能,作业管理,49,提供作业监控功能1提供修改作业状态功能2提供多集群作业监控3,提供多个时间段的报表,提供多种存储格式,实用的用户管理和记账功能,4.2,作业调度中间件功能,50,提供多个时间段的报表提供多种存储格式实用的用户管理和记账功能,稳定性高,4.2,作业调度中间件功能,代码保护,审查严格,备份作业调度系统,恢复作业调度系统,功能稳定,01,测试严格,02,具有备份功能,单元测试严格,集成测试严格,兼容性测试严格,03,51,稳定性高4.2 作业调度中间件功能代码保护备份作业调度系统功,MPI,程序,例如,:,Vasp,、,WRF,、,mpiBLAST,等等,典型的商业软件,例如:,Gaussian,、,Fluent,、,Ansys,等等,应用与作业调度系统相结合,常用的,mpi,程序,常用的商业软件,用户自己开发的串行并行程序,4.3 GridView,作业调度的应用,52,MPI程序,例如:典型的商业软件,例如:应用与作业调度系统相,常用软件,DOCK,MPIBLAST,常用软件,常用软件,工程,量子力学,生物,常用软件,AMBER,CHARMM,GROMACS,NAMD,LAMMPS,分子动力学,应用与作业调度系统相结合,高性能主要领域,主要业务软件,得到各个领域的首席工程师的验证,4.3 GridView,作业调度的应用,ANSYS,LSDYNA,CFX,COMSOL,FLUENT,ABINIT,GAUSSIAN,PWSCF,VASP,53,常用软件DOCK 常用软件常用软件工程量子力学生物常用软件A,4.4 GridView,作业调度的使用,54,4.4 GridView作业调度的使用54,4.4.1,节点监控,节点监控提供以下几个功能,(1),监控节点状态,(2),增加节点,(3),删除节点,(4),重启节点进程,55,4.4.1 节点监控节点监控提供以下几个功能55,4.4.1,节点监控,56,4.4.1 节点监控56,4.4.2,队列管理,队列管理主要包含对队列的创建、删除、修改和查看等操作。,只有,root,用户和用户管理中规定的管理员才能打开队列管理的主页面,从而操作控制队列,。,57,4.4.2 队列管理 队列管理主要包含对队列的,4.4.2,队列管理,58,4.4.2 队列管理58,4.4.2,队列管理,59,4.4.2 队列管理59,4.4.3,用户设置,用户管理主要是对用户在作业调度系统中的身份、优先级,以及在作业调度系统对资源的使用和使用上限进行设置、修改和查看。这里的用户是指已经存在于操作系统中的一般用户,不包括,root,用户和用户,ID,小于,500,的系统用户。,60,4.4.3 用户设置 用户管理主要是对用户在作业,4.4.3,用户设置,61,4.4.3 用户设置61,4.4.4,作业提交,该作业调度系统主要通过,web,页面将作业提交给调度器。系统中有三种提交方式:,(1)Portal,提交,(2),脚本方式提交,(3),命令行方式提交,每次只能选择一种方式提交,在打开提交窗口时,默认是第一种提交方式,。,62,4.4.4 作业提交62,4.4.4.1 portal,提交,根据应用特点定制,目前集成了,19,种软件,具体使用方法见手册,Gridview_,应用,Portal_,用户手册,63,4.4.4.1 portal提交 根据应用,4.4.4.1 portal,提交,64,4.4.4.1 portal提交64,4.4.4.1 portal,提交,用户针对应用特殊配置,每个应用在,$HOME/.clusportal/,目录下有个对应的,.setting,文件,前缀为应用名。,Fluent,fluent.setting,#run setting,prog_default=/public/software/ansys_inc/v121/fluent/bin/fluent,prog_list=/public/software/ansys_inc/v121/fluent/bin/fluent:,#runfile setting,Fluent_ENVFILE=/public/software/profile.d/fluent-env.sh,65,4.4.4.1 portal提交用户针对应用特殊配置Flu,4.4.4.2,脚本和命令行提交,66,4.4.4.2 脚本和命令行提交66,4.4.4.2,脚本和命令行提交,67,4.4.4.2 脚本和命令行提交67,4.4.4.1 portal,提交,机群上作业情况,my job id is 326.node1,run nodes is following:,node4,node4,node4,node4,begin time is Tue Aug 21 11:09:34 CST 2012,/public/software/ansys_inc/v121/fluent/fluent12.1.4/bin/fluent-r12.1.4 2d-g-t4-cnf=/opt/gridview/pbs/dispatcher/aux/326.node1-ssh-mpi=openmpi-i/home/shenj/work/fluent/3/cavity.jou,parallel/timer/usage,Performance Timer for 300 iterations on 4 compute nodes,Average wall-clock time per iteration:0.002 sec,Global reductions per iteration:53 ops,Global reductions time per iteration:0.000 sec(0.0%),Total wall-clock time:0.560 sec,Total CPU time:2.300 sec,end time is Tue Aug 21 11:09:51 CST 2012,68,4.4.4.1 portal提交机群上作业情况my job,实现了平台无关的单一系统映像,减小了用户的软件安装以及跨平台使用的学习成本。实现了对高性能计算的完美封装。,实现了对应用的性能提升。实现了对应用的高度优化,包括通信方式、网络连接等多种并行计算参数,为用户提供了计算性能的自动优化。,高容错性保障。实现了对用户输入、系统命令、文件权限、作业调度系统等多方面的检查与确认功能,提高用户作业的成功率。,基于,web,方式的提交。提交方式的限制,可降低用户操作难度,减少用户操作带来的系统不稳定因素,同时提高高性能,和,计算内部网络的安全性。,支持用户定制开发。,Gridview Web Portal,优势,69,实现了平台无关的单一系统映像,减小了用户的软件安装以及跨平台,“VNC,管理,”,提供了查询、打开和删除等管理操作的功能。,root,和,Gridview,管理员可以查询或者打开所有的,VNC,会话,而普通用户仅能查询和打开自身的,VNC,会话。,按钮区域,集群列表,会话列表,4.4.5 VNC,集成功能,70,“VNC管理”按钮区域集群列表会话列表4.4.5 VNC集,打开,VNC,会话,选中某一个,VNC,会话,然后单击“打开会话”按钮,这时系统会打开一个新的“,VNC,打开”,Tab,页来呈现当前选中的,VNC,会话的窗口内容。,4.4.5 VNC,集成功能,71,打开VNC会话选中某一个VNC会话,然后单击“打开会话”按钮,删除,VNC,会话,删除会话,用户可以一次选中一个或者多个会话,删除会话。,注意:,如果被删除的会话正在被用户打开使用,删除之后那些打开的,VNC,窗口会被关闭,并且提示网络错误。,4.4.5 VNC,集成功能,72,删除VNC会话删除会话注意:4.4.5 VNC集成功能72,4.4.6,作业管理,作业管理主要包含对作业的查询、控制和删除等操作。对作业的控制包括保留、释放、挂起、恢复、重新运行等操作。,新作业,查询功能,管理员可以删除任何作业;普通用户只能删除自己的作业,可以选择多个作业同时删除。,73,4.4.6 作业管理 作业管理主要包含对作业的查询,4.4.7,历史作业,74,4.4.7 历史作业74,主要特点,支持管理员和普通用户报表权限区分,管理员可统计所有数据,普通用户仅可统计自身数据,支持多种导出方式,PDF,、,EXCEL,、,HTML,支持多个字段的复合逻辑查询,字段包括时间、用户、关键字等,逻辑关系包括“与”、“或”,支持从不同的角度进行统计,用户统计、节点统计、作业统计、集群统计,提供总表和详表,方便汇报和对账,4.4.8,作业记账,75,主要特点4.4.8 作业记账75,4.4.8,作业记账,查询条件,支持多个字段,时间,用户名,作业名,应用类型,关键字,支持与或逻辑,允许设置字段间的与或关系,支持精确,/,模糊匹配,允许设置匹配方式,76,4.4.8 作业记账查询条件76,4.4.8,作业记账,用户作业统计总表,用户作业统计详表,4.4.8 作业记账用户作业统计总表用户作业统计详表,4.4.8,作业记账,节点使用统计详表,节点使用统计总表,78,4.4.8 作业记账节点使用统计详表节点使用统计总表78,4.4.8,作业记账,CPU,使用时间统计,79,4.4.8 作业记账CPU使用时间统计79,4.4.8,作业记账,历史作业详表,历史作业总表,4.4.8 作业记账历史作业详表历史作业总表,4.4.9,统计视图,81,4.4.9 统计视图81,Q&A,82,Q&A82,谢 谢!,83,谢 谢!83,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!