slurm作业管理操作

本页目录

scancel 取消已提交的作业

scancel 可以取消正在运行或排队的作业。

scancel 的一些常用命令示例:

命令示例功能
scancel 123456取消作业号为 123456 的作业
scancel -n test取消作业名为 test 的作业
scancel -p paratera取消提交到 paratera 队列的作业
scancel -t PENDING取消正在排队的作业
scancel -w c100取消运行在 c100 节点上的作业

scancel 的其他参数选项,可通过 scancel --help 查看

scontrol 查看正在运行的作业信息

scontrol 命令可以查看正在运行的作业详情,比如提交目录、提交脚本、使用核数情况等,对已退出的作业无效。

scontrol 的常用示例:

scontrol show job 123456

查看作业号为 123456 的作业详情。

scontrol 的其他参数选项,可通过 scontrol --help 查看。

sacct 查看历史作业信息

sacct 命令可以查看历史作业的起止时间、结束状态、作业号、作业名、使用的节点数、节点列表、运行时间等。

sacct 的常用命令示例:

sacct -u para04 -S 2017-09-01 -E now --
format=jobid,partition,jobname,user,nnodes,nodelist,start,end,elapsed,state

其中,-u para04 是指查看 para04 账号的历史作业,-S 是开始查询时间,-E是截止查询时间,--format 定义了输出的格式,jobid 是指作业号,partition 是指提交队列,user 是指超算账号名,nnodes 是节点数,nodelist 是节点列表,start是开始运行时间,end 是作业退出时间,elapsed 是运行时间,state 是作业结束状态。sacct --helpformat 可以查看支持的输出格式。

sacct 的其他参数选项可通过 sacct --help 查看。