slurm作业管理操作
本页目录
scancel 取消已提交的作业
scancel 可以取消正在运行或排队的作业。
scancel 的一些常用命令示例:
命令示例 | 功能 |
---|---|
scancel 123456 | 取消作业号为 123456 的作业 |
scancel -n test | 取消作业名为 test 的作业 |
scancel -p paratera | 取消提交到 paratera 队列的作业 |
scancel -t PENDING | 取消正在排队的作业 |
scancel -w c100 | 取消运行在 c100 节点上的作业 |
scancel 的其他参数选项,可通过 scancel --help 查看
scontrol 查看正在运行的作业信息
scontrol 命令可以查看正在运行的作业详情,比如提交目录、提交脚本、使用核数情况等,对已退出的作业无效。
scontrol 的常用示例:
scontrol show job 123456
查看作业号为 123456 的作业详情。
scontrol 的其他参数选项,可通过 scontrol --help 查看。
sacct 查看历史作业信息
sacct 命令可以查看历史作业的起止时间、结束状态、作业号、作业名、使用的节点数、节点列表、运行时间等。
sacct 的常用命令示例:
sacct -u para04 -S 2017-09-01 -E now --
format=jobid,partition,jobname,user,nnodes,nodelist,start,end,elapsed,state
其中,-u para04 是指查看 para04 账号的历史作业,-S 是开始查询时间,-E是截止查询时间,--format 定义了输出的格式,jobid 是指作业号,partition 是指提交队列,user 是指超算账号名,nnodes 是节点数,nodelist 是节点列表,start是开始运行时间,end 是作业退出时间,elapsed 是运行时间,state 是作业结束状态。sacct --helpformat 可以查看支持的输出格式。
sacct 的其他参数选项可通过 sacct --help 查看。