个人的网站学习记录
LSF作业调度系统
记录的LSF常用命令

查看队列情况bqueues

zhomnggo 利用bqueues -l [queue]查看队列详细情况

查看各节点情况 lsloadbhosts

  1. 查看各节点 运行情况 lsload
  2. 查看各节点空闲情况bhosts

查看用户信息busers

提交作业bsub

一些提交时的控制参数

选项 说明
-q 指定提交哪个队列
-n min_proc[,max_proc] 指定所需要的CPU核数
-m 指定作业在特定节点上运行
-J 给作业起名字
-R “res_req” [-R “res_req” …] 作业在需要满足某种条件的节点上运行,如”span[hosts=1]“:指定需要在同一个节点内运行;-R “span[ptile=8]“:指定需要在每一个节点内运行多少核
-x 独占节点运行
-i -o -e 指定作业的屏幕输入文件、正常屏幕输出到的文件和错误屏幕输出的文件
-I、-Ip和-Is 运行交互式的作业
-w 可以使得新提交的作业在满足一定条件时才运行
-b [[year:][month:]day:]hour:minute 可以使得新提交的作业在特定时间运行
-W [hour:]minute 可以使得提交的作业在超过设定时长后终止
-E “pre_exec_command [arguments …]” 作业在运行前,在所分配的节点上运行特定命令
-Ep “post_exec_command [arguments …]” 可以使得作业在运行结束时,在所分配的节点上运行特定命令

查看作业的运行情况 bjobs

bjobs -u all:显示所有用户作业

bjobs -q queuename : 显示queuename队列作业

bjobs -r:显示运行中作业

bjobs -p:查看作业仍在排队等待的原因

bjobs -l 1234:查看作业的详细信息

终止作业bkill

bkill 0: 可以杀掉自己所有作业

其他命令

  1. 挂起作业bstop

  2. 查看运行中作业的屏幕正常输出bpeek

bpeek -f JobID : 连续查看作业的连续屏幕输出

  1. 继续运行被挂起的作业bresume

  2. 设置作业最先运行btop

  3. 设置作业最后运行bbot

  4. 修改排队中的作业选项bmod

  5. 查看作业历史统计信息bacct

查看某个作业的历史统计信息baat -l

查看某时间段内作业历史统计信息bacct -C -D -S(C:完成的;D:开始运行的;S:提交的)

eg:bacct -l -C 2014/03/01,2014/04/01

常用变量

变量名 说明
%J 作业号
%JG 作业组
%I 作业组中的索引
%EJ 执行作业号
%EI 作业组中的执行作业索引
%P 作业名
%U 用户名
%G 用户组名
LS_JOBPID 作业进程号
LSB_HOSTS 存储系统分配的节点名
LSB_JOBFILENAME 作业脚本文件名
LSB_JOBID 作业号
LSB_QUEUE 作业队列
LSB_JOBPGIDS 作业进程组号组
LSB_JOBPIDS 作业进程号组

最后修改于 2020-01-16