请选择 进入手机版 | 继续访问电脑版
第八届北京科音分子动力学与GROMACS培训班将于2021年1月18~21日于北京举办,请点击此链接查看详情,这是系统性学习分子动力学模拟、掌握GROMACS程序使用的最好机会!(再下一届预计于3或4月举办)

计算化学公社

 找回密码
 现在注册!
查看: 770|回复: 11

[Linux] slurm作业系统只能同时运行一个任务

[复制链接]

144

帖子

0

威望

2476

eV
积分
2620

Level 5 (御坂)

发表于 2020-3-27 17:11:41 | 显示全部楼层 |阅读模式
自己在单个节点安装的slurm,仅能同时运行一个任务,多了就PD。slurm.conf如下:
SlurmctldPort=6817
SlurmdPort=6818
AuthType=auth/munge
StateSaveLocation=/tmp
SlurmdSpoolDir=/tmp/slurmd
SwitchType=switch/none
MpiDefault=none
SlurmctldPidFile=/var/run/slurm-llnl/slurmctld.pid
SlurmdPidFile=/var/run/slurm-llnl/slurmd.pid
ProctrackType=proctrack/pgid
CacheGroups=0
ReturnToService=2
TaskPlugin=task/affinity

# make the default memory per core
DefMemPerNode=1024
MaxJobCount=10
MinJobAge=180


# TIMERS
SlurmctldTimeout=120
SlurmdTimeout=120
InactiveLimit=0
KillWait=30
Waittime=0


# SCHEDULING
SchedulerType=sched/backfill

#SchedulerPort=7321
SelectType=select/cons_res
SelectTypeParameters=CR_CPU_Memory
FastSchedule=0

# LOGGING
SlurmctldDebug=3

#SlurmctldLogFile=/var/log/slurmctld.log
SlurmdDebug=3

#SlurmdLogFile=/var/log/slurmd.log
JobCompType=jobcomp/none

#JobCompLoc=
JobAcctGatherType=jobacct_gather/none

# COMPUTE NODES
#NodeName=P920-2
#PartitionName=DEFAULT MaxTime=INFINITE State=UP
# NODES

NodeName=xxxx CPUs=24 RealMemory=6404
PartitionName=compute #Nodes=ALL Default=YES Shared=YES


209

帖子

0

威望

1581

eV
积分
1790

Level 5 (御坂)

发表于 2020-11-30 20:39:44 | 显示全部楼层
解决了吗,同问。

121

帖子

0

威望

2724

eV
积分
2845

Level 5 (御坂)

发表于 2020-11-30 22:43:39 | 显示全部楼层
试一下 CR_LLN,CR_Core

201

帖子

0

威望

1999

eV
积分
2200

Level 5 (御坂)

发表于 2020-12-1 07:39:22 | 显示全部楼层
slum一般就是这样。一般超算用户没有管理员权限所以我自己做了个队列系统。
我记得sbatch有一个overcommit的选项你看看好不好使

71

帖子

0

威望

715

eV
积分
786

Level 4 (黑子)

发表于 2020-12-1 09:09:57 | 显示全部楼层
scontrol show job jobid 看看他为啥PD

18

帖子

0

威望

17

eV
积分
35

Level 2 能力者

发表于 2020-12-1 10:34:45 | 显示全部楼层
配置文件问题

97

帖子

0

威望

2168

eV
积分
2265

Level 5 (御坂)

发表于 2020-12-1 10:46:00 | 显示全部楼层
试试
SelectTypeParameters=CR_CORE,CR_ONE_TASK_PER_CORE

596

帖子

1

威望

2014

eV
积分
2630

Level 5 (御坂)

发表于 2020-12-1 11:07:49 | 显示全部楼层
本帖最后由 abin 于 2020-12-1 13:57 编辑

盲猜,应该是Ubuntu系统。

不过我的可以用呀,(因为我的也是Ubuntu系统呀) 我仅仅是测试了一下:
  1. [abin@lab-itc slurm-test]$ slurmd -C
  2. NodeName=lab-itc CPUs=8 Boards=1 SocketsPerBoard=1 CoresPerSocket=4 ThreadsPerCore=2 RealMemory=15950
  3. UpTime=24-19:29:39
  4. [abin@lab-itc slurm-test]$ qstat -n

  5. lab-itc:
  6.                                                                                Req'd  Req'd   Elap
  7. Job id               Username Queue    Name                 SessID NDS   TSK   Memory Time Use S Time
  8. -------------------- -------- -------- -------------------- ------ ----- ----- ------ ----- - -----
  9. 9                    abin     workq    task1.pbs            --         1     2     -- 71582 R 00:00
  10.    lab-itc/2
  11. 10                   abin     workq    task1.pbs            --         1     2     -- 71582 R 00:00
  12.    lab-itc/2
  13. [abin@lab-itc slurm-test]$ squeue
  14.              JOBID PARTITION     NAME     USER ST       TIME  NODES NODELIST(REASON)
  15.                  9     workq task1.pb     abin  R       0:27      1 lab-itc
  16.                 10     workq task1.pb     abin  R       0:24      1 lab-itc
  17. [abin@lab-itc slurm-test]$
复制代码


注意选用
SelectType=select/cons_tres
SelectTypeParameters=CR_Core
结论是,配置不当。

评分

参与人数 1eV +5 收起 理由
archer + 5 谢谢

查看全部评分

提供面向计算化学的平台搭建和使用相关的咨询和支持,
wechat / bilibili  abbottcn
Configure, build, and customize the Linux cluster for your computational project.

18

帖子

0

威望

17

eV
积分
35

Level 2 能力者

发表于 2020-12-1 12:35:41 | 显示全部楼层
配置文件问题,与linux发行版本无关,善用软件日志
解决办法:
1)删除SelectTypeParameters=CR_CPU_Memory里面的_Memory;其实不带Memory的参数都可以;
2)如SelectTypeParameters=CR_CPU_Memory不改动,则需定义内存使用参数;

评分

参与人数 1eV +5 收起 理由
archer + 5 谢谢

查看全部评分

144

帖子

0

威望

2476

eV
积分
2620

Level 5 (御坂)

 楼主| 发表于 2020-12-15 12:10:32 | 显示全部楼层
abin 发表于 2020-12-1 11:07
盲猜,应该是Ubuntu系统。

不过我的可以用呀,(因为我的也是Ubuntu系统呀) 我仅仅是测试了一下:

已解决,请问您知道多台如何配置slurm吗

11

帖子

0

威望

621

eV
积分
632

Level 4 (黑子)

发表于 2020-12-15 14:35:46 | 显示全部楼层
可能和提交的任务申请了超过单个节点一半的内存有关,试试在提交的脚本里添加一下最大占用内存的设置,如参数#SBATCH --mem-per-cpu=1000 #MB;

596

帖子

1

威望

2014

eV
积分
2630

Level 5 (御坂)

发表于 2020-12-15 14:52:31 | 显示全部楼层
archer 发表于 2020-12-15 12:10
已解决,请问您知道多台如何配置slurm吗

我的机器就是多节点slurm调度集群。

我自己做的。

如果你想知道怎么做,可以看slurm手册。
提供面向计算化学的平台搭建和使用相关的咨询和支持,
wechat / bilibili  abbottcn
Configure, build, and customize the Linux cluster for your computational project.
您需要登录后才可以回帖 登录 | 现在注册!

本版积分规则

手机版|北京科音自然科学研究中心|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949-1号 )

GMT+8, 2021-1-16 19:07 , Processed in 0.189715 second(s), 25 queries .

快速回复 返回顶部 返回列表