计算化学公社

标题: slurm作业系统只能同时运行一个任务 [打印本页]

作者
Author:
archer    时间: 2020-3-27 17:11
标题: slurm作业系统只能同时运行一个任务
自己在单个节点安装的slurm,仅能同时运行一个任务,多了就PD。slurm.conf如下:
SlurmctldPort=6817
SlurmdPort=6818
AuthType=auth/munge
StateSaveLocation=/tmp
SlurmdSpoolDir=/tmp/slurmd
SwitchType=switch/none
MpiDefault=none
SlurmctldPidFile=/var/run/slurm-llnl/slurmctld.pid
SlurmdPidFile=/var/run/slurm-llnl/slurmd.pid
ProctrackType=proctrack/pgid
CacheGroups=0
ReturnToService=2
TaskPlugin=task/affinity

# make the default memory per core
DefMemPerNode=1024
MaxJobCount=10
MinJobAge=180


# TIMERS
SlurmctldTimeout=120
SlurmdTimeout=120
InactiveLimit=0
KillWait=30
Waittime=0


# SCHEDULING
SchedulerType=sched/backfill

#SchedulerPort=7321
SelectType=select/cons_res
SelectTypeParameters=CR_CPU_Memory
FastSchedule=0

# LOGGING
SlurmctldDebug=3

#SlurmctldLogFile=/var/log/slurmctld.log
SlurmdDebug=3

#SlurmdLogFile=/var/log/slurmd.log
JobCompType=jobcomp/none

#JobCompLoc=
JobAcctGatherType=jobacct_gather/none

# COMPUTE NODES
#NodeName=P920-2
#PartitionName=DEFAULT MaxTime=INFINITE State=UP
# NODES

NodeName=xxxx CPUs=24 RealMemory=6404
PartitionName=compute #Nodes=ALL Default=YES Shared=YES



作者
Author:
alystone    时间: 2020-11-30 20:39
解决了吗,同问。
作者
Author:
bluewhale    时间: 2020-11-30 22:43
试一下 CR_LLN,CR_Core

作者
Author:
一颗赛艇    时间: 2020-12-1 07:39
slum一般就是这样。一般超算用户没有管理员权限所以我自己做了个队列系统。
我记得sbatch有一个overcommit的选项你看看好不好使
作者
Author:
doublezhang    时间: 2020-12-1 09:09
scontrol show job jobid 看看他为啥PD
作者
Author:
monk1077    时间: 2020-12-1 10:34
配置文件问题
作者
Author:
highlight    时间: 2020-12-1 10:46
试试
SelectTypeParameters=CR_CORE,CR_ONE_TASK_PER_CORE


作者
Author:
abin    时间: 2020-12-1 11:07
本帖最后由 abin 于 2020-12-1 13:57 编辑

盲猜,应该是Ubuntu系统。

不过我的可以用呀,(因为我的也是Ubuntu系统呀) 我仅仅是测试了一下:
  1. [abin@lab-itc slurm-test]$ slurmd -C
  2. NodeName=lab-itc CPUs=8 Boards=1 SocketsPerBoard=1 CoresPerSocket=4 ThreadsPerCore=2 RealMemory=15950
  3. UpTime=24-19:29:39
  4. [abin@lab-itc slurm-test]$ qstat -n

  5. lab-itc:
  6.                                                                                Req'd  Req'd   Elap
  7. Job id               Username Queue    Name                 SessID NDS   TSK   Memory Time Use S Time
  8. -------------------- -------- -------- -------------------- ------ ----- ----- ------ ----- - -----
  9. 9                    abin     workq    task1.pbs            --         1     2     -- 71582 R 00:00
  10.    lab-itc/2
  11. 10                   abin     workq    task1.pbs            --         1     2     -- 71582 R 00:00
  12.    lab-itc/2
  13. [abin@lab-itc slurm-test]$ squeue
  14.              JOBID PARTITION     NAME     USER ST       TIME  NODES NODELIST(REASON)
  15.                  9     workq task1.pb     abin  R       0:27      1 lab-itc
  16.                 10     workq task1.pb     abin  R       0:24      1 lab-itc
  17. [abin@lab-itc slurm-test]$
复制代码


注意选用
SelectType=select/cons_tres
SelectTypeParameters=CR_Core
结论是,配置不当。

作者
Author:
monk1077    时间: 2020-12-1 12:35
配置文件问题,与linux发行版本无关,善用软件日志
解决办法:
1)删除SelectTypeParameters=CR_CPU_Memory里面的_Memory;其实不带Memory的参数都可以;
2)如SelectTypeParameters=CR_CPU_Memory不改动,则需定义内存使用参数;
作者
Author:
archer    时间: 2020-12-15 12:10
abin 发表于 2020-12-1 11:07
盲猜,应该是Ubuntu系统。

不过我的可以用呀,(因为我的也是Ubuntu系统呀) 我仅仅是测试了一下:

已解决,请问您知道多台如何配置slurm吗
作者
Author:
复前行79    时间: 2020-12-15 14:35
可能和提交的任务申请了超过单个节点一半的内存有关,试试在提交的脚本里添加一下最大占用内存的设置,如参数#SBATCH --mem-per-cpu=1000 #MB;

作者
Author:
abin    时间: 2020-12-15 14:52
archer 发表于 2020-12-15 12:10
已解决,请问您知道多台如何配置slurm吗

我的机器就是多节点slurm调度集群。

我自己做的。

如果你想知道怎么做,可以看slurm手册。

作者
Author:
好孩纸呀    时间: 2021-3-28 19:41
archer 发表于 2020-12-15 12:10
已解决,请问您知道多台如何配置slurm吗

您好  您是怎么解决的啊
作者
Author:
mxh    时间: 2022-11-16 20:44
archer 发表于 2020-12-15 12:10
已解决,请问您知道多台如何配置slurm吗

slurm作业系统只能同时运行一个任务,请问老师,您是如何解决的,请老师赐教
作者
Author:
zblxyrz    时间: 2023-1-5 23:48
请问是怎么解决的?
作者
Author:
archer    时间: 2023-1-9 17:27
好孩纸呀 发表于 2021-3-28 19:41
您好  您是怎么解决的啊

时间太久,我也忘了,试试前面的方法
作者
Author:
archer    时间: 2023-1-9 17:28
mxh 发表于 2022-11-16 20:44
slurm作业系统只能同时运行一个任务,请问老师,您是如何解决的,请老师赐教

时间太久,我也忘了,试试前面的方法
作者
Author:
archer    时间: 2023-1-9 17:29
zblxyrz 发表于 2023-1-5 23:48
请问是怎么解决的?

时间太久,我也忘了,试试前面的方法
作者
Author:
sun35mr    时间: 2023-1-11 13:12
zblxyrz 发表于 2023-1-5 23:48
请问是怎么解决的?

SelectTypeParameters=CR_Core
这里这么改就行了
作者
Author:
zblxyrz    时间: 2023-1-16 19:45
sun35mr 发表于 2023-1-11 13:12
SelectTypeParameters=CR_Core
这里这么改就行了

非常感谢
作者
Author:
mxh    时间: 2023-2-5 22:23
archer 发表于 2023-1-9 17:29
时间太久,我也忘了,试试前面的方法

好的,谢谢,已解决。
作者
Author:
mxh    时间: 2023-2-5 22:24
sun35mr 发表于 2023-1-11 13:12
SelectTypeParameters=CR_Core
这里这么改就行了

好的,谢谢,已解决。




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3