计算化学公社

 找回密码 Forget password
 注册 Register
Views: 9598|回复 Reply: 21
打印 Print 上一主题 Last thread 下一主题 Next thread

[Linux] slurm作业系统只能同时运行一个任务

[复制链接 Copy URL]

300

帖子

0

威望

4188

eV
积分
4488

Level 6 (一方通行)

跳转到指定楼层 Go to specific reply
楼主
自己在单个节点安装的slurm,仅能同时运行一个任务,多了就PD。slurm.conf如下:
SlurmctldPort=6817
SlurmdPort=6818
AuthType=auth/munge
StateSaveLocation=/tmp
SlurmdSpoolDir=/tmp/slurmd
SwitchType=switch/none
MpiDefault=none
SlurmctldPidFile=/var/run/slurm-llnl/slurmctld.pid
SlurmdPidFile=/var/run/slurm-llnl/slurmd.pid
ProctrackType=proctrack/pgid
CacheGroups=0
ReturnToService=2
TaskPlugin=task/affinity

# make the default memory per core
DefMemPerNode=1024
MaxJobCount=10
MinJobAge=180


# TIMERS
SlurmctldTimeout=120
SlurmdTimeout=120
InactiveLimit=0
KillWait=30
Waittime=0


# SCHEDULING
SchedulerType=sched/backfill

#SchedulerPort=7321
SelectType=select/cons_res
SelectTypeParameters=CR_CPU_Memory
FastSchedule=0

# LOGGING
SlurmctldDebug=3

#SlurmctldLogFile=/var/log/slurmctld.log
SlurmdDebug=3

#SlurmdLogFile=/var/log/slurmd.log
JobCompType=jobcomp/none

#JobCompLoc=
JobAcctGatherType=jobacct_gather/none

# COMPUTE NODES
#NodeName=P920-2
#PartitionName=DEFAULT MaxTime=INFINITE State=UP
# NODES

NodeName=xxxx CPUs=24 RealMemory=6404
PartitionName=compute #Nodes=ALL Default=YES Shared=YES


210

帖子

0

威望

1845

eV
积分
2055

Level 5 (御坂)

2#
发表于 Post on 2020-11-30 20:39:44 | 只看该作者 Only view this author
解决了吗,同问。

165

帖子

0

威望

4781

eV
积分
4946

Level 6 (一方通行)

3#
发表于 Post on 2020-11-30 22:43:39 | 只看该作者 Only view this author
试一下 CR_LLN,CR_Core

230

帖子

0

威望

2653

eV
积分
2883

Level 5 (御坂)

4#
发表于 Post on 2020-12-1 07:39:22 | 只看该作者 Only view this author
slum一般就是这样。一般超算用户没有管理员权限所以我自己做了个队列系统。
我记得sbatch有一个overcommit的选项你看看好不好使

125

帖子

0

威望

2298

eV
积分
2423

Level 5 (御坂)

5#
发表于 Post on 2020-12-1 09:09:57 | 只看该作者 Only view this author
scontrol show job jobid 看看他为啥PD

31

帖子

0

威望

72

eV
积分
103

Level 2 能力者

6#
发表于 Post on 2020-12-1 10:34:45 | 只看该作者 Only view this author
配置文件问题

185

帖子

1

威望

4133

eV
积分
4338

Level 6 (一方通行)

7#
发表于 Post on 2020-12-1 10:46:00 | 只看该作者 Only view this author
试试
SelectTypeParameters=CR_CORE,CR_ONE_TASK_PER_CORE

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

8#
发表于 Post on 2020-12-1 11:07:49 | 只看该作者 Only view this author
本帖最后由 abin 于 2020-12-1 13:57 编辑

盲猜,应该是Ubuntu系统。

不过我的可以用呀,(因为我的也是Ubuntu系统呀) 我仅仅是测试了一下:
  1. [abin@lab-itc slurm-test]$ slurmd -C
  2. NodeName=lab-itc CPUs=8 Boards=1 SocketsPerBoard=1 CoresPerSocket=4 ThreadsPerCore=2 RealMemory=15950
  3. UpTime=24-19:29:39
  4. [abin@lab-itc slurm-test]$ qstat -n

  5. lab-itc:
  6.                                                                                Req'd  Req'd   Elap
  7. Job id               Username Queue    Name                 SessID NDS   TSK   Memory Time Use S Time
  8. -------------------- -------- -------- -------------------- ------ ----- ----- ------ ----- - -----
  9. 9                    abin     workq    task1.pbs            --         1     2     -- 71582 R 00:00
  10.    lab-itc/2
  11. 10                   abin     workq    task1.pbs            --         1     2     -- 71582 R 00:00
  12.    lab-itc/2
  13. [abin@lab-itc slurm-test]$ squeue
  14.              JOBID PARTITION     NAME     USER ST       TIME  NODES NODELIST(REASON)
  15.                  9     workq task1.pb     abin  R       0:27      1 lab-itc
  16.                 10     workq task1.pb     abin  R       0:24      1 lab-itc
  17. [abin@lab-itc slurm-test]$
复制代码


注意选用
SelectType=select/cons_tres
SelectTypeParameters=CR_Core
结论是,配置不当。

评分 Rate

参与人数
Participants 2
eV +8 收起 理由
Reason
hit_liaols + 3 赞!
archer + 5 谢谢

查看全部评分 View all ratings

High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

31

帖子

0

威望

72

eV
积分
103

Level 2 能力者

9#
发表于 Post on 2020-12-1 12:35:41 | 只看该作者 Only view this author
配置文件问题,与linux发行版本无关,善用软件日志
解决办法:
1)删除SelectTypeParameters=CR_CPU_Memory里面的_Memory;其实不带Memory的参数都可以;
2)如SelectTypeParameters=CR_CPU_Memory不改动,则需定义内存使用参数;

评分 Rate

参与人数
Participants 2
eV +10 收起 理由
Reason
hit_liaols + 5 赞!
archer + 5 谢谢

查看全部评分 View all ratings

300

帖子

0

威望

4188

eV
积分
4488

Level 6 (一方通行)

10#
 楼主 Author| 发表于 Post on 2020-12-15 12:10:32 | 只看该作者 Only view this author
abin 发表于 2020-12-1 11:07
盲猜,应该是Ubuntu系统。

不过我的可以用呀,(因为我的也是Ubuntu系统呀) 我仅仅是测试了一下:

已解决,请问您知道多台如何配置slurm吗

14

帖子

0

威望

1004

eV
积分
1018

Level 4 (黑子)

11#
发表于 Post on 2020-12-15 14:35:46 | 只看该作者 Only view this author
可能和提交的任务申请了超过单个节点一半的内存有关,试试在提交的脚本里添加一下最大占用内存的设置,如参数#SBATCH --mem-per-cpu=1000 #MB;

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

12#
发表于 Post on 2020-12-15 14:52:31 | 只看该作者 Only view this author
archer 发表于 2020-12-15 12:10
已解决,请问您知道多台如何配置slurm吗

我的机器就是多节点slurm调度集群。

我自己做的。

如果你想知道怎么做,可以看slurm手册。
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

13

帖子

0

威望

139

eV
积分
152

Level 3 能力者

13#
发表于 Post on 2021-3-28 19:41:32 | 只看该作者 Only view this author
archer 发表于 2020-12-15 12:10
已解决,请问您知道多台如何配置slurm吗

您好  您是怎么解决的啊

14

帖子

0

威望

345

eV
积分
359

Level 3 能力者

14#
发表于 Post on 2022-11-16 20:44:16 | 只看该作者 Only view this author
archer 发表于 2020-12-15 12:10
已解决,请问您知道多台如何配置slurm吗

slurm作业系统只能同时运行一个任务,请问老师,您是如何解决的,请老师赐教

38

帖子

0

威望

1918

eV
积分
1957

Level 5 (御坂)

15#
发表于 Post on 2023-1-5 23:48:02 | 只看该作者 Only view this author
请问是怎么解决的?

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 12:31 , Processed in 0.391468 second(s), 22 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list