计算化学公社

 找回密码 Forget password
 注册 Register
Views: 1029|回复 Reply: 3
打印 Print 上一主题 Last thread 下一主题 Next thread

[并行运算] slurm还有剩余核,但是提交作业就是PD状态

[复制链接 Copy URL]

7

帖子

0

威望

15

eV
积分
22

Level 1 能力者

我在单台裸金属上装了slurm,一共72核,当我执行一个作业时用了16核,实际还剩下很多,但提交第二个作业的时候,作业就是PD状态,需要等到第一个结束了才能开始,不知道为什么。
求解

9

帖子

0

威望

79

eV
积分
88

Level 2 能力者

4#
发表于 Post on 2024-5-22 22:44:03 | 只看该作者 Only view this author
除了核心数是限制调度的原因外,可以检查是否是第一个任务提交时内存调用过多所导致。

432

帖子

11

威望

3422

eV
积分
4074

Level 6 (一方通行)

3#
发表于 Post on 2024-1-23 09:12:25 | 只看该作者 Only view this author
本帖最后由 丁越 于 2024-1-23 09:14 编辑

如楼上所说,那个网页版工具配置slurm.conf的SelectTypeParameters默认是CR_Core_Memery,使得分配任务时不会仅基于cpu资源进行调度。解决办法有两个,一个是在提交任务的slurm脚本中添加控制单个任务的运行内存大小,使得单个任务不会占满整个可用内存容量,即添加如#SBATCH --mem=100GB参数。另一种做法是直接把SelectTypeParameters的参数改为CR_Core,仅对cpu资源进行分配调度。
自由发挥,野蛮生长

165

帖子

0

威望

4781

eV
积分
4946

Level 6 (一方通行)

2#
发表于 Post on 2024-1-22 19:32:23 | 只看该作者 Only view this author
slurm.conf 中 SelectTypeParameters是如何写的?

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 15:40 , Processed in 0.538780 second(s), 25 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list