计算化学公社

 找回密码 Forget password
 注册 Register
Views: 2892|回复 Reply: 21
打印 Print 上一主题 Last thread 下一主题 Next thread

[集群维护] 求助:slurm的一个节点如何运行多个作业

[复制链接 Copy URL]

33

帖子

0

威望

1250

eV
积分
1283

Level 4 (黑子)

跳转到指定楼层 Go to specific reply
楼主
在一台64核的服务器安装了slurm队列软件,一个作业设置为16核,但是只能运行一个作业,不能运行4个作业。请问该如何设置一下

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

2#
发表于 Post on 2024-2-23 10:55:40 | 只看该作者 Only view this author
--mem

scontrol show job ID 查看资源....
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

35

帖子

3

威望

794

eV
积分
889

Level 4 (黑子)

3#
发表于 Post on 2024-2-23 15:40:44 | 只看该作者 Only view this author
确保slurm.conf设置是SelectType=select/cons_tres之类而不是select/linear

196

帖子

5

威望

1211

eV
积分
1507

Level 5 (御坂)

4#
发表于 Post on 2024-2-23 16:18:50 | 只看该作者 Only view this author
本帖最后由 wxyhgk 于 2024-2-23 16:21 编辑

这里用 Gaussian 16 为计算了例子说明:
  1. #!/bin/bash
  2. # ====== SLURM 说明 ========
  3. # 设定作业名称
  4. #SBATCH --job-name=gaussian_multi

  5. # 指定作业的输出文件名,%x代表作业名称,%j代表作业ID
  6. #SBATCH --output=%x_%j.out

  7. # 请求在一个节点上运行作业
  8. #SBATCH --nodes=1

  9. # 请求总共12个核心,根据你的需求调整此数值
  10. #SBATCH --ntasks=12

  11. # 指定作业运行的分区,需要根据你的集群情况替换为实际的分区名
  12. #SBATCH --partition=your_partition_name

  13. # 请求作业最多运行24小时,超时作业将被SLURM终止
  14. #SBATCH --time=24:00:00

  15. # ====== 加载Gaussian模块 =======
  16. module load gaussian/16

  17. # ====== 使用srun命令并行运行Gaussian作业 ======
  18. # 给 1.gjf,2.gjf,3.gjf 分别设定了 3 ,4,5 个核做,他们同时运行
  19. # --exclusive确保每个作业独占分配给它的核心
  20. # -n后面跟着的数字指定每个作业使用的核心数
  21. # '&'允许命令在后台运行,从而实现并行执行
  22. srun --exclusive -n 3 g16 < 1.gjf > 1.log &
  23. srun --exclusive -n 4 g16 < 2.gjf > 2.log &
  24. srun --exclusive -n 5 g16 < 3.gjf > 3.log &

  25. # wait命令用于等待所有后台作业完成
  26. wait
复制代码

33

帖子

0

威望

1250

eV
积分
1283

Level 4 (黑子)

5#
 楼主 Author| 发表于 Post on 2024-2-23 16:47:07 | 只看该作者 Only view this author
wxyhgk 发表于 2024-2-23 16:18
这里用 Gaussian 16 为计算了例子说明:

可以每个作业都单独用脚本分别提交一次的方式去做吗?

33

帖子

0

威望

1250

eV
积分
1283

Level 4 (黑子)

6#
 楼主 Author| 发表于 Post on 2024-2-23 16:47:52 | 只看该作者 Only view this author
Kamistry 发表于 2024-2-23 15:40
确保slurm.conf设置是SelectType=select/cons_tres之类而不是select/linear

更改了之后,也不管用

196

帖子

5

威望

1211

eV
积分
1507

Level 5 (御坂)

7#
发表于 Post on 2024-2-23 16:49:21 | 只看该作者 Only view this author
lilf 发表于 2024-2-23 16:47
可以每个作业都单独用脚本分别提交一次的方式去做吗?

没懂你什么意思,能不能举例子说明?具体的例子,不要说那种模糊的

35

帖子

3

威望

794

eV
积分
889

Level 4 (黑子)

8#
发表于 Post on 2024-2-23 18:53:41 | 只看该作者 Only view this author
lilf 发表于 2024-2-23 16:47
更改了之后,也不管用

更改之后重启slurmctld和slurmd了吗

33

帖子

0

威望

1250

eV
积分
1283

Level 4 (黑子)

9#
 楼主 Author| 发表于 Post on 2024-2-25 16:24:27 | 只看该作者 Only view this author
Kamistry 发表于 2024-2-23 18:53
更改之后重启slurmctld和slurmd了吗

已经解决了,改了
SelectType=select/cons_tres
SelectTypeParameters=CR_CPU

33

帖子

0

威望

1250

eV
积分
1283

Level 4 (黑子)

10#
 楼主 Author| 发表于 Post on 2024-2-25 16:25:15 | 只看该作者 Only view this author
lilf 发表于 2024-2-23 16:47
更改了之后,也不管用

已经解决了,更改这里就行了
SelectType=select/cons_tres
SelectTypeParameters=CR_CPU

35

帖子

3

威望

794

eV
积分
889

Level 4 (黑子)

11#
发表于 Post on 2024-2-25 20:19:14 | 只看该作者 Only view this author
本帖最后由 Kamistry 于 2024-2-25 20:22 编辑
lilf 发表于 2024-2-25 16:24
已经解决了,改了
SelectType=select/cons_tres
SelectTypeParameters=CR_CPU

后面这行不是必须的,不如默认的CR_Core,如果要改也应该改成CR_Core_Memory同时分配内存。参见https://slurm.schedmd.com/cons_tres.html。说明我之前说解决方法的时候你没有试

33

帖子

0

威望

1250

eV
积分
1283

Level 4 (黑子)

12#
 楼主 Author| 发表于 Post on 2024-2-26 14:24:13 | 只看该作者 Only view this author
Kamistry 发表于 2024-2-25 20:19
后面这行不是必须的,不如默认的CR_Core,如果要改也应该改成CR_Core_Memory同时分配内存。参见https://s ...

我把SelectTypeParameters=CR_CPU删掉后,又不可以算多个任务了,应该这个是必须的

108

帖子

0

威望

679

eV
积分
787

Level 4 (黑子)

13#
发表于 Post on 2024-2-26 14:58:29 | 只看该作者 Only view this author
lilf 发表于 2024-2-26 14:24
我把SelectTypeParameters=CR_CPU删掉后,又不可以算多个任务了,应该这个是必须的

分成4个作业提交可能会严重每个作业的计算效率

33

帖子

0

威望

1250

eV
积分
1283

Level 4 (黑子)

14#
 楼主 Author| 发表于 Post on 2024-2-26 17:02:05 | 只看该作者 Only view this author
九月九 发表于 2024-2-26 14:58
分成4个作业提交可能会严重每个作业的计算效率

机器的核数有64个

35

帖子

3

威望

794

eV
积分
889

Level 4 (黑子)

15#
发表于 Post on 2024-2-27 09:46:51 | 只看该作者 Only view this author
本帖最后由 Kamistry 于 2024-2-27 09:50 编辑
lilf 发表于 2024-2-26 14:24
我把SelectTypeParameters=CR_CPU删掉后,又不可以算多个任务了,应该这个是必须的

看看https://slurm.schedmd.com/configurator.easy.html,官网给出的设置一样没有这行。而且我们的双路9654没有加这行,完全可以多个任务一起跑。

刚才找了一台2620v4,核数少的情况一样不需要这一行就能跑多个任务。

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 12:10 , Processed in 0.176814 second(s), 21 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list