计算化学公社

 找回密码 Forget password
 注册 Register
Views: 943|回复 Reply: 8
打印 Print 上一主题 Last thread 下一主题 Next thread

[集群维护] 如何配置Slurm才能共享节点上的多张显卡

[复制链接 Copy URL]

418

帖子

4

威望

2910

eV
积分
3408

Level 5 (御坂)

跳转到指定楼层 Go to specific reply
楼主
本帖最后由 万里云 于 2024-12-30 18:08 编辑

集群上共有五个GPU节点,每个两张显卡。Slurm.conf中配置信息如下:

# GPU nodes
NodeName=GPUnode67 CPUs=64 Boards=1 SocketsPerBoard=2 CoresPerSocket=16 ThreadsPerCore=2 RealMemory=257592 Gres=gpu:2
NodeName=GPUnode66 CPUs=64 Boards=1 SocketsPerBoard=2 CoresPerSocket=16 ThreadsPerCore=2 RealMemory=257592 Gres=gpu:2
NodeName=GPUnode68 CPUs=64 Boards=1 SocketsPerBoard=2 CoresPerSocket=16 ThreadsPerCore=2 RealMemory=257592 Gres=gpu:2
NodeName=GPUnode70 CPUs=64 Boards=1 SocketsPerBoard=2 CoresPerSocket=16 ThreadsPerCore=2 RealMemory=257592 Gres=gpu:2
NodeName=GPUnode69 CPUs=64 Boards=1 SocketsPerBoard=2 CoresPerSocket=16 ThreadsPerCore=2 RealMemory=257592 Gres=gpu:2

# GPU partitions
PartitionName=gpu_test Nodes=GPUnode[66-70] Default=NO MaxTime=60 State=UP OverSubscribe=NO PriorityTier=3 AllowGroups=p0,p1,p2,quant
PartitionName=gpu_2d Nodes=GPUnode[66-70] Default=NO MaxTime=2880 State=UP OverSubscribe=NO PriorityTier=2 AllowGroups=p0,p1,p2
PartitionName=gpu_7d Nodes=GPUnode[66-70] Default=NO MaxTime=10080 State=UP OverSubscribe=NO PriorityTier=1 AllowGroups=p0,p1,p2
PartitionName=gpu_unlimited Nodes=GPUnode[66-70] Default=NO MaxTime=INFINITE State=UP OverSubscribe=NO PriorityTier=0 AllowGroups=p0,p1,p2

现在用户反馈若节点上分配了使用单张显卡的任务,虽然还空着一张显卡,也没法利用起来。看了一圈slurm配置手册,似乎需要改OverSubscribe选项,但几个值都说不适合GPU资源(gres)

FORCE
    Makes all resources (except GRES) in the partition available for oversubscription without any means for users to disable it.
YES
    Makes all resources (except GRES) in the partition available for sharing upon request by the job.

不知道要怎么改才能实现两个任务分别利用同个节点上的两张显卡?



2407

帖子

1

威望

5948

eV
积分
8375

Level 6 (一方通行)

2#
发表于 Post on 2024-12-30 18:08:13 | 只看该作者 Only view this author
“若节点上分配了使用单张显卡的任务,虽然还空着一张显卡,也没法利用起来”

后续的任务为何等待, 调度器如何报告的?
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

418

帖子

4

威望

2910

eV
积分
3408

Level 5 (御坂)

3#
 楼主 Author| 发表于 Post on 2024-12-30 18:14:46 | 只看该作者 Only view this author
abin 发表于 2024-12-30 18:08
“若节点上分配了使用单张显卡的任务,虽然还空着一张显卡,也没法利用起来”

后续的任务为何等待, 调度 ...

Nodes required for job are DOWN, DRAINED or reserved for jobs in higher priority partitions

158

帖子

2

威望

3543

eV
积分
3741

Level 5 (御坂)

4#
发表于 Post on 2024-12-30 19:37:02 | 只看该作者 Only view this author
你现在的问题不是共享显卡,而是显卡不能充分调用。你说的 超额支持 CPU 和 GPU 的,GPU 的超额建议使用shard,shard 可以让你一张显卡同时运行多个任务。

2407

帖子

1

威望

5948

eV
积分
8375

Level 6 (一方通行)

5#
发表于 Post on 2024-12-31 09:14:59 | 只看该作者 Only view this author
结合楼上的数条信息, 你的问题能否描述为:

一个节点有两个GPU,
任务A在节点比如nodeXX要了一个GPU,
理论上讲, 还剩余一个GPU, 那么后续的任务, 如没有其他资源限定的时候,
后续任务B, 如果也是要一个GPU, 任务应该能在节点nodeXX上运行.


那么, 你的GPU和CPU核心如何绑定的?
以及节点的内存是否被GRES管辖?

High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

227

帖子

6

威望

1712

eV
积分
2059

Level 5 (御坂)

6#
发表于 Post on 2024-12-31 17:05:54 | 只看该作者 Only view this author
OverSubscribe 通常只控制 CPU 的共享状态

在全局配置中启用 TRES(Trackable RESources)方式进行资源管理。

- 在 /etc/slurm/slurm.conf 中,

设置:       SelectType=select/cons_tres       SelectTypeParameters=CR_CORE|CR_GPU       GresTypes=gpu  2) 为节点正确声明 Gres=gpu:2,并确保没有用

418

帖子

4

威望

2910

eV
积分
3408

Level 5 (御坂)

7#
 楼主 Author| 发表于 Post on 2025-1-1 12:48:26 | 只看该作者 Only view this author
Santz 发表于 2024-12-30 19:37
你现在的问题不是共享显卡,而是显卡不能充分调用。你说的 超额支持 CPU 和 GPU 的,GPU 的超额建议使用sha ...

可能我表述不准确,意思就是两个任务每个用一张卡。现在已经解决了。

418

帖子

4

威望

2910

eV
积分
3408

Level 5 (御坂)

8#
 楼主 Author| 发表于 Post on 2025-1-1 12:58:02 | 只看该作者 Only view this author
abin 发表于 2024-12-31 09:14
结合楼上的数条信息, 你的问题能否描述为:

一个节点有两个GPU,

已经解决了,提交脚本的问题。虽然只申请了一张显卡,但申请了全部cpu核和内存,所以节点就变成drain了。砍掉一半核和内存就可以了。

418

帖子

4

威望

2910

eV
积分
3408

Level 5 (御坂)

9#
 楼主 Author| 发表于 Post on 2025-1-1 12:58:28 | 只看该作者 Only view this author
wxyhgk 发表于 2024-12-31 17:05
OverSubscribe 通常只控制 CPU 的共享状态

在全局配置中启用 TRES(Trackable RESources)方式进行资源 ...

已经解决了,提交脚本的问题。虽然只申请了一张显卡,但申请了全部cpu核和内存,所以节点就变成drain了。砍掉一半核和内存就可以了。

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2025-8-12 15:42 , Processed in 0.181178 second(s), 20 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list