计算化学公社

标题: 为什么slurm不能正确调度GPU资源 [打印本页]

作者
Author:
Dempey    时间: 2023-11-20 14:39
标题: 为什么slurm不能正确调度GPU资源
本帖最后由 Dempey 于 2023-11-20 14:39 编辑

各位老师好,我现在正在给一个集群安装slurm,其中CPU资源配置很成功,但GPU资源配置得有问题。
我的edu-node21节点有两块GPU,edu-node22节点有1块GPU,我在edu-node21节点每次提交作业只申请1个GPU,按道理可以两个作业一起运行,但第二个作业会显示因为资源问题而排队。
(, 下载次数 Times of downloads: 111)
并且由于主要利用GPU跑GROMACS任务,单个任务的显卡占有率不高,故我尝试使用MPS和shard插件让一块GPU能同时运行多个任务,交了第一个任务后其他的任务也会因为资源而排队。
以下是我的slurm.conf文件和在edu-node21节点上的gres.conf。
(, 下载次数 Times of downloads: 35) (, 下载次数 Times of downloads: 29)

作者
Author:
啊不错的飞过海    时间: 2023-11-20 15:33
作业提交是走srun提交的还是sbatch提交的,脚本里是如何写的?
可以把scontrol show job 79和scontrol show job 80的信息一并放上来,单看configure好像没什么问题。
作者
Author:
Dempey    时间: 2023-11-20 15:50
啊不错的飞过海 发表于 2023-11-20 15:33
作业提交是走srun提交的还是sbatch提交的,脚本里是如何写的?
可以把scontrol show job 79和scontrol sho ...

我是用sbatch提交作业。
这是提交脚本: (, 下载次数 Times of downloads: 19)
我又新提交了两个任务,分别是84、85
(, 下载次数 Times of downloads: 105)
(, 下载次数 Times of downloads: 105) (, 下载次数 Times of downloads: 106)

作者
Author:
啊不错的飞过海    时间: 2023-11-20 16:23
不知道你的任务的ReqTRES里为什么会有mem这项,可能是slurm.conf里SelectTypeParameters=CR_Core_Memory这行的原因。
我推测被占住导致排队的资源不是GPU而是内存,把slurm.conf里SelectTypeParameters改成CR_Core试试;可能需要重启slurmd/slurmctld。
作者
Author:
Dempey    时间: 2023-11-20 16:45
啊不错的飞过海 发表于 2023-11-20 16:23
不知道你的任务的ReqTRES里为什么会有mem这项,可能是slurm.conf里SelectTypeParameters=CR_Core_Memory这 ...

谢谢老师,问题解决了,就是内存导致的,mps和shard也可以正常使用了
作者
Author:
biogon    时间: 2024-6-6 11:14
Dempey 发表于 2023-11-20 16:45
谢谢老师,问题解决了,就是内存导致的,mps和shard也可以正常使用了

你的多卡的机器mps和shard能正常调用多个gpu么




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3