计算化学公社

 找回密码 Forget password
 注册 Register

为什么slurm不能正确调度GPU资源

查看数: 1390 | 评论数: 5 | 收藏 Add to favorites 0
关灯 | 提示:支持键盘翻页<-左 右->
    组图打开中,请稍候......
发布时间: 2023-11-20 14:39

正文摘要:

本帖最后由 Dempey 于 2023-11-20 14:39 编辑 各位老师好,我现在正在给一个集群安装slurm,其中CPU资源配置很成功,但GPU资源配置得有问题。 我的edu-node21节点有两块GPU,edu-node22节点有1块GPU,我在edu-no ...

回复 Reply

biogon 发表于 Post on 2024-6-6 11:14:31
Dempey 发表于 2023-11-20 16:45
谢谢老师,问题解决了,就是内存导致的,mps和shard也可以正常使用了

你的多卡的机器mps和shard能正常调用多个gpu么
Dempey 发表于 Post on 2023-11-20 16:45:21
啊不错的飞过海 发表于 2023-11-20 16:23
不知道你的任务的ReqTRES里为什么会有mem这项,可能是slurm.conf里SelectTypeParameters=CR_Core_Memory这 ...

谢谢老师,问题解决了,就是内存导致的,mps和shard也可以正常使用了
啊不错的飞过海 发表于 Post on 2023-11-20 16:23:04
不知道你的任务的ReqTRES里为什么会有mem这项,可能是slurm.conf里SelectTypeParameters=CR_Core_Memory这行的原因。
我推测被占住导致排队的资源不是GPU而是内存,把slurm.conf里SelectTypeParameters改成CR_Core试试;可能需要重启slurmd/slurmctld。
啊不错的飞过海 发表于 Post on 2023-11-20 15:33:13
作业提交是走srun提交的还是sbatch提交的,脚本里是如何写的?
可以把scontrol show job 79和scontrol show job 80的信息一并放上来,单看configure好像没什么问题。

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 12:22 , Processed in 0.176478 second(s), 26 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list