计算化学公社

标题: 求助NAMD并行计算在8卡机上跑8个任务无法达到目标效果 [打印本页]

作者
Author:
zinczinc    时间: 2023-8-9 21:03
标题: 求助NAMD并行计算在8卡机上跑8个任务无法达到目标效果
按照博主的最新NAMD编译教程装好了NAMD,和官方提供的稳定版的NAMD3计算速度差异不大。但是问题是我想在8卡机上跑8个任务,好像运行起来无法达到目标效果
  1. /namd3 +p10 +setcpuaffinity +devices 0 step.inp
复制代码
使用slurm系统在同一个节点同一个机器上多次提交任务,比如提交两个任务,但是实际运行两个任务共用10个cpu,GPU运行速度也减半。应该怎么办呢
两次提交slurm脚本,并不能达到想要的并行跑的效果

  1. #SBATCH --cpus-per-task=10
  2. #SBATCH --gres=gpu:1
复制代码




作者
Author:
zinczinc    时间: 2023-8-9 21:04
求助
作者
Author:
abin    时间: 2023-8-9 21:18
开ssh
我看看。

电邮联系
作者
Author:
sobereva    时间: 2023-8-9 21:38
zinczinc 发表于 2023-8-9 21:04
求助

有别人回复之前若需要对帖子进行修改、补充,应直接编辑原帖,不要通过回帖进行补充,这点在置顶的新社员必读贴里明确说了。
下次删帖扣分处理

如置顶的新社员必读贴、论坛首页的公告栏、版头的红色大字非常明确所示,求助帖必须在帖子标题明确体现出此帖内容是求助或提问,并清楚、准确反映出帖子具体内容,避免有任何歧义和含糊性,仔细看http://bbs.keinsci.com/thread-9348-1-1.html。我已把你的不恰当标题 “NAMD并行计算” 改了,以后务必注意,下次将删帖+扣分处理。

作者
Author:
fhh2626    时间: 2023-8-9 21:44
既然是你自己的机器,就不要用slurm了,直接
namd3 +p10 +devices 0 step.inp > xxx.log &
namd3 +p10 +devices 1 step.inp > xxx.log &
...
不就完事儿了么

另外如果你用了CUDASOAIntegrate的话是不需要这么多CPU核心的
作者
Author:
zinczinc    时间: 2023-8-9 21:45
abin 发表于 2023-8-9 21:18
开ssh
我看看。

是公司的账号,需要VP;N登录才能ssh上。抱歉,
作者
Author:
zinczinc    时间: 2023-8-9 23:48
感谢,确实用了CUDASOAIntegrate,降低CPU核心数后有收益。因为是公司的电脑,有不同用户提交任务,所以用的slurm。
但是我试过单独提交两个也不行,在同一台机器上运行两个任务 namd3 +p10 +devices 0 step.inp > xxx.log &  。会共用10个CPU,GPU利用率也从95% ——> 50%
作者
Author:
fhh2626    时间: 2023-8-10 09:12
zinczinc 发表于 2023-8-9 23:48
感谢,确实用了CUDASOAIntegrate,降低CPU核心数后有收益。因为是公司的电脑,有不同用户提交任务,所以用 ...

devices指定的是GPU序号,你每个作业得指定不同的GPU(devices 1,2,3...)

如果你总共只有10个CPU的话当然会共用,每个作业用1个CPU就行了(+p1)
作者
Author:
zinczinc    时间: 2023-8-10 12:02
fhh2626 发表于 2023-8-10 09:12
devices指定的是GPU序号,你每个作业得指定不同的GPU(devices 1,2,3...)

如果你总共只有10个CPU的话 ...

也指定了,分别用的两个GPU
如图:

作者
Author:
fhh2626    时间: 2023-8-10 18:53
zinczinc 发表于 2023-8-10 12:02
也指定了,分别用的两个GPU
如图:

看看top, cat /proc/cpuinfo| grep "cpu cores"| uniq 和 cat /proc/cpuinfo| grep "physical id"| sort| uniq| wc -l的输出
作者
Author:
abin    时间: 2023-8-10 20:04
开SSH
或者给我登录权限,让我去看看调度配置。

另,无论机器是八个还是十个GPU
通过调度要两个GPU,编号就是0,1。
自己手动编号,死很惨的。

作者
Author:
yushang316    时间: 2023-10-18 16:05
你好,请问哪里可以看到新的编译教程啊?我自己想在集群个人账号下编译NAMD3,总是不成功。CUDASOA这个选项一打开就报错,low/high cuda count的错误




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3