计算化学公社

 找回密码 Forget password
 注册 Register

4090+7950x跑gmx功耗过低(只有160w还不到240w),求大佬指点

查看数: 1432 | 评论数: 12 | 收藏 Add to favorites 0
关灯 | 提示:支持键盘翻页<-左 右->
    组图打开中,请稍候......
发布时间: 2023-10-23 11:25

正文摘要:

我做的体系非常小,只有17000原子,固体+盐溶液接触的模型。gmx使用的win系统下sob社长编译好的2020.6gpu版本。 我自己做了三个简单测试,步长2fs,共1e7步(20ns), gmx mdrun -v -deffnm md  约87分 ...

回复 Reply

moritaichi 发表于 Post on 2023-10-27 20:49:00
Graphite 发表于 2023-10-27 20:23
可能跟体系有关系,也可能跟硬件、操作系统有关系。建议先从头读读gmx文档中对mdrun和性能调优的页面。这 ...

OK,谢谢老师,您的建议对我帮助十分大
Graphite 发表于 Post on 2023-10-27 20:23:20
本帖最后由 Graphite 于 2023-10-27 20:24 编辑
moritaichi 发表于 2023-10-26 23:18
太诡异了,再用gmx mdrun -v -ntmpi 1 -ntomp 12 -nb gpu -pme gpu -update gpu -pin on -deffnm md跑10W ...

可能跟体系有关系,也可能跟硬件、操作系统有关系。建议先从头读读gmx文档中对mdrun和性能调优的页面。这些指令只是按钮,关键得了解机器(程序、算法)背后是怎么运作的。如果要排除软件和系统因素,可以先去租半天卡(也就几十块钱),试下原生linux、正常安装最新gpu加速版gmx的运作情况。
moritaichi 发表于 Post on 2023-10-26 23:18:01
Graphite 发表于 2023-10-26 21:50
你的mdp里面或者top文件里面一些设置跟-bonded gpu冲突,先这样测一下看看:
export OMP_NUM_THREADS=
...

太诡异了,再用gmx mdrun -v -ntmpi 1 -ntomp 12 -nb gpu -pme gpu -update gpu -pin on -deffnm md跑10W原子水盒子这个体系也是到step 0 就自动终止了,完全蒙了
moritaichi 发表于 Post on 2023-10-26 22:56:31
Graphite 发表于 2023-10-26 21:50
你的mdp里面或者top文件里面一些设置跟-bonded gpu冲突,先这样测一下看看:
export OMP_NUM_THREADS=
...

非常感谢大佬,我明后两天再来重装一个新版的gmx试试。
现在初步跑了一个10W原子的水盒子,cut-off用的1.2,在win原生gmx下,export OMP_NUM_THREADS=12命令提示无效,不过gmx mdrun -v -ntmpi 1 -ntomp 12 -nb gpu -pme gpu -update gpu -pin on -deffnm md命令下,大概有3000W原子*ns/day。这个状态下显卡功耗成功拉到了250W。WSL2与WIN原生的速度也几乎没有任何区别(显卡也成功被拉到250w)。
我本想跑大一点的,90W原子的体系(20nm的立方体水盒子)就完全卡在step 0 不动了,也很诡异。
Graphite 发表于 Post on 2023-10-26 21:50:58
moritaichi 发表于 2023-10-26 18:51
大佬,我刚刚想试试换个大体系,就建了个50*50*50nm的纯水立方盒子,大概1200万原子,奇怪的是每次gmx md ...

你的mdp里面或者top文件里面一些设置跟-bonded gpu冲突,先这样测一下看看:
export OMP_NUM_THREADS=<总线程数或略小于总线程数>
gmx mdrun -v -ntmpi 1 -ntomp <上面那个值> -nb gpu -pme gpu -update gpu -pin on -deffnm <名称>


gmx mdrun性能调优还是有一定深度的,之后批量上任务建议先仔细看看gmx document。
另外建议早日升级到2023版gmx,这两年加速和硬件支持还是有不小更新、改动的。
moritaichi 发表于 Post on 2023-10-26 18:52:52
Entropy.S.I 发表于 2023-10-26 14:11
wsl本质上还是Windows,无法设置CPU affinity

感谢熵神,WSL2琢磨完了就给这台机子装linux
Graphite 发表于 Post on 2023-10-26 14:56:39
体系确实太小了,因为不管GPU算多快、有些工作的负载仍然是和体系结构刷新速度有关,会因为这部分产生瓶颈。对多数平台大概是500 ns/day(2 fs步长大概3000步/秒)左右开始产生瓶颈。

你这样才1200万atoms × ns / day不到,可以试试把体系扩64倍跑几分钟,看看原子数×速度(ns/day)是多少。

用2 fs,1.0 nm cutoff,常规分子体系,1.0 g/mL左右的密度,4090的至少有4500万atoms × ns / day,3080大概是2000万。
Entropy.S.I 发表于 Post on 2023-10-26 14:11:59
moritaichi 发表于 2023-10-26 13:54
我个人又测试了在WSL2中编译gmx2020.6,结果和在win系统下差不多,感觉不是win系统效率太差,应该是系统实 ...

wsl本质上还是Windows,无法设置CPU affinity
moritaichi 发表于 Post on 2023-10-26 13:54:05
我个人又测试了在WSL2中编译gmx2020.6,结果和在win系统下差不多,感觉不是win系统效率太差,应该是系统实在太小了。
moritaichi 发表于 Post on 2023-10-23 22:18:48
Entropy.S.I 发表于 2023-10-23 16:30
使用原生Linux。Windows下甚至无法设置CPU affinity,不负责任地推测一下,即使把所有能做的调优都做好(包 ...

OK,感谢熵神
Entropy.S.I 发表于 Post on 2023-10-23 16:30:33
本帖最后由 Entropy.S.I 于 2023-10-23 16:33 编辑

使用原生Linux。Windows下甚至无法设置CPU affinity,不负责任地推测一下,即使把所有能做的调优都做好(包括本地编译以启用针对sm89的flag、并且-bonded gpu -update gpu),4090实际发挥出来的性能可能连4080都不如。

体系过小也是一个主要原因,我的基准测试起步就是16.9万原子,上到100万乃至1250万原子。

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2026-1-25 21:30 , Processed in 0.194632 second(s), 25 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list