计算化学公社

标题: 为啥7950X带两块4090功耗不一致 [打印本页]

作者
Author:
xero    时间: 2024-3-26 17:27
标题: 为啥7950X带两块4090功耗不一致
求助!!组里新组了一台AMD 7950X+两块七彩虹4090,主板用的华硕的X670E,在BIOS里看两个PCIE已经分成了X8X8,但是两块4090在跑gromacs任务时两个功耗明显不一致,具体见下图。
(, 下载次数 Times of downloads: 28)

系统是Ubuntu22.04, gromacs版本是2023.2 GPU版本。我做的体系大小大概40w原子,蛋白质解折叠模型。步长2 fs,共1.5e7步(30 ns)。两个显卡对应的命令在上图。
nvitop和s-tui显示功耗低的显卡对应的CPU线程使用率达不到100%(大概在80%左右)。

(, 下载次数 Times of downloads: 28)
重新装过好几次驱动,也重装过gromacs,效果也没多大变化。两个4090计算的表现一个在128 ns/day左右,另一个最多只有30 ns/day。
怀疑是电源的问题,因为老板图省钱就只买了1250W的长城80PLUS感觉一点冗余也没有hhh
但是更奇怪的是,当拆掉另一块显卡,只保留一块4090时计算的功耗也非常低,4090换到其他CPU又是正常的。
(, 下载次数 Times of downloads: 27)
也怀疑过是PCIE槽or主板的问题,于是把4090换成了3080Ti,发现3080Ti居然可以用到几乎满功耗
(, 下载次数 Times of downloads: 31)
看了之前公社里的帖子有同样4090与7950X在win10的gromacs跑不满功耗低的类似问题(http://bbs.keinsci.com/forum.php ... &highlight=4090),但没看到后续,也不知道我这台机器在Ubuntu下和熵神说的CPU affinity有没有什么关系求大佬帮助!


作者
Author:
Entropy.S.I    时间: 2024-3-26 17:41
nvidia-smi -q -i 0|grep PCIe -A 8

贴输出
作者
Author:
xero    时间: 2024-3-26 18:16
本帖最后由 xero 于 2024-3-26 18:24 编辑

输出在这里
作者
Author:
Entropy.S.I    时间: 2024-3-26 19:03
xero 发表于 2024-3-26 18:16
输出在这里

问题一目了然,GPU0和CPU的连接只有PCIe Gen1 x8。进入主板BIOS将PCIe强制设置为gen4即可,也可升级BIOS查看问题是否解决。

其他方面:1. GMX2023.4早已发布,不建议用大版本的早期patch做生产模拟;2. 对于当前硬件配置和模拟体系,尝试在mdrun命令中添加-bonded gpu观察是否更快。
作者
Author:
xero    时间: 2024-3-26 20:03
本帖最后由 xero 于 2024-3-26 20:08 编辑
Entropy.S.I 发表于 2024-3-26 19:03
问题一目了然,GPU0和CPU的连接只有PCIe Gen1 x8。进入主板BIOS将PCIe强制设置为gen4即可,也可升级BIOS ...
主板设置这样应该没错吧?
(, 下载次数 Times of downloads: 27)

作者
Author:
xero    时间: 2024-3-26 20:03
Entropy.S.I 发表于 2024-3-26 19:03
问题一目了然,GPU0和CPU的连接只有PCIe Gen1 x8。进入主板BIOS将PCIe强制设置为gen4即可,也可升级BIOS ...

谢谢熵神,把bios更新到最新版本调节PCIe到gen4就可以成功使用两块4090了加上-bonded gpu好像也没特别明显提升,最快也还在128 ns/day左右,后续再换成更新一点的gromacs
(, 下载次数 Times of downloads: )
顺带再问一下,调节的时候PCIe链路速度显示有gen5是否要使用呢?虽然我这显卡应该是只支持gen4

作者
Author:
xero    时间: 2024-3-26 20:12
另外还想问一下,1250W的电源对于两块4090是不是太吃力了,是否需要更换到1600W以上呢?




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3