换了9950x+5070，使用2022.6版本的GMX无法使用GPU加速，应该如何解决？

光荣道彭于晏 · 发表于 Post on 2025-5-31 19:45:23

本帖最后由光荣道彭于晏于 2025-6-2 22:54 编辑

原平台是i9-10850K+3060ti，用的是Rocky Linux 9系的系统，编译安装GPU加速版本的GMX。软件版本也是一直跟着升上来的，在使用2023.5及以后的版本时，遇到了压力波动超过1%的提示，有时候能在出现大量warning的时候跑完，大部分时候都会崩溃。但同样的一套参数和流程，在2022.6及以前的版本就没有出现过问题。我也检索了论坛里的相关帖子，总体没有很好的解决方法，sob老师也建议增加tau-p，我也试了，确实是可以减少压力波动超过1%的提醒，但是更大的tau-p会让盒子对于压力设置不那么敏感，在deform的时候，盒子尺寸很难发生变化。于是，最后还是选择换回一直使用稳定的2022.6，换回来之后，就再也没有任何1%压力波动的提醒或者报错（都不用修改tau-p，直接使用课上老师建议的数值），基本上，模拟都是能正常跑完的。
最近换了新平台，根据sob老师的推荐和自己的预算，换到了R9-9950X+5070。新硬件并没有让后续的事情变得顺畅，首先是Rocky Linux的安装过程容易卡在黑屏（其实没有死机，可以alt+Ctrl+f4进入纯命令行窗口），只能在进入grub装机引导的时候，加上nomodeset才能正常进入带有UI的安装流程；其次是，装显卡驱动的时候，我应该是记错了，好像是不能选择NVIDIA proprietary，只能选择MIT/GPL，不然装好之后重启电脑还是黑屏，MIT/GPL就没有问题，一次就成功了（这个问题卡了我三天，我也是醉了）；最后我终于装好了显卡驱动和NVIDIA toolkit，并编译安装了心心念念的2022.6，我要运行之前跑过的一个tpr文件来对比新平台究竟提升了多少算力，这时候就出现了报错。
直接运行之前生成的tpr，会报错，提示检测到了先前的GPU数据（大体这个意思）；
重新生成tpr，然后运行-pme gpu -update gpu（常用组合，2022.6使用update GPU之后有明显的性能提升），报错，「inconsistency in user input cannot cpmpute pme interactions on a GPU，because nonbonded interactions must also run on gpus」（pme和非键相互作用都要放到GPU上）
那么加上-nb gpu，就会报错：「cannot run short-ranged nonbonded interactions on a GPU because no GPU is detected」
这就很奇怪了，于是跟着GPT的提示，一步步做排查，发现cuda和驱动都是正常安装的，应该就是GMX没有正确识别显卡，即便是gmx -version里提示GPU support：CUDA。
各位老师，这个问题应该如何解决呢？

（PS：跑GROMACS其实还是需要一个好CPU的，在2022.6版本上，聚合物盒子2万多原子的弛豫模拟，10850K最多只能让3060ti使用率达到65~72%，性能是喂不满GPU的；单纯只更换CPU到9950x，GPU利用率每次都能达到90~92%。整体算力从平均400ns/day，提升到650ns/day。另外，在我这里，10850K虽然是10核20线程，但性能发挥最大的指令其实是-nt 16 -pme gpu -update gpu，不加其他指令）

————————————————

2025.6.2

重新编译安装了2025.2, 确实是可以正常调用GPU加速了（CUDA版本12.9，NVIDIA驱动版本575.57.08）。
时间有限，仅跑了一次benchmark。
2万多原子的聚合物凝聚相盒子在常温常压下的NPT弛豫模拟。
i9-10850K+3060ti → 400ns/day
R9-9950x+3060ti → 650ns/day
R9-9950x+5070 → 1039ns/day

PS：现在的大模型AI工具确实大大降低了系统和软件的部署门槛，比几年前遇到问题在Google上大海捞针好太多了。

13277552957 · 发表于 Post on 2025-5-31 19:58:21

本帖最后由 13277552957 于 2025-5-31 19:59 编辑

50系显卡，需要使用gromacs2025版本，cuda版本大于12.8

光荣道彭于晏 · 发表于 Post on 2025-6-2 22:42:08

13277552957 发表于 2025-5-31 19:58
50系显卡，需要使用gromacs2025版本，cuda版本大于12.8

谢谢老师！
我已经重新编译安装了2025.2, 试了一下，确实可以正常调用cuda进行GPU加速运行了。
另外，新版本导致的大量压力波动超过1%的问题，有办法解决吗（其实也不是新版本的问题，可能是软件的算法更合理了）

sobereva · 发表于 Post on 2025-6-3 12:46:53

光荣道彭于晏发表于 2025-6-2 22:42
谢谢老师！
我已经重新编译安装了2025.2, 试了一下，确实可以正常调用cuda进行GPU加速运行了。
另外， ...

可以尝试不同压浴

光荣道彭于晏 · 发表于 Post on 2025-6-3 21:04:44

本帖最后由光荣道彭于晏于 2025-6-3 21:06 编辑

sobereva 发表于 2025-6-3 12:46
可以尝试不同压浴

感谢sob的回答。
我试过在2022.6版本上经历过Berendsen+PR压浴之后室温下平衡的盒子（密度、体积、温度都已经平衡），然后再在2023以后的版本上使用C-rescale压浴进行常温常压弛豫，也会提示压力波动超过1%。
我找到了一个GMX官方的讨论链接：https://gromacs.bioexcel.eu/t/pr ... -in-production/8879，其中ID为「MagnusL」的老师建议使用C-rescale压浴，tau-p建议设置为5~10ps。这个数值相比课程PPT里建议的那个数值大了不少。放宽tau-p，确实可以减少压力波动的提示。
那么，针对当前研究体系，如何选择合理的tau-p呢，我之前的做法是，尽量按照课程上建议的数值来进行弛豫，然后如果进行几百个ns的模拟依旧还提示压力波动，就适当增加一点tau-p，直到GMX的输出日志里没有warning。我也不确定这种做法是否合理。而且，很多时候，体系需要先在tau-p更大的条件下先进行弛豫，然后逐渐缩小，不然体系很容易就跑崩了。这种逐步缩小tau-p的做法，也非常消耗算力和时间。

sobereva · 发表于 Post on 2025-6-3 22:42:11

光荣道彭于晏发表于 2025-6-3 21:04
感谢sob的回答。
我试过在2022.6版本上经历过Berendsen+PR压浴之后室温下平衡的盒子（密度、体积、温度 ...

先别盲目测试tau-p，仔细观看体系结构，弄清楚盒子是怎么变化的，从原理上理解情况
如果模拟设定不合理或者力场参数/拓扑信息有问题，也可能造成盒子不合理的显著波动

		自动登录 Automatic login	找回密码 Forget password
密码 Password			注册 Register

[GROMACS] 换了9950x+5070，使用2022.6版本的GMX无法使用GPU加速，应该如何解决？

评分 Rate

评分 Rate

浏览过的版块