计算化学公社

 找回密码 Forget password
 注册 Register
Views: 705|回复 Reply: 5
打印 Print 上一主题 Last thread 下一主题 Next thread

[GROMACS] 换了9950x+5070,使用2022.6版本的GMX无法使用GPU加速,应该如何解决?

[复制链接 Copy URL]

20

帖子

0

威望

326

eV
积分
346

Level 3 能力者

跳转到指定楼层 Go to specific reply
楼主
本帖最后由 光荣道彭于晏 于 2025-6-2 22:54 编辑

原平台是i9-10850K+3060ti,用的是Rocky Linux 9系的系统,编译安装GPU加速版本的GMX。软件版本也是一直跟着升上来的,在使用2023.5及以后的版本时,遇到了压力波动超过1%的提示,有时候能在出现大量warning的时候跑完,大部分时候都会崩溃。但同样的一套参数和流程,在2022.6及以前的版本就没有出现过问题。我也检索了论坛里的相关帖子,总体没有很好的解决方法,sob老师也建议增加tau-p,我也试了,确实是可以减少压力波动超过1%的提醒,但是更大的tau-p会让盒子对于压力设置不那么敏感,在deform的时候,盒子尺寸很难发生变化。于是,最后还是选择换回一直使用稳定的2022.6,换回来之后,就再也没有任何1%压力波动的提醒或者报错(都不用修改tau-p,直接使用课上老师建议的数值),基本上,模拟都是能正常跑完的。
最近换了新平台,根据sob老师的推荐和自己的预算,换到了R9-9950X+5070。新硬件并没有让后续的事情变得顺畅,首先是Rocky Linux的安装过程容易卡在黑屏(其实没有死机,可以alt+Ctrl+f4进入纯命令行窗口),只能在进入grub装机引导的时候,加上nomodeset才能正常进入带有UI的安装流程;其次是,装显卡驱动的时候,我应该是记错了,好像是不能选择NVIDIA proprietary,只能选择MIT/GPL,不然装好之后重启电脑还是黑屏,MIT/GPL就没有问题,一次就成功了(这个问题卡了我三天,我也是醉了);最后我终于装好了显卡驱动和NVIDIA toolkit,并编译安装了心心念念的2022.6,我要运行之前跑过的一个tpr文件来对比新平台究竟提升了多少算力,这时候就出现了报错。
直接运行之前生成的tpr,会报错,提示检测到了先前的GPU数据(大体这个意思);
重新生成tpr,然后运行-pme gpu -update gpu(常用组合,2022.6使用update GPU之后有明显的性能提升),报错,「inconsistency in user input cannot cpmpute pme interactions on a GPU,because nonbonded interactions must also run on gpus」(pme和非键相互作用都要放到GPU上)
那么加上-nb gpu,就会报错:「cannot run short-ranged nonbonded interactions on a GPU because no GPU is detected」
这就很奇怪了,于是跟着GPT的提示,一步步做排查,发现cuda和驱动都是正常安装的,应该就是GMX没有正确识别显卡,即便是gmx -version里提示GPU support:CUDA。
各位老师,这个问题应该如何解决呢?

(PS:跑GROMACS其实还是需要一个好CPU的,在2022.6版本上,聚合物盒子2万多原子的弛豫模拟,10850K最多只能让3060ti使用率达到65~72%,性能是喂不满GPU的;单纯只更换CPU到9950x,GPU利用率每次都能达到90~92%。整体算力从平均400ns/day,提升到650ns/day。另外,在我这里,10850K虽然是10核20线程,但性能发挥最大的指令其实是-nt 16 -pme gpu -update gpu,不加其他指令)


————————————————

2025.6.2

重新编译安装了2025.2, 确实是可以正常调用GPU加速了(CUDA版本12.9,NVIDIA驱动版本575.57.08)。
时间有限,仅跑了一次benchmark。
2万多原子的聚合物凝聚相盒子在常温常压下的NPT弛豫模拟。
i9-10850K+3060ti → 400ns/day
R9-9950x+3060ti → 650ns/day
R9-9950x+5070   → 1039ns/day

PS:现在的大模型AI工具确实大大降低了系统和软件的部署门槛,比几年前遇到问题在Google上大海捞针好太多了。


评分 Rate

参与人数
Participants 1
eV +2 收起 理由
Reason
sarphuart + 2 GJ!

查看全部评分 View all ratings

21

帖子

0

威望

232

eV
积分
253

Level 3 能力者

2#
发表于 Post on 2025-5-31 19:58:21 | 只看该作者 Only view this author
本帖最后由 13277552957 于 2025-5-31 19:59 编辑

50系显卡,需要使用gromacs2025版本,cuda版本大于12.8

评分 Rate

参与人数
Participants 2
eV +5 收起 理由
Reason
sarphuart + 2 GJ!
光荣道彭于晏 + 3 谢谢

查看全部评分 View all ratings

20

帖子

0

威望

326

eV
积分
346

Level 3 能力者

3#
 楼主 Author| 发表于 Post on 2025-6-2 22:42:08 | 只看该作者 Only view this author
13277552957 发表于 2025-5-31 19:58
50系显卡,需要使用gromacs2025版本,cuda版本大于12.8

谢谢老师!
我已经重新编译安装了2025.2, 试了一下,确实可以正常调用cuda进行GPU加速运行了。
另外,新版本导致的大量压力波动超过1%的问题,有办法解决吗(其实也不是新版本的问题,可能是软件的算法更合理了)

6万

帖子

99

威望

5万

eV
积分
120109

管理员

公社社长

4#
发表于 Post on 2025-6-3 12:46:53 | 只看该作者 Only view this author
光荣道彭于晏 发表于 2025-6-2 22:42
谢谢老师!
我已经重新编译安装了2025.2, 试了一下,确实可以正常调用cuda进行GPU加速运行了。
另外, ...

可以尝试不同压浴
北京科音自然科学研究中心http://www.keinsci.com)致力于计算化学的发展和传播,长期开办极高质量的各种计算化学类培训:初级量子化学培训班中级量子化学培训班高级量子化学培训班量子化学波函数分析与Multiwfn程序培训班分子动力学与GROMACS培训班CP2K第一性原理计算培训班,内容介绍以及往届资料购买请点击相应链接查看。这些培训是计算化学从零快速入门以及进一步全面系统性提升研究水平的高速路!培训各种常见问题见《北京科音办的培训班FAQ》
欢迎加入北京科音微信公众号获取北京科音培训的最新消息,并避免错过网上有价值的计算化学文章!
欢迎加入人气极高、专业性特别强的理论与计算化学综合交流群思想家公社QQ群(群号见此链接),合计达一万多人。北京科音培训班的学员在群中可申请VIP头衔,提问将得到群主Sobereva的最优先解答。
思想家公社的门口Blog:http://sobereva.com(发布大量原创计算化学相关博文)
Multiwfn主页:http://sobereva.com/multiwfn(十分强大、极为流行的量子化学波函数分析程序)
Google Scholar:https://scholar.google.com/citations?user=tiKE0qkAAAAJ
ResearchGate:https://www.researchgate.net/profile/Tian_Lu

20

帖子

0

威望

326

eV
积分
346

Level 3 能力者

5#
 楼主 Author| 发表于 Post on 2025-6-3 21:04:44 | 只看该作者 Only view this author
本帖最后由 光荣道彭于晏 于 2025-6-3 21:06 编辑
sobereva 发表于 2025-6-3 12:46
可以尝试不同压浴

感谢sob的回答。
我试过在2022.6版本上经历过Berendsen+PR压浴之后室温下平衡的盒子(密度、体积、温度都已经平衡),然后再在2023以后的版本上使用C-rescale压浴进行常温常压弛豫,也会提示压力波动超过1%。
我找到了一个GMX官方的讨论链接:https://gromacs.bioexcel.eu/t/pr ... -in-production/8879,其中ID为「MagnusL」的老师建议使用C-rescale压浴,tau-p建议设置为5~10ps。这个数值相比课程PPT里建议的那个数值大了不少。放宽tau-p,确实可以减少压力波动的提示。
那么,针对当前研究体系,如何选择合理的tau-p呢,我之前的做法是,尽量按照课程上建议的数值来进行弛豫,然后如果进行几百个ns的模拟依旧还提示压力波动,就适当增加一点tau-p,直到GMX的输出日志里没有warning。我也不确定这种做法是否合理。而且,很多时候,体系需要先在tau-p更大的条件下先进行弛豫,然后逐渐缩小,不然体系很容易就跑崩了。这种逐步缩小tau-p的做法,也非常消耗算力和时间。

6万

帖子

99

威望

5万

eV
积分
120109

管理员

公社社长

6#
发表于 Post on 2025-6-3 22:42:11 | 只看该作者 Only view this author
光荣道彭于晏 发表于 2025-6-3 21:04
感谢sob的回答。
我试过在2022.6版本上经历过Berendsen+PR压浴之后室温下平衡的盒子(密度、体积、温度 ...

先别盲目测试tau-p,仔细观看体系结构,弄清楚盒子是怎么变化的,从原理上理解情况
如果模拟设定不合理或者力场参数/拓扑信息有问题,也可能造成盒子不合理的显著波动
北京科音自然科学研究中心http://www.keinsci.com)致力于计算化学的发展和传播,长期开办极高质量的各种计算化学类培训:初级量子化学培训班中级量子化学培训班高级量子化学培训班量子化学波函数分析与Multiwfn程序培训班分子动力学与GROMACS培训班CP2K第一性原理计算培训班,内容介绍以及往届资料购买请点击相应链接查看。这些培训是计算化学从零快速入门以及进一步全面系统性提升研究水平的高速路!培训各种常见问题见《北京科音办的培训班FAQ》
欢迎加入北京科音微信公众号获取北京科音培训的最新消息,并避免错过网上有价值的计算化学文章!
欢迎加入人气极高、专业性特别强的理论与计算化学综合交流群思想家公社QQ群(群号见此链接),合计达一万多人。北京科音培训班的学员在群中可申请VIP头衔,提问将得到群主Sobereva的最优先解答。
思想家公社的门口Blog:http://sobereva.com(发布大量原创计算化学相关博文)
Multiwfn主页:http://sobereva.com/multiwfn(十分强大、极为流行的量子化学波函数分析程序)
Google Scholar:https://scholar.google.com/citations?user=tiKE0qkAAAAJ
ResearchGate:https://www.researchgate.net/profile/Tian_Lu

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2025-8-14 06:38 , Processed in 0.184650 second(s), 24 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list