求助：windows编译GPU版gromacs是否有运算上限？如何减少时间？

xiaojue251 · 发表于 Post on 2025-9-4 16:43:27

各位老师好，我是在本地电脑上跑gromacs，本地电脑是4070ti和i5 14600kf，进行分子动力学模拟100ns需要36小时，时间太长了，所以就租了一个算力强的a100显卡，，但是在进行nvt预处理2ns时仍需两个小时，这一步在我的本地电脑上也要用两个小时，进行分子动力学模拟也要很长时间，请问gromacs运算是否与上限，该怎么才能提升运算速度，减少时间？请各位老师指教

lmch · 发表于 Post on 2025-9-4 16:52:39

甩tpr上来，没具体消息怎么说

13277552957 · 发表于 Post on 2025-9-4 16:57:30

Gromacs不吃显存，a100算力并不强，Linux系统用4090试试，会块不少

KazusaT · 发表于 Post on 2025-9-4 20:35:04

多大的体系？

xiaojue251 · 发表于 Post on 2025-9-5 14:18:25

KazusaT 发表于 2025-9-4 20:35
多大的体系？

Protein in water
1074441，是这个吗，在md_0_1.gro文件里看的

xiaojue251 · 发表于 Post on 2025-9-5 14:20:29

13277552957 发表于 2025-9-4 16:57
Gromacs不吃显存，a100算力并不强，Linux系统用4090试试，会块不少

不会用linux，那windows系统用4090会不会也比a100速度快？

KazusaT · 发表于 Post on 2025-9-5 15:39:50

xiaojue251 发表于 2025-9-5 14:20
不会用linux，那windows系统用4090会不会也比a100速度快？

Gromacs主要看FP16算力，4090要比A100强
100万左右的原子4070Ti模拟100ns用36h是正常的速度

xiaojue251 · 发表于 Post on 2025-9-5 20:05:19

KazusaT 发表于 2025-9-5 15:39
Gromacs主要看FP16算力，4090要比A100强
100万左右的原子4070Ti模拟100ns用36h是正常的速度

我之前试的4070ti确实需要36h，我刚才试了一下4090，为啥反而需要48h？

xiaojue251 · 发表于 Post on 2025-9-5 20:07:10

lmch 发表于 2025-9-4 16:52
甩tpr上来，没具体消息怎么说

是这个吗？nvt.tpr

KazusaT · 发表于 Post on 2025-9-5 20:40:34

xiaojue251 发表于 2025-9-5 20:05
我之前试的4070ti确实需要36h，我刚才试了一下4090，为啥反而需要48h？

请把.log文件上传

xiaojue251 · 发表于 Post on 2025-9-5 22:36:31

KazusaT 发表于 2025-9-5 20:40
请把.log文件上传

是这个吗？

md_0_1.log (27.14 KB, 下载次数 Times of downloads: 4)

KazusaT · 发表于 Post on 2025-9-5 22:43:43

xiaojue251 发表于 2025-9-5 22:36
是这个吗？

如果可以的话请把.tpr文件和.mdp文件一并上传

xiaojue251 · 发表于 Post on 2025-9-5 22:52:25

本帖最后由 xiaojue251 于 2025-9-5 22:53 编辑

KazusaT 发表于 2025-9-5 22:43
如果可以的话请把.tpr文件和.mdp文件一并上传

md_0_1.log (37.3 KB, 下载次数 Times of downloads: 1)

mdout.mdp (10.83 KB, 下载次数 Times of downloads: 2)
.tpr太大了，上传不了

KazusaT · 发表于 Post on 2025-9-5 23:15:25

xiaojue251 发表于 2025-9-5 22:52
.tpr太大了，上传不了

我感觉并没有太大的问题，正常情况下2fs步长4090的模拟速度能够达到4000万原子/ns/day，如果你确认相同的体系相同的参数下4070Ti模拟速度更快，可以在模拟过程中监测4090的占用率，看是否是CPU瓶颈，如果是cpu瓶颈可以尝试-bonded gpu

lmch · 发表于 Post on 2025-9-5 23:45:57

本帖最后由 lmch 于 2025-9-5 23:59 编辑

xiaojue251 发表于 2025-9-5 22:36
是这个吗？

这是log不是tpr，tpr如果太大传网盘，甩个链接

简单看log，
1、100w大体系，截断1.0，
2、未使用-update gpu、-bonded gpu 等等 GPU offload 选项
3、编译时，CPU指令集未使用 AVX2-256 或AVX512
4、编译时，GPU runtime （CUDA toolkit）偏低
5、A100跟3090同级核心，弱于4070ti
6、log里的显卡是4090，尝试解决上述问题后，再运行时确认占用率和功耗。

		自动登录 Automatic login	找回密码 Forget password
密码 Password			注册 Register

[GROMACS] 求助：windows编译GPU版gromacs是否有运算上限？如何减少时间？

浏览过的版块