计算化学公社

标题: 求助:windows编译GPU版gromacs是否有运算上限?如何减少时间? [打印本页]

作者
Author:
xiaojue251    时间: 2025-9-4 16:43
标题: 求助:windows编译GPU版gromacs是否有运算上限?如何减少时间?
各位老师好,我是在本地电脑上跑gromacs,本地电脑是4070ti和i5 14600kf,进行分子动力学模拟100ns需要36小时,时间太长了,所以就租了一个算力强的a100显卡,,但是在进行nvt预处理2ns时仍需两个小时,这一步在我的本地电脑上也要用两个小时,进行分子动力学模拟也要很长时间,请问gromacs运算是否与上限,该怎么才能提升运算速度,减少时间?请各位老师指教 (, 下载次数 Times of downloads: 0) (, 下载次数 Times of downloads: 0)

作者
Author:
lmch    时间: 2025-9-4 16:52
甩tpr上来,没具体消息怎么说
作者
Author:
13277552957    时间: 2025-9-4 16:57
Gromacs不吃显存,a100算力并不强,Linux系统用4090试试,会块不少
作者
Author:
KazusaT    时间: 2025-9-4 20:35
多大的体系?
作者
Author:
xiaojue251    时间: 2025-9-5 14:18
KazusaT 发表于 2025-9-4 20:35
多大的体系?

Protein in water
1074441,是这个吗,在md_0_1.gro文件里看的
作者
Author:
xiaojue251    时间: 2025-9-5 14:20
13277552957 发表于 2025-9-4 16:57
Gromacs不吃显存,a100算力并不强,Linux系统用4090试试,会块不少

不会用linux,那windows系统用4090会不会也比a100速度快?
作者
Author:
KazusaT    时间: 2025-9-5 15:39
xiaojue251 发表于 2025-9-5 14:20
不会用linux,那windows系统用4090会不会也比a100速度快?

Gromacs主要看FP16算力,4090要比A100强
100万左右的原子4070Ti模拟100ns用36h是正常的速度
作者
Author:
xiaojue251    时间: 2025-9-5 20:05
KazusaT 发表于 2025-9-5 15:39
Gromacs主要看FP16算力,4090要比A100强
100万左右的原子4070Ti模拟100ns用36h是正常的速度

我之前试的4070ti确实需要36h,我刚才试了一下4090,为啥反而需要48h? (, 下载次数 Times of downloads: 0) (, 下载次数 Times of downloads: 0)

作者
Author:
xiaojue251    时间: 2025-9-5 20:07
lmch 发表于 2025-9-4 16:52
甩tpr上来,没具体消息怎么说

是这个吗?nvt.tpr (, 下载次数 Times of downloads: 0)

作者
Author:
KazusaT    时间: 2025-9-5 20:40
xiaojue251 发表于 2025-9-5 20:05
我之前试的4070ti确实需要36h,我刚才试了一下4090,为啥反而需要48h?

请把.log文件上传
作者
Author:
xiaojue251    时间: 2025-9-5 22:36
KazusaT 发表于 2025-9-5 20:40
请把.log文件上传

是这个吗? (, 下载次数 Times of downloads: 4)




作者
Author:
KazusaT    时间: 2025-9-5 22:43
xiaojue251 发表于 2025-9-5 22:36
是这个吗?

如果可以的话请把.tpr文件和.mdp文件一并上传
作者
Author:
xiaojue251    时间: 2025-9-5 22:52
本帖最后由 xiaojue251 于 2025-9-5 22:53 编辑
KazusaT 发表于 2025-9-5 22:43
如果可以的话请把.tpr文件和.mdp文件一并上传
(, 下载次数 Times of downloads: 1)
(, 下载次数 Times of downloads: 2)
.tpr太大了,上传不了

作者
Author:
KazusaT    时间: 2025-9-5 23:15
xiaojue251 发表于 2025-9-5 22:52
.tpr太大了,上传不了

我感觉并没有太大的问题,正常情况下2fs步长4090的模拟速度能够达到4000万原子/ns/day,如果你确认相同的体系相同的参数下4070Ti模拟速度更快,可以在模拟过程中监测4090的占用率,看是否是CPU瓶颈,如果是cpu瓶颈可以尝试-bonded gpu
作者
Author:
lmch    时间: 2025-9-5 23:45
本帖最后由 lmch 于 2025-9-5 23:59 编辑
xiaojue251 发表于 2025-9-5 22:36
是这个吗?

这是log不是tpr,tpr如果太大传网盘,甩个链接

简单看log,
1、100w大体系,截断1.0,
2、未使用-update gpu、-bonded gpu 等等 GPU offload 选项
3、编译时,CPU指令集未使用 AVX2-256 或AVX512
4、编译时 ,GPU runtime (CUDA toolkit)偏低
5、A100跟3090同级核心,弱于4070ti
6、log里的显卡是4090,尝试解决上述问题后,再运行时确认占用率和功耗。





欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3