计算化学公社

 找回密码 Forget password
 注册 Register
Views: 467|回复 Reply: 14
打印 Print 上一主题 Last thread 下一主题 Next thread

[GROMACS] 求助:windows编译GPU版gromacs是否有运算上限?如何减少时间?

[复制链接 Copy URL]

7

帖子

0

威望

17

eV
积分
24

Level 1 能力者

各位老师好,我是在本地电脑上跑gromacs,本地电脑是4070ti和i5 14600kf,进行分子动力学模拟100ns需要36小时,时间太长了,所以就租了一个算力强的a100显卡,,但是在进行nvt预处理2ns时仍需两个小时,这一步在我的本地电脑上也要用两个小时,进行分子动力学模拟也要很长时间,请问gromacs运算是否与上限,该怎么才能提升运算速度,减少时间?请各位老师指教

0692fae74629aaf4dee4e1537515f43.jpg (239.74 KB, 下载次数 Times of downloads: 0)

0692fae74629aaf4dee4e1537515f43.jpg

73

帖子

0

威望

1341

eV
积分
1414

Level 4 (黑子)

2#
发表于 Post on 2025-9-4 16:52:39 | 只看该作者 Only view this author
甩tpr上来,没具体消息怎么说

24

帖子

0

威望

364

eV
积分
388

Level 3 能力者

3#
发表于 Post on 2025-9-4 16:57:30 | 只看该作者 Only view this author
Gromacs不吃显存,a100算力并不强,Linux系统用4090试试,会块不少

262

帖子

0

威望

635

eV
积分
897

Level 4 (黑子)

4#
发表于 Post on 2025-9-4 20:35:04 | 只看该作者 Only view this author
多大的体系?

7

帖子

0

威望

17

eV
积分
24

Level 1 能力者

5#
 楼主 Author| 发表于 Post on 2025-9-5 14:18:25 | 只看该作者 Only view this author

Protein in water
1074441,是这个吗,在md_0_1.gro文件里看的

7

帖子

0

威望

17

eV
积分
24

Level 1 能力者

6#
 楼主 Author| 发表于 Post on 2025-9-5 14:20:29 | 只看该作者 Only view this author
13277552957 发表于 2025-9-4 16:57
Gromacs不吃显存,a100算力并不强,Linux系统用4090试试,会块不少

不会用linux,那windows系统用4090会不会也比a100速度快?

262

帖子

0

威望

635

eV
积分
897

Level 4 (黑子)

7#
发表于 Post on 2025-9-5 15:39:50 | 只看该作者 Only view this author
xiaojue251 发表于 2025-9-5 14:20
不会用linux,那windows系统用4090会不会也比a100速度快?

Gromacs主要看FP16算力,4090要比A100强
100万左右的原子4070Ti模拟100ns用36h是正常的速度

7

帖子

0

威望

17

eV
积分
24

Level 1 能力者

8#
 楼主 Author| 发表于 Post on 2025-9-5 20:05:19 | 只看该作者 Only view this author
KazusaT 发表于 2025-9-5 15:39
Gromacs主要看FP16算力,4090要比A100强
100万左右的原子4070Ti模拟100ns用36h是正常的速度

我之前试的4070ti确实需要36h,我刚才试了一下4090,为啥反而需要48h?

7

帖子

0

威望

17

eV
积分
24

Level 1 能力者

9#
 楼主 Author| 发表于 Post on 2025-9-5 20:07:10 | 只看该作者 Only view this author
lmch 发表于 2025-9-4 16:52
甩tpr上来,没具体消息怎么说

是这个吗?nvt.tpr

262

帖子

0

威望

635

eV
积分
897

Level 4 (黑子)

10#
发表于 Post on 2025-9-5 20:40:34 | 只看该作者 Only view this author
xiaojue251 发表于 2025-9-5 20:05
我之前试的4070ti确实需要36h,我刚才试了一下4090,为啥反而需要48h?

请把.log文件上传

7

帖子

0

威望

17

eV
积分
24

Level 1 能力者

11#
 楼主 Author| 发表于 Post on 2025-9-5 22:36:31 | 只看该作者 Only view this author
KazusaT 发表于 2025-9-5 20:40
请把.log文件上传

是这个吗? md_0_1.log (27.14 KB, 下载次数 Times of downloads: 4)



262

帖子

0

威望

635

eV
积分
897

Level 4 (黑子)

12#
发表于 Post on 2025-9-5 22:43:43 | 只看该作者 Only view this author

如果可以的话请把.tpr文件和.mdp文件一并上传

7

帖子

0

威望

17

eV
积分
24

Level 1 能力者

13#
 楼主 Author| 发表于 Post on 2025-9-5 22:52:25 | 只看该作者 Only view this author
本帖最后由 xiaojue251 于 2025-9-5 22:53 编辑
KazusaT 发表于 2025-9-5 22:43
如果可以的话请把.tpr文件和.mdp文件一并上传
md_0_1.log (37.3 KB, 下载次数 Times of downloads: 1)
mdout.mdp (10.83 KB, 下载次数 Times of downloads: 2)
.tpr太大了,上传不了

262

帖子

0

威望

635

eV
积分
897

Level 4 (黑子)

14#
发表于 Post on 2025-9-5 23:15:25 | 只看该作者 Only view this author
xiaojue251 发表于 2025-9-5 22:52
.tpr太大了,上传不了

我感觉并没有太大的问题,正常情况下2fs步长4090的模拟速度能够达到4000万原子/ns/day,如果你确认相同的体系相同的参数下4070Ti模拟速度更快,可以在模拟过程中监测4090的占用率,看是否是CPU瓶颈,如果是cpu瓶颈可以尝试-bonded gpu

73

帖子

0

威望

1341

eV
积分
1414

Level 4 (黑子)

15#
发表于 Post on 2025-9-5 23:45:57 | 只看该作者 Only view this author
本帖最后由 lmch 于 2025-9-5 23:59 编辑

这是log不是tpr,tpr如果太大传网盘,甩个链接

简单看log,
1、100w大体系,截断1.0,
2、未使用-update gpu、-bonded gpu 等等 GPU offload 选项
3、编译时,CPU指令集未使用 AVX2-256 或AVX512
4、编译时 ,GPU runtime (CUDA toolkit)偏低
5、A100跟3090同级核心,弱于4070ti
6、log里的显卡是4090,尝试解决上述问题后,再运行时确认占用率和功耗。

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2026-1-25 17:46 , Processed in 0.254840 second(s), 23 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list