计算化学公社

 找回密码 Forget password
 注册 Register
Views: 3847|回复 Reply: 4
打印 Print 上一主题 Last thread 下一主题 Next thread

[GPU加速] RTX3090/Tesla A100/Tesla V100跑gromacs MD的小测试

[复制链接 Copy URL]

145

帖子

0

威望

1410

eV
积分
1555

Level 5 (御坂)

在某超算上申请了几个GPU节点,因此顺便就做了三种不同GPU节点的gromacs跑MD的速度测试。
节点1:
CPU: AMD EPYC 7002 2.6GHz 128核
内存: 512G
GPU: 8块RTX3090, 每块显存24G 每块最多用16核和60G内存。

节点2:
CPU: Intel Xeon 8255C 2.5GHz 80核
内存: 320G
GPU: 8块Tesla V100, 每块显存32G 每块最多用10核和40G内存。

节点3:
CPU: Intel Xeon Gold 8358 2.6GHz 64核
内存: 512G
GPU: 4块Tesla A100, 每块显存40G 每块最多用16核和128G内存。

测试算例为无共轭的简单寡聚物体系,原子数32W。步长2fs,跑10ns的NPT(500W步),约束氢相关的键。
计算时全都只用单卡,CPU核数和内存使用单卡最大限定值。进程=1,线程=单卡CPU核数限定值。nb和pme使用GPU计算。

测试结果:
节点1 R卡用时9小时23分,25.5ns/day

节点2 V卡用时17小时,14.1ns/day

节点3 A卡用时7小时48分,30.7ns/day


总结:A100最快,V100最慢。A100速度是V100二倍还多。RTX3090比A100稍慢。
但考虑卡时单价,A100几乎是RTX3090的2倍。因此性价比还是R卡最高。

比较有意思的是V100居然比RTX慢这么多,我有点接受不能。
应该是配套cpu和核数的原因?但按照http://bbs.keinsci.com/forum.php ... 1&fromuid=36081的建议,单卡10核应该是比较好的选择。
此外值得一提的是,A卡的利用率在50-70%之间,而其它两卡的利用率一般只有30-50%。

我本人是个显卡小白,希望来(几)个大佬来评判一下。(我可能发错区了,如是麻烦sob大大移动一下)
我的运行命令如下,是否还有速度提升空间?(比如-update什么的)
gmx mdrun -v -deffnm XXX -ntmpi 1 -ntomp [单卡最大核数] -nb gpu -pme gpu


评分 Rate

参与人数
Participants 1
eV +5 收起 理由
Reason
Picardo + 5 谢谢

查看全部评分 View all ratings

846

帖子

16

威望

4652

eV
积分
5818

Level 6 (一方通行)

小屁孩

2#
发表于 Post on 2022-12-2 14:44:03 | 只看该作者 Only view this author
本帖最后由 Entropy.S.I 于 2022-12-2 14:45 编辑

极其不严谨的测试,不同CPU下跑GMX的GPU benchmark没什么意义。仔细看性能翻倍?RTX4090科学计算之经典MD模拟全面测试

另外,没有说清楚所用模型的具体参数。但是,按你已经给出的参数,以及对应的GPU占用情况,显然没有发挥出GPU最佳性能。AMD Ryzen R9 5950X + NVIDIA GeForce RTX 3080Ti(OC 100MHz,400W)的硬件组合模拟上文中A模型(此模型参数可能与你所用的模型接近)可达到71ns/d。

最后提示一下,你给的mdrun运行命令
gmx mdrun -v -deffnm XXX -ntmpi 1 -ntomp [单卡最大核数] -nb gpu -pme gpu

不是GPU-resident模式,成键项是在CPU上计算的。
- 向着虚无前进 -

145

帖子

0

威望

1410

eV
积分
1555

Level 5 (御坂)

3#
 楼主 Author| 发表于 Post on 2022-12-2 16:00:37 | 只看该作者 Only view this author
Entropy.S.I 发表于 2022-12-2 14:44
极其不严谨的测试,不同CPU下跑GMX的GPU benchmark没什么意义。仔细看性能翻倍?RTX4090科学计算之经典MD模 ...

谢佬,我也觉得这个速度较坛子里其他的评测慢很多。
模型是1千多个原子数从100-400不等的简单聚乙烯寡聚链,用packmol生成。
cut-off 的rcolumb和rvdw都是1.0

请问您觉得这三个节点都需要用GPU-resident模式吗?-bond和-update用哪个更好些?或者都用?

846

帖子

16

威望

4652

eV
积分
5818

Level 6 (一方通行)

小屁孩

4#
发表于 Post on 2022-12-2 16:20:20 | 只看该作者 Only view this author
本帖最后由 Entropy.S.I 于 2022-12-2 16:29 编辑
rugals 发表于 2022-12-2 16:00
谢佬,我也觉得这个速度较坛子里其他的评测慢很多。
模型是1千多个原子数从100-400不等的简单聚乙烯寡聚 ...

自行对比-bonded gpu -update gpu和-update gpu的速度。

前者是GPU-resident模式,以你的硬件资源和模型特点,我预计GPU-resident模式更快。

正确指定-pin on -pinoffset * -pinstride 1 -nt * -gpu_id *以充分利用所有CPU、GPU资源。

最后,你没说用的GMX是哪个版本,反正目前推荐2021.6

- 向着虚无前进 -

145

帖子

0

威望

1410

eV
积分
1555

Level 5 (御坂)

5#
 楼主 Author| 发表于 Post on 2022-12-2 16:40:46 | 只看该作者 Only view this author
Entropy.S.I 发表于 2022-12-2 16:20
自行对比-bonded gpu -update gpu和-update gpu的速度。

前者是GPU-resident模式,以你的硬件资源和模 ...

谢谢老师指点!

发帖太快忘了写,用的2022.2版本

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-27 07:47 , Processed in 0.182866 second(s), 25 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list