|
在某超算上申请了几个GPU节点,因此顺便就做了三种不同GPU节点的gromacs跑MD的速度测试。
节点1:
CPU: AMD EPYC 7002 2.6GHz 128核
内存: 512G
GPU: 8块RTX3090, 每块显存24G 每块最多用16核和60G内存。
节点2:
CPU: Intel Xeon 8255C 2.5GHz 80核
内存: 320G
GPU: 8块Tesla V100, 每块显存32G 每块最多用10核和40G内存。
节点3:
CPU: Intel Xeon Gold 8358 2.6GHz 64核
内存: 512G
GPU: 4块Tesla A100, 每块显存40G 每块最多用16核和128G内存。
测试算例为无共轭的简单寡聚物体系,原子数32W。步长2fs,跑10ns的NPT(500W步),约束氢相关的键。
计算时全都只用单卡,CPU核数和内存使用单卡最大限定值。进程=1,线程=单卡CPU核数限定值。nb和pme使用GPU计算。
测试结果:
节点1 R卡用时9小时23分,25.5ns/day
节点2 V卡用时17小时,14.1ns/day
节点3 A卡用时7小时48分,30.7ns/day
总结:A100最快,V100最慢。A100速度是V100二倍还多。RTX3090比A100稍慢。
但考虑卡时单价,A100几乎是RTX3090的2倍。因此性价比还是R卡最高。
比较有意思的是V100居然比RTX慢这么多,我有点接受不能。
应该是配套cpu和核数的原因?但按照http://bbs.keinsci.com/forum.php ... 1&fromuid=36081的建议,单卡10核应该是比较好的选择。
此外值得一提的是,A卡的利用率在50-70%之间,而其它两卡的利用率一般只有30-50%。
我本人是个显卡小白,希望来(几)个大佬来评判一下。(我可能发错区了,如是麻烦sob大大移动一下)
我的运行命令如下,是否还有速度提升空间?(比如-update什么的)
gmx mdrun -v -deffnm XXX -ntmpi 1 -ntomp [单卡最大核数] -nb gpu -pme gpu
|
评分 Rate
-
查看全部评分 View all ratings
|