Amber,gromacs,namd,acemd3和desmond计算速度咨询

Chris——szk · 发表于 Post on 2021-12-22 18:38:15

这几天看到了公社有帖子讲到了amber比gromacs模拟速度快的问题emm，我就去在自己的电脑上试着测了一下相关的模拟速度，感觉gromacs-2021版本的GPU版本应该还是要比amber来的更加快一点，然后都是单卡，利用率基本上都为95%左右，gromacs可能还要更加高一点大概在98%左右，然后以下是我的电脑配置：
CPU：R7 5800H 16GB 8核
GPU：3060 laptop
简要写了一下，然后测得数据是下面这个样子的，同时也希望可以得到大家的指正与意见讨论emm:
1.Amber
针对于16000原子体系，计算速度为261ns/day,同时我也试了有MKL和没有MKL之间的区别，发现最多也就差了3，4ns/day，检查过应该编译的是没有问题的

2.gromacs
然后12000原子的体系，用gromacs模拟的话，计算速度为620ns/day，哦附加一句在做模拟的时候我基本上都是通过sudo telinit 3将桌面关闭了的，这样子可以保证充分运行吧，然后我在win11下测试了同样的体系，发现的是模拟速度大概为398ns/day，损失的应该还挺多的吧
3.NAMD3
NAMD3的emm我还没有做过测试，希望有大佬可以给点建议emm
4.acemd3
acemd3据说是针对于nvidia显卡进行开发的，所以我用它模拟了大概原子数为23000的体系，就是DFHR，发现模拟速度可以达到660ns/day，9万原子的系统，模拟速度该约为160ns/day，相比于desmond在A100上的运行速度，似乎差不多？
5.Desmond
看下面这张图吧emm...

希望各位老师可以给一点建议...
属实不明白该怎么样让amber跑得更加快...

k64_cc · 发表于 Post on 2021-12-23 11:17:20

你考不考虑用一样的体系，一样的FFT setting，一样的timestep，一样的cutoff再测一遍

Chris——szk · 发表于 Post on 2021-12-23 14:47:18

k64_cc 发表于 2021-12-23 11:17
你考不考虑用一样的体系，一样的FFT setting，一样的timestep，一样的cutoff再测一遍

emm,想着有空想再做一遍，这个点做的确实不太合理，我之前感觉原子数差的不是很大应该不会相差太大这样的，确实有点问题，悲:D

喵星大佬 · 发表于 Post on 2021-12-23 17:47:51

本帖最后由喵星大佬于 2021-12-25 15:50 编辑

终结此帖
信息来源1：https://developer.nvidia.com/hpc-application-performance

信息来源2：J. Chem. Phys. 2020, 153, 134110

这个问题根本不用争，Nvidia早有测试
这里只关注A100计算卡(包括SXM版本和PCIe版本)和A40计算卡的情况，A100为旗舰计算卡速度显然最快，A40就是A6000的被动散热服务器版本，核心和3090基本一样，可以近似当成3090这样的消费显卡的略微增强版(但是有ECC)，关注的是程序测试都用的那个STMV-NPT的测试，这个体系足够大，可以足够榨干硬件
注1：SMX版本核心数稍多并且板载NVSwitch效率比外接的略高
注2：Amber的步长为4fs，其他为1fs，所以速度除以4来算

先看Amber

SXM版本和PCIe版本的A100加速性能基本没区别，而且几乎都是完美线性，区别基本就在PCIe版本的cuda核心稍微少一点点，可见Amber的多GPU并行确实不错，最高为8*A100(SXM)的442ns/d(折算为110.5ns/d)

然后看一下用A40的情况

明显能够看出和专业卡有将近一倍的差距，而且不是因为NVLink带来的卡间通信的影响(A40的NVLink只能依赖于外接)，因为可以看到多卡并行的效率同样是几乎完美线性。而且A40速度一定是快于3090的，所以说要说专业卡和消费级显卡在跑MD方面没有差距显然是不可能的，基本可以认为A100约等于3090×2

然后看一下NAMD的情况，测试使用的是NAMD3

同样是几乎纯线性的并行效率，最终速度比Amber稍慢，大概是95/110，也就是86%的速度
看一下用A40的情况

同样几乎是完美线性，结论与Amber的相同，旗舰专业卡的速度约为旗舰消费卡的两倍，不过每单卡相对于Amber的的速度略有上升，大概92%

最后看一下Gromacs

非常明显，无论是SXM版本还是PCIe版本，多卡并行都远远偏离线性，但是由于单卡的速度较快，在8卡(SMX版)时，仍然能和Amber打个平手。但可以预见在更大规模的并行时速度会明显慢与Amber和NAMD。但是PCIe版的此时就很拉跨了，比NAMD的速度都要慢上不少。这里明显是由于NVLink及CPU-GPU通信速度带来的影响(SXM版的速度比PCIe快得多)，因为核心数的些微差异远远不止于如此。这同时也体现出纯GPU的程序和CPU-GPU联合两种思路的区别。同是如果注意纯CPU版本的时间的话可以明显发现Gromacs比Amber和NAMD都要快的多，尤其是Amber的CPU版本，真的拉跨(注意要算步长)。

另外，从文献J. Chem. Phys. 2020, 153, 134110中的测试结果看，当卡数>8的情况。Gromacs甚至会产生负的并行效果(PME)

此时用的是V100GPU，单机4卡，节点内通过NVLink节点间通过IB网络链接，可以看到基本上8卡为Gromacs并行效率的顶点了(绝大多数情况应该会选择PME而不是反应场计算长程静电作用)，这也应印证了前面猜测的在更大规模的并行时Amber和NAMD会超越Gromacs，尤其是在多GPU节点的超算上。同时注意此处，将update设置在GPU上将会带来巨量提升，因为显著降低了CPU-GPU的交互，但仍不足以抵消该并行模式自身的劣势

然后看下A40的情况

同样脱离线性的并行，只是偏离程度比A100稍好，但是4卡到8卡的过程仍然相当明显，但是这里可以看出对于Gromacs来说，A100的优势并没有那么大，消费级单卡显卡能达到专业卡近80%的水平，而且并行效率在双卡时甚至高于A100。但由于更多卡并行效率低下(没有板载NVSwitch)，在8卡时仍和Amber半径八两，但是显然与A100/V100的情况相同，在更大规模的并行上会被超越

结论：
1）使用NAMD3，Amber等纯GPU程序的时候，专业显卡有明显优势，并且多卡并行效率极高，预算充足的情况建议购买，可以带来巨量提升，甚至可以考虑SXM版本的(NV自家的炼丹炉)

2）使用Gromacs的时候，专业显卡仍然会快得多，但是优势远不如在Amber和NAMD时明显，并且由于多卡并行效率下降，预算充足时可以考虑1-2张PCIe版A100，更多的话不建议。正常情况下使用消费级显卡也可基本满足需求。但是由于消费级显卡除3090外均失去NVLink加持，并且程序本身设计的原因，不建议多卡并行一个任务

3) 综合来看速度排序如下
纯CPU计算时：Gromacs>NAMD>Amber
使用GPU，但是GPU较差时(小于等于8块GPU)，此时Amber会超越NAMD并最终追平Gromacs：Gromacs>Amber>NAMD
随着硬件的进一步提升，使用更多的节点更多的GPU并行时Amber和NAMD会陆续超越Gromacs：Amber>NAMD>Gromacs

4) 社长的购机配置推荐中GPU加速动力学部分可以分不同情况讨论了，对于Amber和NAMD来说，专业计算卡(原TESLA产品线)性价比并不明显低于消费级GPU，并且可以给上限带来相当大的提升。即使对于Gromacs来说，1-2张A40/A6000仍然有一定价值，在NVLink加持下可以有效的加速大体系MD，只是性价比低于前一种情况不少。此外，相关测试也表明了专业计算卡在QE的加速上也颇具性价比，大量使用QE进行第一性原理计算的也可以根据预算宽裕程度纳入考虑

5) Amber的CPU版本极度拉跨，几乎没有使用价值，作为生产力使用(而不只是作为力场参数生成器的话)一定要申请/购买GPU版本

6) 对于一般没有手握大把超算资源或者大量GPU节点的，甚至在贫困线挣扎的课题组，Gromacs的速度仍然有优势，但是要对并行模式和相关参数进行充分优化。Gromacs软件对于一般性研究也基本满足需求，而更高算力要求的诸如TI等本来也不在考虑范围之内

7) 而对于富的流油的组，无论是出于高效利用硬件资源还是产生与经费相称的更加深入更加可靠的结果的考虑，掌握功能更全面并行效率更高的Amber或者NAMD都是非常有必要的，当然学习资源本身确实性对缺少，不过在这样的平台下学好这两个软件也远非难事

8) 该测试与Anton3原文上的排序有所出入，但并不影响以上结论的正确性，因为Anton3原文上的其他软件数据来自于零散文献而非系统性测试，其可靠性并不如nVidia自己的系统性测试。但是仍然不可否认的是Desmond在Anton上速度数十倍于其他软件在通用硬件上的速度

9) 以上结论对于以凝聚相生物分子/小分子复合物等进行经典MD为主的情况有效。而对于需要使用Lammps/Gulp等进行材料模拟或通过以上软件进行QM/MM等复合模拟时，需要另作考虑

zhouoh · 发表于 Post on 2022-9-6 15:32:33

喵星大佬发表于 2021-12-23 17:47
终结此帖
信息来源1：https://developer.nvidia.com/hpc-application-performance

补充一下，使用3080Ti跑amber20的STMV-NPT，速度是37.3ns/day，还是比A40单卡快一些的。个人感觉A100性能如此突出的原因是用了HBM2e显存，带宽和延迟和消费级的GDDR6X不是一个级别的。A40虽然CUDA数量略多，但是显存被阉割成了GDDR6而非3090的GDDR6X，性能不及游戏卡也情有可原。

喵星大佬 · 发表于 Post on 2022-9-6 20:16:41

本帖最后由喵星大佬于 2022-9-6 20:17 编辑

zhouoh 发表于 2022-9-6 15:32
补充一下，使用3080Ti跑amber20的STMV-NPT，速度是37.3ns/day，还是比A40单卡快一些的。个人感觉A100性能 ...

我觉得主要就是这个问题，HBM2e比GDDR6/GDDR6X完全不是一个层次的玩意
不过前两天就有A100断供的消息，虽说后来又号称延期一年了，不过这玩意货源估计也没有那么稳定了

zhouoh · 发表于 Post on 2022-9-6 21:54:14

喵星大佬发表于 2022-9-6 20:16
我觉得主要就是这个问题，HBM2e比GDDR6/GDDR6X完全不是一个层次的玩意
不过前两天就有A100断供的消息， ...

是的，30系理论上比20系FP32翻了一倍，实际速度提升也就30-40%，感觉显存还是拖后腿了。

		自动登录 Automatic login	找回密码 Forget password
密码 Password			注册 Register

[综合交流] Amber,gromacs,namd,acemd3和desmond计算速度咨询

评分 Rate

评分 Rate

浏览过的版块