A100还是4090? VASP的GPU性能测试及调优策略

chrinide · 发表于 Post on 2024-5-17 18:45:57

sobereva 发表于 2024-5-16 19:57
哪怕只收费1元，而且不是像淘宝买东西那样秒支付，都会严重阻碍程序的流行
AMBER之前基本是象征性的收费 ...

的確如此。
提下Wien2K主要是吐槽下VASP的現狀，着實现在看着不順眼。

所以量化/第一性原理軟件免費/開源是大勢，至少也得免費在前，否則只能很快孤獨地死去，GITHUB上已经有好多孤独死去的量化code， Gaussian的策略非常正确，没有搞License模塊，下載即用，對盜版放任自流，只是發表文章得有版權，定價策略也算成功，當然Gausian最成功的地方還是代碼效率。其實VASP的策略也是和Gaussian一样，對盜版也是放任自流，這也是VASP流行起来的一个主要原因，当然最主要的原因还是它很早就有一个质量还不错的全周期表的PP/PAW势库。PAW祖师Peter Blöchl搞的CP-PAW去年也免費開源了，PAW势库也是全周期表的，质量也是相当高的，但是开源的时机已经是非常晚了，加上手册写的非常烂，例子又少，结局非常不乐观。

gog · 发表于 Post on 2024-5-26 07:15:42

chrinide 发表于 2024-5-17 18:45
的確如此。
提下Wien2K主要是吐槽下VASP的現狀，着實现在看着不順眼。

前后处理工具的易用性和有效性。这个没啥问题。

功能扩展性也很重要。

相比这3点，VASP确实有优势。

szp12345 · 发表于 Post on 2024-5-27 23:38:11

本帖最后由 szp12345 于 2024-5-28 00:13 编辑

感谢楼主分享的测试数据。
有个小建议，能否说明三种测试平台上的VASP编译方。
我一直用的是P100卡，双精度比较强，按我的经验4卡P100完全可以怼4卡4090，1张A100约等于2张P100，这个数据只是跑VASP而言。
按这样对比看，四卡A100对四卡4090应该是压倒性优势。

二分音符 · 发表于 Post on 2024-5-28 15:37:31

szp12345 发表于 2024-5-27 23:38
感谢楼主分享的测试数据。
有个小建议，能否说明三种测试平台上的VASP编译方。
我一直用的是P100卡，双精 ...

其实最大的差异是A100平台用的国产arm架构CPU，所以也配上了国产编译器，其他的各种编译方法也对比过，差别不大，所以没放了。
如果是因此造成的瓶颈，在其他平台上A100如果有4090两倍的性能也是很可能的。但即使如此性价比上也没什么优势。

Entropy.S.I · 发表于 Post on 2024-5-29 00:02:29

本帖最后由 Entropy.S.I 于 2024-5-29 02:14 编辑

szp12345 发表于 2024-5-27 23:38
感谢楼主分享的测试数据。
有个小建议，能否说明三种测试平台上的VASP编译方。
我一直用的是P100卡，双精 ...

根据我的广泛benchmark，4090在任何VASP case中都强于P100，在一些case中差距达到100%以上。目前我的benchmark已经积累了超过550条有效数据，涉及4款软件、21个case、11套硬件平台，预计会在合适的时机公开发布

Entropy.S.I · 发表于 Post on 2024-5-29 00:06:41

二分音符发表于 2024-5-28 15:37
其实最大的差异是A100平台用的国产arm架构CPU，所以也配上了国产编译器，其他的各种编译方法也对比过，差 ...

我也测试了HGX-A100-80G-8GPU平台和RTX-4090-8GPU平台，做好调优后测试结果普遍比你公布的数据高20%~40%

二分音符 · 发表于 Post on 2024-5-29 18:23:44

Entropy.S.I 发表于 2024-5-29 00:06
我也测试了HGX-A100-80G-8GPU平台和RTX-4090-8GPU平台，做好调优后测试结果普遍比你公布的数据高20%~40%

非常期待，我的projec快开始了，希望能用到最优的结果

喝杯热水 · 发表于 Post on 2024-5-30 12:36:08

对于您测试的纯泛函体系，是不是448核心有点太多了？会不会遇到并行瓶颈。

二分音符 · 发表于 Post on 2024-5-30 18:09:40

喝杯热水发表于 2024-5-30 12:36
对于您测试的纯泛函体系，是不是448核心有点太多了？会不会遇到并行瓶颈。

我又测了下大体系多K点在两个节点（96核）的结果，938.9秒，八个节点（448核）是271.0秒，算下来效率是86.6%

喝杯热水 · 发表于 Post on 2024-5-30 20:29:20

二分音符发表于 2024-5-30 18:09
我又测了下大体系多K点在两个节点（96核）的结果，938.9秒，八个节点（448核）是271.0秒，算下来效率是86 ...

非常感谢！看来您的集群的并联效率非常不错~

目前还不会计算 · 发表于 Post on 2024-6-2 11:22:20

szp12345 发表于 2024-5-27 23:38
感谢楼主分享的测试数据。
有个小建议，能否说明三种测试平台上的VASP编译方。
我一直用的是P100卡，双精 ...

一张4090差不多相当于2张P100,,, 就是你发的那个案例，我这买了2个4090显卡，当然cpu我用的是14900k

Songchi · 发表于 Post on 2025-5-15 10:53:29

二分音符发表于 2024-5-28 15:37
其实最大的差异是A100平台用的国产arm架构CPU，所以也配上了国产编译器，其他的各种编译方法也对比过，差 ...

我们之前用过基于arm的a100平台测试，这种平台算vasp的性能很烂，4卡a100甚至只能在极少数测试中能大幅度领先4卡v100，大多数测试结果只能说是在伯仲间。

二分音符 · 发表于 Post on 2025-5-20 11:27:10

Songchi 发表于 2025-5-15 10:53
我们之前用过基于arm的a100平台测试，这种平台算vasp的性能很烂，4卡a100甚至只能在极少数测试中能大幅度 ...

问下x86配A100能比arm配A100快多少呢？

		自动登录 Automatic login	找回密码 Forget password
密码 Password			注册 Register

[硬件评测] A100还是4090? VASP的GPU性能测试及调优策略