计算化学公社

 找回密码 Forget password
 注册 Register
楼主 Author: 二分音符
打印 Print 上一主题 Last thread 下一主题 Next thread

[硬件评测] A100还是4090? VASP的GPU性能测试及调优策略

[复制链接 Copy URL]

339

帖子

0

威望

4997

eV
积分
5336

Level 6 (一方通行)

16#
发表于 Post on 2024-5-17 18:45:57 | 只看该作者 Only view this author
sobereva 发表于 2024-5-16 19:57
哪怕只收费1元,而且不是像淘宝买东西那样秒支付,都会严重阻碍程序的流行
AMBER之前基本是象征性的收费 ...

的確如此。
提下Wien2K主要是吐槽下VASP的現狀,着實现在看着不順眼。

所以量化/第一性原理軟件免費/開源是大勢,至少也得免費在前,否則只能很快孤獨地死去,GITHUB上已经有好多孤独死去的量化code, Gaussian的策略非常正确,没有搞License模塊,下載即用,對盜版放任自流,只是發表文章得有版權,定價策略也算成功,當然Gausian最成功的地方還是代碼效率。其實VASP的策略也是和Gaussian一样,對盜版也是放任自流,這也是VASP流行起来的一个主要原因,当然最主要的原因还是它很早就有一个质量还不错的全周期表的PP/PAW势库。PAW祖师Peter Blöchl搞的CP-PAW去年也免費開源了,PAW势库也是全周期表的,质量也是相当高的,但是开源的时机已经是非常晚了,加上手册写的非常烂,例子又少,结局非常不乐观。

328

帖子

0

威望

1916

eV
积分
2244

Level 5 (御坂)

17#
发表于 Post on 2024-5-26 07:15:42 | 只看该作者 Only view this author
chrinide 发表于 2024-5-17 18:45
的確如此。
提下Wien2K主要是吐槽下VASP的現狀,着實现在看着不順眼。

前后处理工具的易用性和有效性。这个没啥问题。

功能扩展性也很重要。

相比这3点,VASP确实有优势。

67

帖子

0

威望

1085

eV
积分
1152

Level 4 (黑子)

18#
发表于 Post on 2024-5-27 23:38:11 | 只看该作者 Only view this author
本帖最后由 szp12345 于 2024-5-28 00:13 编辑

感谢楼主分享的测试数据。
有个小建议,能否说明三种测试平台上的VASP编译方。
我一直用的是P100卡,双精度比较强,按我的经验4卡P100完全可以怼4卡4090,1张A100约等于2张P100,这个数据只是跑VASP而言。
按这样对比看,四卡A100对四卡4090应该是压倒性优势。

34

帖子

1

威望

751

eV
积分
805

Level 4 (黑子)

19#
 楼主 Author| 发表于 Post on 2024-5-28 15:37:31 | 只看该作者 Only view this author
szp12345 发表于 2024-5-27 23:38
感谢楼主分享的测试数据。
有个小建议,能否说明三种测试平台上的VASP编译方。
我一直用的是P100卡,双精 ...

其实最大的差异是A100平台用的国产arm架构CPU,所以也配上了国产编译器,其他的各种编译方法也对比过,差别不大,所以没放了。
如果是因此造成的瓶颈,在其他平台上A100如果有4090两倍的性能也是很可能的。但即使如此性价比上也没什么优势。

846

帖子

16

威望

4633

eV
积分
5799

Level 6 (一方通行)

小屁孩

20#
发表于 Post on 2024-5-29 00:02:29 | 只看该作者 Only view this author
本帖最后由 Entropy.S.I 于 2024-5-29 02:14 编辑
szp12345 发表于 2024-5-27 23:38
感谢楼主分享的测试数据。
有个小建议,能否说明三种测试平台上的VASP编译方。
我一直用的是P100卡,双精 ...

根据我的广泛benchmark,4090在任何VASP case中都强于P100,在一些case中差距达到100%以上。目前我的benchmark已经积累了超过550条有效数据,涉及4款软件、21个case、11套硬件平台,预计会在合适的时机公开发布
- 向着虚无前进 -

846

帖子

16

威望

4633

eV
积分
5799

Level 6 (一方通行)

小屁孩

21#
发表于 Post on 2024-5-29 00:06:41 | 只看该作者 Only view this author
二分音符 发表于 2024-5-28 15:37
其实最大的差异是A100平台用的国产arm架构CPU,所以也配上了国产编译器,其他的各种编译方法也对比过,差 ...

我也测试了HGX-A100-80G-8GPU平台和RTX-4090-8GPU平台,做好调优后测试结果普遍比你公布的数据高20%~40%
- 向着虚无前进 -

34

帖子

1

威望

751

eV
积分
805

Level 4 (黑子)

22#
 楼主 Author| 发表于 Post on 2024-5-29 18:23:44 | 只看该作者 Only view this author
Entropy.S.I 发表于 2024-5-29 00:06
我也测试了HGX-A100-80G-8GPU平台和RTX-4090-8GPU平台,做好调优后测试结果普遍比你公布的数据高20%~40%

非常期待,我的projec快开始了,希望能用到最优的结果

85

帖子

0

威望

735

eV
积分
820

Level 4 (黑子)

23#
发表于 Post on 2024-5-30 12:36:08 | 只看该作者 Only view this author
对于您测试的纯泛函体系,是不是448核心有点太多了?会不会遇到并行瓶颈。

34

帖子

1

威望

751

eV
积分
805

Level 4 (黑子)

24#
 楼主 Author| 发表于 Post on 2024-5-30 18:09:40 | 只看该作者 Only view this author
喝杯热水 发表于 2024-5-30 12:36
对于您测试的纯泛函体系,是不是448核心有点太多了?会不会遇到并行瓶颈。

我又测了下大体系多K点在两个节点(96核)的结果,938.9秒,八个节点(448核)是271.0秒,算下来效率是86.6%

85

帖子

0

威望

735

eV
积分
820

Level 4 (黑子)

25#
发表于 Post on 2024-5-30 20:29:20 | 只看该作者 Only view this author
二分音符 发表于 2024-5-30 18:09
我又测了下大体系多K点在两个节点(96核)的结果,938.9秒,八个节点(448核)是271.0秒,算下来效率是86 ...

非常感谢!看来您的集群的并联效率非常不错~

31

帖子

0

威望

371

eV
积分
402

Level 3 能力者

26#
发表于 Post on 2024-6-2 11:22:20 | 只看该作者 Only view this author
szp12345 发表于 2024-5-27 23:38
感谢楼主分享的测试数据。
有个小建议,能否说明三种测试平台上的VASP编译方。
我一直用的是P100卡,双精 ...

一张4090差不多相当于2张P100,,, 就是你发的那个案例,我这买了2个4090显卡,当然cpu我用的是14900k

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 08:41 , Processed in 0.163329 second(s), 22 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list