计算化学公社

 找回密码 Forget password
 注册 Register
Views: 6348|回复 Reply: 25
打印 Print 上一主题 Last thread 下一主题 Next thread

[硬件评测] A100还是4090? VASP的GPU性能测试及调优策略

[复制链接 Copy URL]

34

帖子

1

威望

751

eV
积分
805

Level 4 (黑子)

本帖最后由 二分音符 于 2024-8-9 00:03 编辑

A100还是4090? VASP的GPU性能测试及调优策略
0 前言
       之前读了熵增焓减对各种GPU平台MD性能的详细测试,受益良多。最近正好手上同时有些高性能集群的CPU、A100、4090资源,所以做一期第一性原理软件VASP在各平台的表现对比。做起来后才发现比预想的要复杂很多,欢迎各位讨论指正。

1 测试平台
       本文选用的硬件平台:


       本文目标是对比A100与4090的表现,CPU平台作为baseline参考。很遗憾无法保证CPU、内存频率以及软件版本的统一,这主要是由于集群选择有限以及编译软件权限限制,因此带来的误差请谅解。

2 测试体系
       本文选取了一大一小两种MOF材料的静态自洽计算(一步计算DOS)作为对比


       没有限制电子步长,只限制电子步能量收敛标准,但是最后跑出来的电子步数都是一样的(个别case会有41步和40步差别,可以忽略)。其中大体系用了单G点和2*2*2 K点,ISMEAR均为0,小体系K点为3*3*13,ISMEAR为-5。纯泛函的电子步收敛标准1e-5 eV,针对大体系单G点还做了杂化泛函HSE06计算,电子步收敛标准是1e-4 eV。由于只是为了对比硬件,所以都没有考虑自旋极化。详情见附件INCAR参数。

3 精度对比
       精度测试肯定是最重要的,长期来一直有观点认为单精度达不到第一性原理要求+众所周知的游戏卡不擅长双精度计算,所以很多人都优先选用A100等专业显卡来加速VASP计算。这里对比纯CPU、游戏卡4090、专业显卡A100计算出的的能量以及DOS曲线。
       能量选取的OUTCAR最后输出的free energy (eV):


       以CPU为标准,A100和4090的误差都满足电子步收敛标准,也远超过了常用的1 meV/atom的要求,其中A100和4090之间更是几乎完全一样,只有杂环泛函结果在小数点后第八位有差别。
      
       大体系单G点的HSE06计算DOS对比:


       小体系高K点的纯泛函计算DOS对比:


       对比各平台的DOS结果,也是基本上一模一样,少许毛糙峰值有差别是正常现象,峰的位置只在E - E_fermi > 5 eV位置有小许差别,当然这部分本来也不是DFT擅长的区间。4090与A100的对比更是几乎完全重合(没有单独作图放一起)。
       综合自洽能量计算结果与DOS结果,可以放心认为4090平台完全能得到准确的能量与DOS结果.

4 速度对比
       先放结果,使用各个平台的最优方案,以CPU性能为100%,测试结果如下:


       cpu time(单位:s):

       :以上数据于2024.5.1经熵增焓减提示修改。
       由于各个平台收敛电子步数一样,所以取用离子步时间为标准,也就是OUTCAR中LOOP+ cpu time。
       可以得到以下结论:(1)大体系下,4卡GPU能达到450核CPU的水平,但是小体系高K点表现不足。(2)A100在大体系高K点和杂化泛函任务性能远超4090,其他体系差别不大。(3)GPU平台对于杂化泛函任务表现优异。(4)对于单G点体系,4卡并行的性能不到单卡的3倍,如果想节约卡时,显存也足够的话可以优先单卡计算。

5 调优策略
       首先声明,各个平台的软硬件配置都不同,所以自己计算时要先做自己的测试。以下经验只是笔者针对上述平台的调优经验,供参考。

       CPU平台的并行策略已经有大量工作整理了,只放结论。(1)单G点任务,应选择vasp_gam而非vasp_std, KPAR=1, NPAR=节点数 或者 节点数*2。(2)多K点任务,KPAR=2,NPAR=节点数*2 或者 节点数*4。(3)如果内存不足,降低KPAR或者提高NPAR。

       GPU平台只能NCORE=1,调优主要考虑的是KPAR、openmp以及vasp版本问题。

       对于多K点任务,KPAR对比结果如下:(单位:秒)


        所以在显存足够时,应该把KPAR设为GPU数。
       :以上数据于2024.5.1经熵增焓减提示增加。

       经过测试发现,多线程openmp在4090平台完全不影响结果,在A100平台甚至会让速度倒退,所以提交任务时有必要添加export OMP_NUM_THREADS=1。

       对于大体系单G点任务,vasp_std与vasp_gam结果如下:(单位:秒)
       纯泛函

       杂化泛函

       出乎意料的是,对于纯泛函任务,A100节点的vasp_gam表现不如vasp_std,笔者不明白原因,欢迎讨论。对于其他任务类型,应该优先选择vasp_gam。

6 总结
       CPU节点的性能优势在高K点小体系,高内存也可以支持超大体系(数千原子)。GPU在杂化泛函任务有明显优势,相比4090,A100的优势在大体系(100+原子)多K点以及更大的显存。
       至于价格,目前CPU节点的价格在500-1000元/核(450核也就是22万-45万元),4卡4090节点含CPU价格在约15万元,A100(80G)单卡就要约12-15万元。租用的话,CPU机时约0.06元/核时(450核约27元/时),4090的4卡节点约10元/时,A100(40G)的4卡节点约30元/时。
       选购时第一步是要确定自己的任务需要多大的内存/显存,如果都是100-200原子的任务,那么4090是性价比最高的选择。如果是大量小体系任务(原子数<50),且不用做杂化泛函计算,CPU集群也不错。A100集群适合经费十分充裕的课题组,各方面都用的舒服,4张40G的节点大约可以跑500原子体系(考虑自旋)。

7 利益相关
       这个测试是笔者主动做的,计算资源来自不同平台的试用资源,除此以外没有其他利益声明。


-----------------------------------
2024.5.3   应论坛私信请求,更新了附件,包括4个测试case的详细输入文件。
2024.5.4   补充了cpu time的原始数据,方便其他测试对比。



case.zip

19.07 KB, 下载次数 Times of downloads: 83

评分 Rate

参与人数
Participants 13
威望 +1 eV +44 收起 理由
Reason
zmjsce + 3 好物!
饭米粒 + 2 谢谢
Graphite + 5 精品内容
JJ_yoo + 4 赞!
neosalius + 5 牛!
AIchaosuan666 + 5 赞!
ioktjg + 3 谢谢分享
yoki_610 + 3 好物!
asdf + 1 谢谢
上善溺水 + 3
Weldingspock + 5 精品内容
sobereva + 1
Entropy.S.I + 5 赞!

查看全部评分 View all ratings

31

帖子

0

威望

371

eV
积分
402

Level 3 能力者

26#
发表于 Post on 2024-6-2 11:22:20 | 只看该作者 Only view this author
szp12345 发表于 2024-5-27 23:38
感谢楼主分享的测试数据。
有个小建议,能否说明三种测试平台上的VASP编译方。
我一直用的是P100卡,双精 ...

一张4090差不多相当于2张P100,,, 就是你发的那个案例,我这买了2个4090显卡,当然cpu我用的是14900k

85

帖子

0

威望

735

eV
积分
820

Level 4 (黑子)

25#
发表于 Post on 2024-5-30 20:29:20 | 只看该作者 Only view this author
二分音符 发表于 2024-5-30 18:09
我又测了下大体系多K点在两个节点(96核)的结果,938.9秒,八个节点(448核)是271.0秒,算下来效率是86 ...

非常感谢!看来您的集群的并联效率非常不错~

34

帖子

1

威望

751

eV
积分
805

Level 4 (黑子)

24#
 楼主 Author| 发表于 Post on 2024-5-30 18:09:40 | 只看该作者 Only view this author
喝杯热水 发表于 2024-5-30 12:36
对于您测试的纯泛函体系,是不是448核心有点太多了?会不会遇到并行瓶颈。

我又测了下大体系多K点在两个节点(96核)的结果,938.9秒,八个节点(448核)是271.0秒,算下来效率是86.6%

85

帖子

0

威望

735

eV
积分
820

Level 4 (黑子)

23#
发表于 Post on 2024-5-30 12:36:08 | 只看该作者 Only view this author
对于您测试的纯泛函体系,是不是448核心有点太多了?会不会遇到并行瓶颈。

34

帖子

1

威望

751

eV
积分
805

Level 4 (黑子)

22#
 楼主 Author| 发表于 Post on 2024-5-29 18:23:44 | 只看该作者 Only view this author
Entropy.S.I 发表于 2024-5-29 00:06
我也测试了HGX-A100-80G-8GPU平台和RTX-4090-8GPU平台,做好调优后测试结果普遍比你公布的数据高20%~40%

非常期待,我的projec快开始了,希望能用到最优的结果

846

帖子

16

威望

4632

eV
积分
5798

Level 6 (一方通行)

小屁孩

21#
发表于 Post on 2024-5-29 00:06:41 | 只看该作者 Only view this author
二分音符 发表于 2024-5-28 15:37
其实最大的差异是A100平台用的国产arm架构CPU,所以也配上了国产编译器,其他的各种编译方法也对比过,差 ...

我也测试了HGX-A100-80G-8GPU平台和RTX-4090-8GPU平台,做好调优后测试结果普遍比你公布的数据高20%~40%
- 向着虚无前进 -

846

帖子

16

威望

4632

eV
积分
5798

Level 6 (一方通行)

小屁孩

20#
发表于 Post on 2024-5-29 00:02:29 | 只看该作者 Only view this author
本帖最后由 Entropy.S.I 于 2024-5-29 02:14 编辑
szp12345 发表于 2024-5-27 23:38
感谢楼主分享的测试数据。
有个小建议,能否说明三种测试平台上的VASP编译方。
我一直用的是P100卡,双精 ...

根据我的广泛benchmark,4090在任何VASP case中都强于P100,在一些case中差距达到100%以上。目前我的benchmark已经积累了超过550条有效数据,涉及4款软件、21个case、11套硬件平台,预计会在合适的时机公开发布
- 向着虚无前进 -

34

帖子

1

威望

751

eV
积分
805

Level 4 (黑子)

19#
 楼主 Author| 发表于 Post on 2024-5-28 15:37:31 | 只看该作者 Only view this author
szp12345 发表于 2024-5-27 23:38
感谢楼主分享的测试数据。
有个小建议,能否说明三种测试平台上的VASP编译方。
我一直用的是P100卡,双精 ...

其实最大的差异是A100平台用的国产arm架构CPU,所以也配上了国产编译器,其他的各种编译方法也对比过,差别不大,所以没放了。
如果是因此造成的瓶颈,在其他平台上A100如果有4090两倍的性能也是很可能的。但即使如此性价比上也没什么优势。

67

帖子

0

威望

1085

eV
积分
1152

Level 4 (黑子)

18#
发表于 Post on 2024-5-27 23:38:11 | 只看该作者 Only view this author
本帖最后由 szp12345 于 2024-5-28 00:13 编辑

感谢楼主分享的测试数据。
有个小建议,能否说明三种测试平台上的VASP编译方。
我一直用的是P100卡,双精度比较强,按我的经验4卡P100完全可以怼4卡4090,1张A100约等于2张P100,这个数据只是跑VASP而言。
按这样对比看,四卡A100对四卡4090应该是压倒性优势。

328

帖子

0

威望

1916

eV
积分
2244

Level 5 (御坂)

17#
发表于 Post on 2024-5-26 07:15:42 | 只看该作者 Only view this author
chrinide 发表于 2024-5-17 18:45
的確如此。
提下Wien2K主要是吐槽下VASP的現狀,着實现在看着不順眼。

前后处理工具的易用性和有效性。这个没啥问题。

功能扩展性也很重要。

相比这3点,VASP确实有优势。

339

帖子

0

威望

4997

eV
积分
5336

Level 6 (一方通行)

16#
发表于 Post on 2024-5-17 18:45:57 | 只看该作者 Only view this author
sobereva 发表于 2024-5-16 19:57
哪怕只收费1元,而且不是像淘宝买东西那样秒支付,都会严重阻碍程序的流行
AMBER之前基本是象征性的收费 ...

的確如此。
提下Wien2K主要是吐槽下VASP的現狀,着實现在看着不順眼。

所以量化/第一性原理軟件免費/開源是大勢,至少也得免費在前,否則只能很快孤獨地死去,GITHUB上已经有好多孤独死去的量化code, Gaussian的策略非常正确,没有搞License模塊,下載即用,對盜版放任自流,只是發表文章得有版權,定價策略也算成功,當然Gausian最成功的地方還是代碼效率。其實VASP的策略也是和Gaussian一样,對盜版也是放任自流,這也是VASP流行起来的一个主要原因,当然最主要的原因还是它很早就有一个质量还不错的全周期表的PP/PAW势库。PAW祖师Peter Blöchl搞的CP-PAW去年也免費開源了,PAW势库也是全周期表的,质量也是相当高的,但是开源的时机已经是非常晚了,加上手册写的非常烂,例子又少,结局非常不乐观。

5万

帖子

99

威望

5万

eV
积分
112349

管理员

公社社长

15#
发表于 Post on 2024-5-16 19:57:03 | 只看该作者 Only view this author
chrinide 发表于 2024-5-16 17:54
VASP组的行为越来越不像一个学术组,隔壁Wien2K组就完全跟VASP是天壤之别,从一开始到现在一直就是学术40 ...

哪怕只收费1元,而且不是像淘宝买东西那样秒支付,都会严重阻碍程序的流行
AMBER之前基本是象征性的收费,现在干脆直接免费下载了,甚至都不用注册。与其赚鸡毛蒜皮的钱,倒不如免费公开,早点让程序流行起来、发挥应有的价值,倒时候还能赚很多引用,更容易申请经费,实际收益大得多。

一个程序如果没有较多的用户刚性需求,又是收费的,基本不太可能从0开始流行起来。
北京科音自然科学研究中心http://www.keinsci.com)致力于计算化学的发展和传播,长期开办高质量的各种计算化学类培训:初级量子化学培训班中级量子化学培训班高级量子化学培训班量子化学波函数分析与Multiwfn程序培训班分子动力学与GROMACS培训班CP2K第一性原理计算培训班,内容介绍以及往届资料购买请点击相应链接查看。这些培训是计算化学从零快速入门以及进一步全面系统性提升研究水平的高速路!培训各种常见问题见《北京科音办的培训班FAQ》
欢迎加入“北京科音”微信公众号获取北京科音培训的最新消息、避免错过网上有价值的计算化学文章!
欢迎加入人气非常高、专业性特别强的综合性理论与计算化学交流QQ群“思想家公社QQ群”:1号:18616395,2号:466017436,3号:764390338,搜索群号能搜到哪个说明目前哪个能加,合计9000人。北京科音培训班的学员在群中可申请VIP头衔,提问将得到群主Sobereva的最优先解答。
思想家公社的门口Blog:http://sobereva.com(发布大量原创计算化学相关博文)
Multiwfn主页:http://sobereva.com/multiwfn(十分强大的量子化学波函数分析程序)
ResearchGate:https://www.researchgate.net/profile/Tian_Lu
Money and papers are rubbish, get a real life!

339

帖子

0

威望

4997

eV
积分
5336

Level 6 (一方通行)

14#
发表于 Post on 2024-5-16 17:54:27 来自手机 | 只看该作者 Only view this author
二分音符 发表于 2024-5-16 14:02
感谢社长,我已对帖子做相应修改。

我翻阅了和代理商签订的合同、VASP官方的email、VASP PORTAL、以及 ...

VASP组的行为越来越不像一个学术组,隔壁Wien2K组就完全跟VASP是天壤之别,从一开始到现在一直就是学术400欧,真是便宜。速度不比VASP差多少,而且还是更精确FPLAPW,而且还有官方的GUI,还是蛮好用的。只可惜不知道为啥,在天朝学术流行度越来越低。这次论坛的投票可见一斑,其实现在FPLAPW一点也不慢了,双路9654算个300-500原子晶胞也没啥问题……

34

帖子

1

威望

751

eV
积分
805

Level 4 (黑子)

13#
 楼主 Author| 发表于 Post on 2024-5-16 14:02:21 | 只看该作者 Only view this author
sobereva 发表于 2024-5-16 02:02
我认为这样的帖子是有益于广大研究者的,作为论坛管理员,我是很支持发表这样帖子的。倘若测试有什么不合 ...

感谢社长,我已对帖子做相应修改。

我翻阅了和代理商签订的合同、VASP官方的email、VASP PORTAL、以及网上能检索到的资料,只找到了这个Terms of Use,不确定是不是官方所说的License Agreement。从中没有找到任何关于benchmark的限制条款。如果可能,希望有人能给予法律方面的支持,或者帮忙提供License Agreement的细节资料。

为了避免不必要的麻烦,还是对帖子做了相应修改。

之前其实也参加过社长的CP2K培训班,但是出于惯性还是继续用的VASP,这次经历让我坚定改用CP2K等其他第一性原理软件了。

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 03:46 , Processed in 0.271667 second(s), 27 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list