计算化学公社

 找回密码 Forget password
 注册 Register
Views: 3127|回复 Reply: 9
打印 Print 上一主题 Last thread 下一主题 Next thread

[VASP] VASP在EPYC 7543和Platinum 8358上的测试对比和编译优化

[复制链接 Copy URL]

279

帖子

2

威望

4423

eV
积分
4742

Level 6 (一方通行)

打脸只许打一次

跳转到指定楼层 Go to specific reply
楼主
本帖最后由 wypkdhd 于 2023-4-26 18:25 编辑

前言


      本测试基于dell R750平台的两种配置,EPYC 7543或者Platinum 8358处理器,内存为32x8=256G,硬盘采用两块480g sata固态组的raid0和三块1.2T SAS组的raid5。vasp版本为5.4.4,编译方式参考个人之前的方式http://bbs.keinsci.com/thread-16082-1-1.html记为方式1关键词为OFLAG      = -O2 -xHOST)测试任务使用sob老师的50个Hg原子http://bbs.keinsci.com/thread-11812-1-1.html和NiO表面H2模型。AMD的export参数参考“AMD EPYC-7742(ZEN2)计算性能调优”(地址具体请根据标题自行baidu,其中vasp编译方式记为方式2关键词为OFLAG      = -O2 -xcore-avx2),链接中三行export,“export MKL_DEBUG_CPU_TYPE=5 #加速代码;export MKL_CBWR=AVX2 #使cpu默认支持avx2;export I_MPI_PIN_DOMAIN=numa #内存位置与cpu位置绑定,加速内存读取。”对于内存带宽要求高的计算提速明”分别记为第一行,第二行和第三行
方式1和方式2的编译环境均为方式1中提到的intel2019和2015mpi测试采用grep "LOOP:  cpu time" OUTCAR 获取电子步的时间。
1. AMD EPYC 7543的编译方式对比,基于“50个Hg原子的标准测试任务”


                                方式1                                
        4核              8核           16核           32核               48核         64核     8核加+第一行   8核加+第一二行
1        3.0969        1.6062        0.8916        0.5692        0.5379        0.5289        1.0992        1.0691
2        3.1413        1.6205        0.9042        0.5469        0.5278        0.5061        1.0746        1.0729
3        3.1925        1.6463        0.9164        0.5623        0.5393        0.5606        1.088        1.0871
4        3.143        1.6198        0.8898        0.5608          0.5337        0.5342        1.0741        1.0725
5        3.164        1.6277        0.8967        0.5506          0.531        0.5529        1.0799        1.075
6        3.1372        1.6125        0.8936        0.5661        0.5321        0.4688        1.0709        1.0645
7        2.2017        1.1422        0.6317        0.3883        0.3735        0.399        0.7608        0.7534
8        2.127        1.1055        0.6162        0.3742         0.3782        0.3577        0.7349        0.7299
9        2.0963        1.0946        0.6115        0.3765        0.3564        0.3596        0.7211        0.7236
10        2.0164        1.0526        0.5876        0.36           0.3587        0.3694        0.696        0.6925
11        2.0189        1.0526        0.5874        0.3541        0.3545        0.3608        0.6957        0.6925
12        2.0374        1.0619        0.5866        0.3625        0.3628        0.3673        0.7072        0.701
13        3.1946        1.6501        0.9102        0.5803        0.5633        0.5673        1.1104        1.1027
14        3.1648        1.6307        0.9123        0.5691        0.5565        0.5658        1.1058        1.0962
15        3.1368        1.6284        0.9102        0.5672        0.5663        0.5717        1.1009        1.0848
16        3.2423        1.6707        0.9317        0.579        0.5589        0.5664        1.1195        1.1186
17        3.1634        1.6436        0.908        0.5644        0.5569        0.5582        1.096        1.0931
18        2.6394        1.3776        0.7628        0.4728        0.4813        0.4821        0.9299        0.9132
平均  2.7730          1.4358     0.7971            0.4947     0.4816      0.4820     0.9592         0.9524

                                方式2 默认三行都加                               
        4核             8核          16核              32核          48核          64核      8核加+第一二行    8核不加+第一二三行
1        3.4957        2.0352        1.1346        0.7365        0.7238        0.7038        2.0243        2.0528
2        3.5391        2.072        1.14                0.7294        0.738        0.7022        2.0525        2.0795
3        3.5986        2.1009        1.1542        0.742        0.7414        0.7431        2.0847        2.1111
4        3.5362        2.0717        1.1351        0.746        0.7334        0.7176        2.0496        2.0702
5        3.566        2.0867        1.1419        0.7384        0.7047        0.7479        2.0608        2.0841
6        3.5388        2.0752        1.1344        0.7029        0.5055        0.6447        2.0469        2.073
7        2.461        1.4506        0.8025        0.5068        0.4935        0.5533        1.43              1.4536
8        2.3737        1.3972        0.7699        0.4976        0.4943        0.4976        1.3802        1.3967
9        2.3453        1.3751        0.7674        0.4971        0.4711        0.4967        1.3716        1.3827
10        2.2567        1.3267        0.7334        0.4779        0.4693        0.4982        1.3236        1.3316
11        2.2613        1.3243        0.7345        0.4726        0.4809        0.4964        1.3195        1.3284
12        2.2919        1.3481        0.7414        0.488        0.7618        0.5098        1.342        1.3505
13        3.6252        2.1305        1.1615        0.7589        0.7451        0.7512        2.1218        2.128
14        3.5961        2.1081        1.1493        0.7451        0.7456        0.7469        2.1089        2.1092
15        3.5642        2.086        1.1386        0.7455        0.7711        0.7462        2.0878        2.0899
16        3.6848        2.1557        1.1767        0.767        0.7443        0.7453        2.1584        2.1602
17        3.5931        2.0974        1.149        0.7433        0.6224        0.746        2.1099        2.1058
平均  3.1369          1.8377       1.0097      0.6526       0.6439     0.6498     1.8278         1.8416

结果总结如下:
EPYC 7543处理器采用方式1编译比采用二方式编译在50个汞原子体系速度要快,且加入第一行和第二行export后速度增加。

2. EPYC 7543和Platinum 8358对比,基于“NiO测试任务”




底部两层固定,INCAR和KPOINTS如下
INCAR (2.54 KB, 下载次数 Times of downloads: 11) KPOINTS (89 Bytes, 下载次数 Times of downloads: 3)

        8358        50Hg                                                  NiO        
        8核        8核+第一行        16核8358        16核8358+第一行 16核7543+第一二行        
1        1.7334        1.6945                9.8816        10.8406        8.466        
2        1.3086        1.2902                10.0496        11.1449        8.6698        
3        1.3214        1.1933                10.2593        12.0781        9.387        
4        1.2982        1.1681                9.4404        11.2257        8.7286        
5        1.3125        1.1827                10.2135        12.1297        9.5333        
6        1.2985        1.1672                6.616        7.3381        5.7923        
7        0.9049        0.8136                6.5039        7.4023        5.8216        
8        0.8731        0.784                6.3449        7.4221        5.8083        
9        0.8624        0.7748                6.2535        7.3111        5.7631        
10        0.8343        0.746                6.2861        7.3509        5.7784        
11        0.8307        0.7509                6.291        7.9475        5.7806        
12        0.8385        0.7567                6.3007        7.3541        5.7922        
13        1.3342        1.1983                6.2444        7.2882        5.7653        
14        1.322        1.1902                6.3101        7.3734        5.8142        
15        1.3118        1.1791                6.2913        7.3395        5.8137        
16        1.3549        1.2173                6.3104        7.3743        5.8112        
17        1.3269        1.1878                6.3046        8.1413        5.8009        
18        1.1120         0.9927                 6.3126        7.4016         5.7999         
平均        1.1766         1.0715             6.3552        7.4519        5.8137        
                                                       7.2931     8.5219    6.6284         

结果总结如下:
Platinum 8358处理器上采用方式1编译,50Hg增加第一行提升,在NiO上有副作用,最后决定不加。
EPYC 7543相比于Platinum 8358在NiO体系中明显快。


总结



就目前而言,采用intel2019以及intel oneAPI在AMD平台上编译vasp具有可行性,按照和intel平台一样的编译方式,随后在bashrc里面加入export参数export MKL_DEBUG_CPU_TYPE=5 和export MKL_CBWR=AVX2即可。


PS:在先前二者的测试中(微型计算机2021)已经提到,“在32核心产品的较量中,EPYC 7543的SPECint 2017 Base Rate性能比英特尔至强铂金8358高15%,并比英特尔至强铂金8352Y高25%。同样采用32核心设计,AMD EPYC 7543的每千片价格也低于英特尔至强铂金8358。”这在dell服务器的购买价格(我们这边的购买时间为2023.1)体现上就是便宜了一万多rmb。
随后,对于第四代AMD EPYC(微型计算机2022)提到,“EPYC 9554与EPYC 7763在双路配置性能上的对比。测试成绩显示尽管两款双路系统的核心数、线程数都为128核心、256线程配置,但使用新架构、DDR5内存,工作频率也更高的EPYC 9554在测试成绩上有非常显著的提升,其浮点运算性能较上一代产品提升了高达90.2%,整数运算性能也提升了多达62.2%。同时更为惊人的是,即便核心、线程数更少的EPYC 9374F双路系统(64核心、128线程)也战胜了核心、线程数翻倍的AMD EPYC 7763双路系统。”


我是很期待zen4价钱赶快降下来,能让我去买上古8175了。但是,如果价钱合适,我还是想买7T83。












评分 Rate

参与人数
Participants 2
威望 +1 eV +5 收起 理由
Reason
WVzzz + 5 好物!
sobereva + 1

查看全部评分 View all ratings

1236

帖子

1

威望

3495

eV
积分
4751

Level 6 (一方通行)

2#
发表于 Post on 2023-4-26 19:38:27 | 只看该作者 Only view this author
本帖最后由 biogon 于 2023-4-26 19:40 编辑

用AOCC+AOCL应该会更快,epyc硬件可能还能再调一下

279

帖子

2

威望

4423

eV
积分
4742

Level 6 (一方通行)

打脸只许打一次

3#
 楼主 Author| 发表于 Post on 2023-4-26 19:47:22 | 只看该作者 Only view this author
biogon 发表于 2023-4-26 19:38
用AOCC+AOCL应该会更快,epyc硬件可能还能再调一下

这两个我在知乎上好像看到过,amd官网好像也有,但是我不会。。。

1236

帖子

1

威望

3495

eV
积分
4751

Level 6 (一方通行)

4#
发表于 Post on 2023-4-26 19:58:25 | 只看该作者 Only view this author
wypkdhd 发表于 2023-4-26 19:47
这两个我在知乎上好像看到过,amd官网好像也有,但是我不会。。。

vasp6就用附件的就可以编,装了aocl aocc以后改成自己的路径就行

makefile.include

2.51 KB, 阅读权限: 40, 下载次数 Times of downloads: 18

2301

帖子

1

威望

5475

eV
积分
7796

Level 6 (一方通行)

5#
发表于 Post on 2023-4-26 20:02:20 | 只看该作者 Only view this author
在AMD官方,
查找 VASP AOCC
里面有完整的编译指导。

自动化编译,需要网络支持。
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

279

帖子

2

威望

4423

eV
积分
4742

Level 6 (一方通行)

打脸只许打一次

6#
 楼主 Author| 发表于 Post on 2023-4-26 21:15:26 | 只看该作者 Only view this author
biogon 发表于 2023-4-26 19:58
vasp6就用附件的就可以编,装了aocl aocc以后改成自己的路径就行

收到,我mark一下。

279

帖子

2

威望

4423

eV
积分
4742

Level 6 (一方通行)

打脸只许打一次

7#
 楼主 Author| 发表于 Post on 2023-4-26 21:15:39 | 只看该作者 Only view this author
abin 发表于 2023-4-26 20:02
在AMD官方,
查找 VASP AOCC
里面有完整的编译指导。

收到,我mark一下。

1

帖子

0

威望

519

eV
积分
520

Level 4 (黑子)

8#
发表于 Post on 2023-6-12 13:42:59 | 只看该作者 Only view this author
买了7R32的双路,最近编译VASP也遇到问题,来学习学习

250

帖子

3

威望

1818

eV
积分
2128

Level 5 (御坂)

9#
发表于 Post on 2024-4-10 10:58:07 | 只看该作者 Only view this author
请问下老师,在AMD机器上编译VASP时,把“OFLAG      = -O2 -xcore-avx2”改成“OFLAG      = -O3 -xcore-avx2”对计算速度提升有帮助吗?

279

帖子

2

威望

4423

eV
积分
4742

Level 6 (一方通行)

打脸只许打一次

10#
 楼主 Author| 发表于 Post on 2024-4-25 15:42:29 | 只看该作者 Only view this author
wangyueda 发表于 2024-4-10 10:58
请问下老师,在AMD机器上编译VASP时,把“OFLAG      = -O2 -xcore-avx2”改成“OFLAG      = -O3 -xcore-a ...

O2变O3确实会快,快的极其有限,我毕业前测试过,一般体系(150原子左右)实际也就是百分之5%以下。

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-24 22:07 , Processed in 0.380543 second(s), 30 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list