本帖最后由 wypkdhd 于 2023-4-26 18:25 编辑
前言
本测试基于dell R750平台的两种配置,EPYC 7543或者Platinum 8358处理器,内存为32x8=256G,硬盘采用两块480g sata固态组的raid0和三块1.2T SAS组的raid5。vasp版本为5.4.4,编译方式参考个人之前的方式http://bbs.keinsci.com/thread-16082-1-1.html(记为方式1关键词为OFLAG = -O2 -xHOST)测试任务使用sob老师的50个Hg原子http://bbs.keinsci.com/thread-11812-1-1.html和NiO表面H2模型。AMD的export参数参考“AMD EPYC-7742(ZEN2)计算性能调优”(地址具体请根据标题自行baidu,其中vasp编译方式记为方式2关键词为OFLAG = -O2 -xcore-avx2),链接中三行export,“export MKL_DEBUG_CPU_TYPE=5 #加速代码;export MKL_CBWR=AVX2 #使cpu默认支持avx2;export I_MPI_PIN_DOMAIN=numa #内存位置与cpu位置绑定,加速内存读取。”对于内存带宽要求高的计算提速明”分别记为第一行,第二行和第三行。
方式1和方式2的编译环境均为方式1中提到的intel2019和2015mpi。测试采用grep "LOOP: cpu time" OUTCAR 获取电子步的时间。
1. AMD EPYC 7543的编译方式对比,基于“50个Hg原子的标准测试任务”
方式1
4核 8核 16核 32核 48核 64核 8核加+第一行 8核加+第一二行
1 3.0969 1.6062 0.8916 0.5692 0.5379 0.5289 1.0992 1.0691
2 3.1413 1.6205 0.9042 0.5469 0.5278 0.5061 1.0746 1.0729
3 3.1925 1.6463 0.9164 0.5623 0.5393 0.5606 1.088 1.0871
4 3.143 1.6198 0.8898 0.5608 0.5337 0.5342 1.0741 1.0725
5 3.164 1.6277 0.8967 0.5506 0.531 0.5529 1.0799 1.075
6 3.1372 1.6125 0.8936 0.5661 0.5321 0.4688 1.0709 1.0645
7 2.2017 1.1422 0.6317 0.3883 0.3735 0.399 0.7608 0.7534
8 2.127 1.1055 0.6162 0.3742 0.3782 0.3577 0.7349 0.7299
9 2.0963 1.0946 0.6115 0.3765 0.3564 0.3596 0.7211 0.7236
10 2.0164 1.0526 0.5876 0.36 0.3587 0.3694 0.696 0.6925
11 2.0189 1.0526 0.5874 0.3541 0.3545 0.3608 0.6957 0.6925
12 2.0374 1.0619 0.5866 0.3625 0.3628 0.3673 0.7072 0.701
13 3.1946 1.6501 0.9102 0.5803 0.5633 0.5673 1.1104 1.1027
14 3.1648 1.6307 0.9123 0.5691 0.5565 0.5658 1.1058 1.0962
15 3.1368 1.6284 0.9102 0.5672 0.5663 0.5717 1.1009 1.0848
16 3.2423 1.6707 0.9317 0.579 0.5589 0.5664 1.1195 1.1186
17 3.1634 1.6436 0.908 0.5644 0.5569 0.5582 1.096 1.0931
18 2.6394 1.3776 0.7628 0.4728 0.4813 0.4821 0.9299 0.9132
平均 2.7730 1.4358 0.7971 0.4947 0.4816 0.4820 0.9592 0.9524
方式2 默认三行都加
4核 8核 16核 32核 48核 64核 8核加+第一二行 8核不加+第一二三行
1 3.4957 2.0352 1.1346 0.7365 0.7238 0.7038 2.0243 2.0528
2 3.5391 2.072 1.14 0.7294 0.738 0.7022 2.0525 2.0795
3 3.5986 2.1009 1.1542 0.742 0.7414 0.7431 2.0847 2.1111
4 3.5362 2.0717 1.1351 0.746 0.7334 0.7176 2.0496 2.0702
5 3.566 2.0867 1.1419 0.7384 0.7047 0.7479 2.0608 2.0841
6 3.5388 2.0752 1.1344 0.7029 0.5055 0.6447 2.0469 2.073
7 2.461 1.4506 0.8025 0.5068 0.4935 0.5533 1.43 1.4536
8 2.3737 1.3972 0.7699 0.4976 0.4943 0.4976 1.3802 1.3967
9 2.3453 1.3751 0.7674 0.4971 0.4711 0.4967 1.3716 1.3827
10 2.2567 1.3267 0.7334 0.4779 0.4693 0.4982 1.3236 1.3316
11 2.2613 1.3243 0.7345 0.4726 0.4809 0.4964 1.3195 1.3284
12 2.2919 1.3481 0.7414 0.488 0.7618 0.5098 1.342 1.3505
13 3.6252 2.1305 1.1615 0.7589 0.7451 0.7512 2.1218 2.128
14 3.5961 2.1081 1.1493 0.7451 0.7456 0.7469 2.1089 2.1092
15 3.5642 2.086 1.1386 0.7455 0.7711 0.7462 2.0878 2.0899
16 3.6848 2.1557 1.1767 0.767 0.7443 0.7453 2.1584 2.1602
17 3.5931 2.0974 1.149 0.7433 0.6224 0.746 2.1099 2.1058
平均 3.1369 1.8377 1.0097 0.6526 0.6439 0.6498 1.8278 1.8416
结果总结如下:
EPYC 7543处理器采用方式1编译比采用二方式编译在50个汞原子体系速度要快,且加入第一行和第二行export后速度增加。
2. EPYC 7543和Platinum 8358对比,基于“NiO测试任务”
底部两层固定,INCAR和KPOINTS如下
INCAR
(2.54 KB, 下载次数 Times of downloads: 11)
KPOINTS
(89 Bytes, 下载次数 Times of downloads: 3)
8358 50Hg NiO
8核 8核+第一行 16核8358 16核8358+第一行 16核7543+第一二行
1 1.7334 1.6945 9.8816 10.8406 8.466
2 1.3086 1.2902 10.0496 11.1449 8.6698
3 1.3214 1.1933 10.2593 12.0781 9.387
4 1.2982 1.1681 9.4404 11.2257 8.7286
5 1.3125 1.1827 10.2135 12.1297 9.5333
6 1.2985 1.1672 6.616 7.3381 5.7923
7 0.9049 0.8136 6.5039 7.4023 5.8216
8 0.8731 0.784 6.3449 7.4221 5.8083
9 0.8624 0.7748 6.2535 7.3111 5.7631
10 0.8343 0.746 6.2861 7.3509 5.7784
11 0.8307 0.7509 6.291 7.9475 5.7806
12 0.8385 0.7567 6.3007 7.3541 5.7922
13 1.3342 1.1983 6.2444 7.2882 5.7653
14 1.322 1.1902 6.3101 7.3734 5.8142
15 1.3118 1.1791 6.2913 7.3395 5.8137
16 1.3549 1.2173 6.3104 7.3743 5.8112
17 1.3269 1.1878 6.3046 8.1413 5.8009
18 1.1120 0.9927 6.3126 7.4016 5.7999
平均 1.1766 1.0715 6.3552 7.4519 5.8137
7.2931 8.5219 6.6284
结果总结如下:
Platinum 8358处理器上采用方式1编译,50Hg增加第一行提升,在NiO上有副作用,最后决定不加。
EPYC 7543相比于Platinum 8358在NiO体系中明显快。
总结
就目前而言,采用intel2019以及intel oneAPI在AMD平台上编译vasp具有可行性,按照和intel平台一样的编译方式,随后在bashrc里面加入export参数export MKL_DEBUG_CPU_TYPE=5 和export MKL_CBWR=AVX2即可。
PS:在先前二者的测试中(微型计算机2021)已经提到,“在32核心产品的较量中,EPYC 7543的SPECint 2017 Base Rate性能比英特尔至强铂金8358高15%,并比英特尔至强铂金8352Y高25%。同样采用32核心设计,AMD EPYC 7543的每千片价格也低于英特尔至强铂金8358。”这在dell服务器的购买价格(我们这边的购买时间为2023.1)体现上就是便宜了一万多rmb。
随后,对于第四代AMD EPYC(微型计算机2022)提到,“EPYC 9554与EPYC 7763在双路配置性能上的对比。测试成绩显示尽管两款双路系统的核心数、线程数都为128核心、256线程配置,但使用新架构、DDR5内存,工作频率也更高的EPYC 9554在测试成绩上有非常显著的提升,其浮点运算性能较上一代产品提升了高达90.2%,整数运算性能也提升了多达62.2%。同时更为惊人的是,即便核心、线程数更少的EPYC 9374F双路系统(64核心、128线程)也战胜了核心、线程数翻倍的AMD EPYC 7763双路系统。”
我是很期待zen4价钱赶快降下来,能让我去买上古8175了。但是,如果价钱合适,我还是想买7T83。
|