计算化学公社

 找回密码 Forget password
 注册 Register
Views: 12396|回复 Reply: 55
打印 Print 上一主题 Last thread 下一主题 Next thread

[硬件评测] AMD EPYC 9754 & 9654基准测试:量子化学和第一性原理计算程序

  [复制链接 Copy URL]

846

帖子

16

威望

4632

eV
积分
5798

Level 6 (一方通行)

小屁孩

本帖最后由 Entropy.S.I 于 2023-10-31 19:37 编辑

AMD EPYC 9754 & 9654基准测试:量子化学和第一性原理计算程序

Sep-2023 by ア熵增焓减ウ | yult-entropy@qq.com | entropylt@163.com

0 写在前面

应科技博主@极客湾Geekerwan 邀请,我给最新的AMD EPYC CPU做了一些基准测试。原本打算将相关分析做进视频里,但由于进度赶不上,视频中只放了“7950X指数”,分析部分写成了单独的图文发出来,写得比较通俗,因为考虑到会有很多吃瓜群众来看。

视频链接:256核512线程!史上最强CPU到底能做什么?

硬件:7950X和双路EPYC 9754平台同视频中所述;双路9654平台其他硬件同双路9754平台,由@楼下小黑bba 提供。

操作系统&软件版本:

  • Ubuntu 22.04.3 LTS, Linux 6.2.0-33-generic x86_64, GCC 11.4.0, NVIDIA GPU Driver 535.104.05
  • Gaussian 16 Rev C.02 AVX2 (官方二进制分发包)
  • ORCA 5.0.4 – OpenMPI 4.1.1 (官方预编译版本+自行编译的配套OpenMPI库)
  • CP2K 2023.2 – OpenMPI 4.1.5 – OpenBLAS 0.3.23 – CMake 3.26.3 – GCC 13.1.0 (./install_cp2k_toolchain.sh --with-intel=no --with-gcc=install --with-cmake=install --with-openmpi=install --with-sirius=no --with-quip=install --with-plumed=install)
  • CP2K 2023.2 GPU – OpenMPI 4.1.5 – CUDA Toolkit 12.2.2
  • VASP 6.4.2 – AOCC 4.1.0 – AOCL 4.1.0
  • VASP 6.4.2 GPU – NVIDIA HPC SDK 23.7

特别感谢@KiritsuguPapa 帮助测试VASP。


1 Gaussian & ORCA
1.1 介绍

使用Gaussian和ORCA来测试双路9754和双路9654的并行效率,顺便和7950X对比一下。

测试用的模型选用了可以在网络上找到大量对比数据的Test0397缬氨霉素,坐标文件就在Gaussian安装包里面。但是原版只是个普通的密度泛函(DFT)单点能量计算,并且计算级别太低了,不太适合今天的测试。把基组从3-21G调大成def2-TZVP,加个振动分析,针对ORCA再用上含时密度泛函(TDDFT)和DLPNO-CCSD(T)这两个ORCA的优势项目。这样我们得到了4个测试算例,应该能覆盖很多场景了。进一步考虑多任务的情况,把单点计算的基组改成比def2-TZVP小一些的def2-SVP,同时运行8个计算任务,每个任务32核(9754)或24核(9654),狠狠滴压榨。


1.2 测试结果

使用@ggdh 开发的Gaussian和ORCA并行效率测试脚本xbench3.0,测试双路9754和双路9654跑这几个算例的并行效率。

可以看到,单任务的并行效率都不太行,边际效应很明显,还出现了核用得越多跑得越慢的情况,其中双路9754性能很不理想。在多任务测试中,考虑了两种CPU内核分配策略,一种是大多数人会首先想到的按顺序分配,另一种是脚本默认的均匀分配。可以看到多任务的效率比单任务高得多,曲线很接近线性,其中按顺序分配的策略几乎完全线性,性能总和也达到了7950X的8-9倍,很接近理论值了。【10月31日补充】这里有必要提醒一下:并行效率测试中大部分都是“根据NUMA节点均匀分配CPU内核”,这种情况下双路机器的一半CPU核心性能并不等于单路机器。

值得一提的是,我们在测试中发现7950X+96GB内存的配置跑ORCA的DLPNO-CCSD(T)算例跑到半个小时左右的时候内存占用突然提高,然后就因为内存不足而报错退出了,这如果是正经科研的计算,估计科研人员要气晕了。最后把内存加到192GB总算是把测试跑下来了,但是加到192GB又会导致内存降频,而7950X的内存带宽瓶颈本来就严重,这对于其他不那么吃内存的测试来说得不偿失;哪怕是经验上内存越大越好的振动分析任务,再用192GB内存跑一遍,发现速度还是慢了20%。


2 CP2K & VASP
2.1 介绍

HPC和科学计算领域还有很多别的软件,比如著名的第一性原理计算软件——CP2K,它最大的优势是跑第一性原理分子动力学(AIMD)特别快,所以用官方benchmark包里的水盒子算例来测试,分别跑64个、256个、1024个水分子的盒子,每个盒子跑10步。考虑到1024水分子的AIMD压力可能还是不够,所以找了另一个压力奇大无比的算例——LiH-HFX。这个算例对机器的CPU性能、内存性能和内存容量都有很大的需求,是专门给超算做的,通常在超算上用成千上万核来跑,但这次我们用他来压榨双路9754和双路9654。

值得一提的是,像CP2K这样的MPI+OpenMP混合并行软件,需要针对不同的硬件配置做非常仔细的调优才能实现最大的性能。下图展示了经过调优后的并行参数。


VASP也是个著名的第一性原理计算软件。我们找来了英国超算用的benchmark算例,一个是二氧化钛晶体、纯泛函方法,另一个是碲化镉晶体、杂化泛函方法。其中纯泛函方法是VASP里最主流的计算方法;而坊间传闻,VASP的GPU版跑杂化泛函计算的加速比不错。

说到GPU,确实值得一测,就拿4090、RTX 6000 Ada,还有双精度超强的过气卡皇TITAN V来试试。

CP2K官方称CP2K的GPU版只支持A100、V100、MI250等计算卡。TITAN V的核心就是V100的核心,所以可以直接用官方脚本预设的V100选项;至于4090和6000 Ada,不试一下怎么知道它们能不能跑呢?众所周知,Ada架构相较于Ampere架构改动很小,SM编号都是8开头,所以就编译A100的版本,直接在4090上跑,发现还真能跑!又尝试修改编译脚本来启用Ada架构的flag(SM89),但实测发现速度还不如直接用脚本预置的A100或V100选项。

至于VASP,官方明确说了支持各种N卡,所以直接拿NVIDIA HPC SDK编译一下就能跑。


2.2 测试结果
2.2.1 CP2K

双路9754和双路9654全都顺利跑了下来,而7950X这边在跑1024个水的时候由于内存不足,直接报错退出了,把内存加到192G,终于勉强跑了下来,虽然速度实在是有点慢,只有双路9754/9654的不到十分之一。

再来看看GPU。4090和6000 Ada的速度几乎相等,比7950X还要慢一截,TITAN V双精度强,但是也就比7950X快了20-30%,看来CP2K的GPU加速比还是不太行。测试发现,H2O-1024在RTX 4090、RTX 6000 Ada和TITAN V上都无法运行,从报错信息来看疑似显存不足,但奇怪的是报错的时候nvidia-smi dmon监视工具显示显存远未被占满。

至于LiH-HFX,就不勉强可怜的7950X和那些单个GPU了,毕竟是专门给9654和9754准备的。测试运行过程中双路9754/9654功耗全程维持在800W,9754频率3GHz,9654频率3.6GHz,768GB内存几乎被耗尽,看着特别爽。最终双路9754和双路9654分别花了6456.6秒、6971.8秒跑完测试,速度和在2009年的超算上调用1024核相当。当然,超算的核数可不止1024个,多调用一些节点,双路9754/9654还是被轻松碾压了。




顺带一提,OpenBenchmarking网站也有双路9654和双路9754跑H2O-64的测试结果,都是20秒左右,比本文的11.6秒差太多了,这显然是没有做好调优的后果。




2.2.2 VASP

为了能和7950X对比,二氧化钛晶体只跑1个电子步,最终结果双路9754和双路9654速度都是7950X的将近11倍,而GPU们全部因为显存不足而没法跑。

再来看看杂化泛函的测试。4090和6000Ada的速度确实挺不错,虽然依旧没打过双路9754/9654,但是已经比较接近了,至少没出现CP2K那样的差距。当然,TITAN V因为显存只有12G,还是没把这个测试跑下来。

本次测试也对VASP并行参数做了调优,使双路AMD EPYC 9654的性能达到了双路Intel Xeon 8383C(8380超频定制版)的2.76倍,推翻了以往关于“VASP在Intel平台有特殊加成”的“经验”。由于细节众多,且核心工作并非由我完成,故本次不做讨论,欢迎持续关注。


3 7950X指数

最后,我们把7950X能跑下来的一些算例做成了“7950X指数”,来衡量双路9754和双路9654分别相当于多少颗7950X。


评分 Rate

参与人数
Participants 10
威望 +2 eV +45 收起 理由
Reason
tanyazhi + 5 好物!
乐平 + 5 精品内容
paramecium86 + 5
卡开发发 + 5 精品内容
Picardo + 5 谢谢
ChrisZheng + 5 谢谢
mizu-bai + 5 GJ!
小墨 + 5 赞!
wypkdhd + 5
sobereva + 2

查看全部评分 View all ratings

- 向着虚无前进 -

1376

帖子

0

威望

3986

eV
积分
5362

Level 6 (一方通行)

2#
发表于 Post on 2023-10-1 07:21:01 | 只看该作者 Only view this author
羡慕的口水一直流。
又菜又爱玩

279

帖子

2

威望

4421

eV
积分
4740

Level 6 (一方通行)

打脸只许打一次

3#
发表于 Post on 2023-10-1 09:16:25 | 只看该作者 Only view this author
昨天极客湾那边都没放熵神的链接,最后还是弹幕提醒才加上了。

362

帖子

1

威望

4366

eV
积分
4748

Level 6 (一方通行)

4#
发表于 Post on 2023-10-1 10:06:58 | 只看该作者 Only view this author
想抱云飞大腿~

846

帖子

16

威望

4632

eV
积分
5798

Level 6 (一方通行)

小屁孩

5#
 楼主 Author| 发表于 Post on 2023-10-1 14:13:20 | 只看该作者 Only view this author
wypkdhd 发表于 2023-10-1 09:16
昨天极客湾那边都没放熵神的链接,最后还是弹幕提醒才加上了。

误会了,是我发得太晚(家族聚会真的耽误事),比他视频晚了一个小时。我们一直有在同步的,文章刚出他们就把链接加上了
- 向着虚无前进 -

279

帖子

2

威望

4421

eV
积分
4740

Level 6 (一方通行)

打脸只许打一次

6#
发表于 Post on 2023-10-1 15:35:44 | 只看该作者 Only view this author
Entropy.S.I 发表于 2023-10-1 14:13
误会了,是我发得太晚(家族聚会真的耽误事),比他视频晚了一个小时。我们一直有在同步的,文章刚出他们 ...

原来是这样,误伤误伤。

339

帖子

0

威望

4997

eV
积分
5336

Level 6 (一方通行)

7#
发表于 Post on 2023-10-2 11:32:08 | 只看该作者 Only view this author
本帖最后由 chrinide 于 2023-10-2 11:39 编辑

openbenchmarking上的测试为了公平比较硬件的相对算力,都是在相同的编译设置下用的第三方编译器第三方数学库,这样的结果就会相对公平;CP2K都是gfortran
+openblas编译的;QMCPACK是gcc编译的,在这种前提下测试结果是在量子化学计算领域 双路8490H(单颗售价17000刀,官方推荐价格)的算力小于双路9654(单颗售价11805刀,官方推荐价格)约20%(基于QMCPACK和CP2K的算例),价格是看4颗8490H差不多刚好买6颗9654,这样看9654是真牛杯,性价比超高了;当然Intel还有其极其强大的软件开发能力,在MKL的加成下,估计8490H 还可以再压榨压榨性能;当然AMD也一直在追赶,从当年的ACML到现在的AOCC+AOCL,进步还是不错的,我倒是希望AOCC+AOCL未来能在Intel的CPU上能够持平甚至干翻Intel,Intel的编译器套件加数学库真是占空间啊,AOCC+AOCL就小多了

846

帖子

16

威望

4632

eV
积分
5798

Level 6 (一方通行)

小屁孩

8#
 楼主 Author| 发表于 Post on 2023-10-2 12:38:06 | 只看该作者 Only view this author
本帖最后由 Entropy.S.I 于 2023-10-2 13:41 编辑
chrinide 发表于 2023-10-2 11:32
openbenchmarking上的测试为了公平比较硬件的相对算力,都是在相同的编译设置下用的第三方编译器第三方数学 ...

这次测试用的CP2K也是gcc/gfortran + openblas编译的(原文已加上toolchain命令)。另外,官网的价格毫无意义,只是给领导看的骗预算的价格罢了,渠道里的实际价格只有官网价格的几分之一
- 向着虚无前进 -

339

帖子

0

威望

4997

eV
积分
5336

Level 6 (一方通行)

9#
发表于 Post on 2023-10-2 13:14:35 来自手机 | 只看该作者 Only view this author
本帖最后由 chrinide 于 2023-10-2 15:48 编辑
Entropy.S.I 发表于 2023-10-2 12:38
这次测试用的CP2K也是gcc/gfortran + openblas编译的。另外,官网的价格毫无意义,只是给领导看的骗预算 ...

那可比性就更高了我还以为CP2K是AOCC+AOCL编译的,这样看来应该还有可优化空间。非常感谢你提供的真实渠道价格信息,然而渠道价格一般消费者看不到也没任何议价权,只有大企业和以及行业相关的分销商能拿到你说的价格,所以9654和8490H到底是什么样的性价比,至少在我这是看不清楚了,我这唯一可参考的可能就只有官方推荐的价格(虽然这个价格可能并没有实际意义)

1

帖子

0

威望

21

eV
积分
22

Level 1 能力者

10#
发表于 Post on 2023-10-5 18:19:39 | 只看该作者 Only view this author
如果只用vasp的话,选9654不选9754?

846

帖子

16

威望

4632

eV
积分
5798

Level 6 (一方通行)

小屁孩

11#
 楼主 Author| 发表于 Post on 2023-10-5 18:27:20 | 只看该作者 Only view this author
gfunction 发表于 2023-10-5 18:19
如果只用vasp的话,选9654不选9754?

跑什么都别选9754,价格比9654贵得多,性能还不如9654
- 向着虚无前进 -

8

帖子

0

威望

446

eV
积分
454

Level 3 能力者

12#
发表于 Post on 2023-10-10 23:14:07 | 只看该作者 Only view this author
厉害厉害,相当全面且科学,具有很大参考价值。准备3年以后购买9654

846

帖子

16

威望

4632

eV
积分
5798

Level 6 (一方通行)

小屁孩

13#
 楼主 Author| 发表于 Post on 2023-10-12 02:58:39 | 只看该作者 Only view this author
gaohang912 发表于 2023-10-10 23:14
厉害厉害,相当全面且科学,具有很大参考价值。准备3年以后购买9654

3年后Zen6将会引入硅中介层或EMIB封装技术,巨幅改善CCX之间互联性能(参考Intel SPR开始所用的EMIB,核间延迟非常均匀);Zen6“Dense”变体甚至会将单CCX核心数量提升至32核,单片核心数提升至256核,双路即有512核。
- 向着虚无前进 -

339

帖子

0

威望

4997

eV
积分
5336

Level 6 (一方通行)

14#
发表于 Post on 2023-10-12 08:22:12 来自手机 | 只看该作者 Only view this author
Entropy.S.I 发表于 2023-10-12 02:58
3年后Zen6将会引入硅中介层或EMIB封装技术,巨幅改善CCX之间互联性能(参考Intel SPR开始所用的EMIB,核 ...

9684X性价比怎么样?似乎就比9654贵一点?

846

帖子

16

威望

4632

eV
积分
5798

Level 6 (一方通行)

小屁孩

15#
 楼主 Author| 发表于 Post on 2023-10-12 15:38:48 | 只看该作者 Only view this author
chrinide 发表于 2023-10-12 08:22
9684X性价比怎么样?似乎就比9654贵一点?

TB价格,每家一个数,乱七八糟。目前我问到的AMD官方拿货价格(含原厂质保,专票),9654是2.3万,9684X是3.3万,这种价格差,除了对于OpenFOAM之类大L3有异常提升的应用,其他的都不值(具体可以等等实测)。当然上面价格的前提都是你有大项目,有大量需求。AMD官方报价完全是根据需求来的,上面的价格就是用特定项目问到的。
- 向着虚无前进 -

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 07:31 , Processed in 0.201364 second(s), 25 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list