计算化学公社

标题: AMD EPYC 9754 & 9654基准测试:量子化学和第一性原理计算程序 [打印本页]

作者
Author:
Entropy.S.I    时间: 2023-10-1 02:31
标题: AMD EPYC 9754 & 9654基准测试:量子化学和第一性原理计算程序
本帖最后由 Entropy.S.I 于 2023-10-31 19:37 编辑

AMD EPYC 9754 & 9654基准测试:量子化学和第一性原理计算程序

Sep-2023 by ア熵增焓减ウ | yult-entropy@qq.com | entropylt@163.com

0 写在前面

应科技博主@极客湾Geekerwan 邀请,我给最新的AMD EPYC CPU做了一些基准测试。原本打算将相关分析做进视频里,但由于进度赶不上,视频中只放了“7950X指数”,分析部分写成了单独的图文发出来,写得比较通俗,因为考虑到会有很多吃瓜群众来看。

视频链接:256核512线程!史上最强CPU到底能做什么?

硬件:7950X和双路EPYC 9754平台同视频中所述;双路9654平台其他硬件同双路9754平台,由@楼下小黑bba 提供。

操作系统&软件版本:

特别感谢@KiritsuguPapa 帮助测试VASP。


1 Gaussian & ORCA
1.1 介绍

使用Gaussian和ORCA来测试双路9754和双路9654的并行效率,顺便和7950X对比一下。

测试用的模型选用了可以在网络上找到大量对比数据的Test0397缬氨霉素,坐标文件就在Gaussian安装包里面。但是原版只是个普通的密度泛函(DFT)单点能量计算,并且计算级别太低了,不太适合今天的测试。把基组从3-21G调大成def2-TZVP,加个振动分析,针对ORCA再用上含时密度泛函(TDDFT)和DLPNO-CCSD(T)这两个ORCA的优势项目。这样我们得到了4个测试算例,应该能覆盖很多场景了。进一步考虑多任务的情况,把单点计算的基组改成比def2-TZVP小一些的def2-SVP,同时运行8个计算任务,每个任务32核(9754)或24核(9654),狠狠滴压榨。

(, 下载次数 Times of downloads: 46)

1.2 测试结果

使用@ggdh 开发的Gaussian和ORCA并行效率测试脚本xbench3.0,测试双路9754和双路9654跑这几个算例的并行效率。

(, 下载次数 Times of downloads: 47)

可以看到,单任务的并行效率都不太行,边际效应很明显,还出现了核用得越多跑得越慢的情况,其中双路9754性能很不理想。在多任务测试中,考虑了两种CPU内核分配策略,一种是大多数人会首先想到的按顺序分配,另一种是脚本默认的均匀分配。可以看到多任务的效率比单任务高得多,曲线很接近线性,其中按顺序分配的策略几乎完全线性,性能总和也达到了7950X的8-9倍,很接近理论值了。【10月31日补充】这里有必要提醒一下:并行效率测试中大部分都是“根据NUMA节点均匀分配CPU内核”,这种情况下双路机器的一半CPU核心性能并不等于单路机器。

值得一提的是,我们在测试中发现7950X+96GB内存的配置跑ORCA的DLPNO-CCSD(T)算例跑到半个小时左右的时候内存占用突然提高,然后就因为内存不足而报错退出了,这如果是正经科研的计算,估计科研人员要气晕了。最后把内存加到192GB总算是把测试跑下来了,但是加到192GB又会导致内存降频,而7950X的内存带宽瓶颈本来就严重,这对于其他不那么吃内存的测试来说得不偿失;哪怕是经验上内存越大越好的振动分析任务,再用192GB内存跑一遍,发现速度还是慢了20%。


2 CP2K & VASP
2.1 介绍

HPC和科学计算领域还有很多别的软件,比如著名的第一性原理计算软件——CP2K,它最大的优势是跑第一性原理分子动力学(AIMD)特别快,所以用官方benchmark包里的水盒子算例来测试,分别跑64个、256个、1024个水分子的盒子,每个盒子跑10步。考虑到1024水分子的AIMD压力可能还是不够,所以找了另一个压力奇大无比的算例——LiH-HFX。这个算例对机器的CPU性能、内存性能和内存容量都有很大的需求,是专门给超算做的,通常在超算上用成千上万核来跑,但这次我们用他来压榨双路9754和双路9654。

值得一提的是,像CP2K这样的MPI+OpenMP混合并行软件,需要针对不同的硬件配置做非常仔细的调优才能实现最大的性能。下图展示了经过调优后的并行参数。

(, 下载次数 Times of downloads: 52)

(, 下载次数 Times of downloads: 60)

VASP也是个著名的第一性原理计算软件。我们找来了英国超算用的benchmark算例,一个是二氧化钛晶体、纯泛函方法,另一个是碲化镉晶体、杂化泛函方法。其中纯泛函方法是VASP里最主流的计算方法;而坊间传闻,VASP的GPU版跑杂化泛函计算的加速比不错。

说到GPU,确实值得一测,就拿4090、RTX 6000 Ada,还有双精度超强的过气卡皇TITAN V来试试。

CP2K官方称CP2K的GPU版只支持A100、V100、MI250等计算卡。TITAN V的核心就是V100的核心,所以可以直接用官方脚本预设的V100选项;至于4090和6000 Ada,不试一下怎么知道它们能不能跑呢?众所周知,Ada架构相较于Ampere架构改动很小,SM编号都是8开头,所以就编译A100的版本,直接在4090上跑,发现还真能跑!又尝试修改编译脚本来启用Ada架构的flag(SM89),但实测发现速度还不如直接用脚本预置的A100或V100选项。

至于VASP,官方明确说了支持各种N卡,所以直接拿NVIDIA HPC SDK编译一下就能跑。


2.2 测试结果
2.2.1 CP2K

双路9754和双路9654全都顺利跑了下来,而7950X这边在跑1024个水的时候由于内存不足,直接报错退出了,把内存加到192G,终于勉强跑了下来,虽然速度实在是有点慢,只有双路9754/9654的不到十分之一。

再来看看GPU。4090和6000 Ada的速度几乎相等,比7950X还要慢一截,TITAN V双精度强,但是也就比7950X快了20-30%,看来CP2K的GPU加速比还是不太行。测试发现,H2O-1024在RTX 4090、RTX 6000 Ada和TITAN V上都无法运行,从报错信息来看疑似显存不足,但奇怪的是报错的时候nvidia-smi dmon监视工具显示显存远未被占满。

至于LiH-HFX,就不勉强可怜的7950X和那些单个GPU了,毕竟是专门给9654和9754准备的。测试运行过程中双路9754/9654功耗全程维持在800W,9754频率3GHz,9654频率3.6GHz,768GB内存几乎被耗尽,看着特别爽。最终双路9754和双路9654分别花了6456.6秒、6971.8秒跑完测试,速度和在2009年的超算上调用1024核相当。当然,超算的核数可不止1024个,多调用一些节点,双路9754/9654还是被轻松碾压了。

(, 下载次数 Times of downloads: 45)

(, 下载次数 Times of downloads: 56)

(, 下载次数 Times of downloads: 51)

顺带一提,OpenBenchmarking网站也有双路9654和双路9754跑H2O-64的测试结果,都是20秒左右,比本文的11.6秒差太多了,这显然是没有做好调优的后果。


(, 下载次数 Times of downloads: 51)


2.2.2 VASP

为了能和7950X对比,二氧化钛晶体只跑1个电子步,最终结果双路9754和双路9654速度都是7950X的将近11倍,而GPU们全部因为显存不足而没法跑。

再来看看杂化泛函的测试。4090和6000Ada的速度确实挺不错,虽然依旧没打过双路9754/9654,但是已经比较接近了,至少没出现CP2K那样的差距。当然,TITAN V因为显存只有12G,还是没把这个测试跑下来。

本次测试也对VASP并行参数做了调优,使双路AMD EPYC 9654的性能达到了双路Intel Xeon 8383C(8380超频定制版)的2.76倍,推翻了以往关于“VASP在Intel平台有特殊加成”的“经验”。由于细节众多,且核心工作并非由我完成,故本次不做讨论,欢迎持续关注。

(, 下载次数 Times of downloads: 48)

3 7950X指数

最后,我们把7950X能跑下来的一些算例做成了“7950X指数”,来衡量双路9754和双路9654分别相当于多少颗7950X。

(, 下载次数 Times of downloads: 55)


作者
Author:
牧生    时间: 2023-10-1 07:21
羡慕的口水一直流。
作者
Author:
wypkdhd    时间: 2023-10-1 09:16
昨天极客湾那边都没放熵神的链接,最后还是弹幕提醒才加上了。
作者
Author:
exity    时间: 2023-10-1 10:06
想抱云飞大腿~
作者
Author:
Entropy.S.I    时间: 2023-10-1 14:13
wypkdhd 发表于 2023-10-1 09:16
昨天极客湾那边都没放熵神的链接,最后还是弹幕提醒才加上了。

误会了,是我发得太晚(家族聚会真的耽误事),比他视频晚了一个小时。我们一直有在同步的,文章刚出他们就把链接加上了
作者
Author:
wypkdhd    时间: 2023-10-1 15:35
Entropy.S.I 发表于 2023-10-1 14:13
误会了,是我发得太晚(家族聚会真的耽误事),比他视频晚了一个小时。我们一直有在同步的,文章刚出他们 ...

原来是这样,误伤误伤。
作者
Author:
chrinide    时间: 2023-10-2 11:32
本帖最后由 chrinide 于 2023-10-2 11:39 编辑

openbenchmarking上的测试为了公平比较硬件的相对算力,都是在相同的编译设置下用的第三方编译器第三方数学库,这样的结果就会相对公平;CP2K都是gfortran
+openblas编译的;QMCPACK是gcc编译的,在这种前提下测试结果是在量子化学计算领域 双路8490H(单颗售价17000刀,官方推荐价格)的算力小于双路9654(单颗售价11805刀,官方推荐价格)约20%(基于QMCPACK和CP2K的算例),价格是看4颗8490H差不多刚好买6颗9654,这样看9654是真牛杯,性价比超高了;当然Intel还有其极其强大的软件开发能力,在MKL的加成下,估计8490H 还可以再压榨压榨性能;当然AMD也一直在追赶,从当年的ACML到现在的AOCC+AOCL,进步还是不错的,我倒是希望AOCC+AOCL未来能在Intel的CPU上能够持平甚至干翻Intel,Intel的编译器套件加数学库真是占空间啊,AOCC+AOCL就小多了
作者
Author:
Entropy.S.I    时间: 2023-10-2 12:38
本帖最后由 Entropy.S.I 于 2023-10-2 13:41 编辑
chrinide 发表于 2023-10-2 11:32
openbenchmarking上的测试为了公平比较硬件的相对算力,都是在相同的编译设置下用的第三方编译器第三方数学 ...

这次测试用的CP2K也是gcc/gfortran + openblas编译的(原文已加上toolchain命令)。另外,官网的价格毫无意义,只是给领导看的骗预算的价格罢了,渠道里的实际价格只有官网价格的几分之一
作者
Author:
chrinide    时间: 2023-10-2 13:14
本帖最后由 chrinide 于 2023-10-2 15:48 编辑
Entropy.S.I 发表于 2023-10-2 12:38
这次测试用的CP2K也是gcc/gfortran + openblas编译的。另外,官网的价格毫无意义,只是给领导看的骗预算 ...

那可比性就更高了我还以为CP2K是AOCC+AOCL编译的,这样看来应该还有可优化空间。非常感谢你提供的真实渠道价格信息,然而渠道价格一般消费者看不到也没任何议价权,只有大企业和以及行业相关的分销商能拿到你说的价格,所以9654和8490H到底是什么样的性价比,至少在我这是看不清楚了,我这唯一可参考的可能就只有官方推荐的价格(虽然这个价格可能并没有实际意义)
作者
Author:
gfunction    时间: 2023-10-5 18:19
如果只用vasp的话,选9654不选9754?
作者
Author:
Entropy.S.I    时间: 2023-10-5 18:27
gfunction 发表于 2023-10-5 18:19
如果只用vasp的话,选9654不选9754?

跑什么都别选9754,价格比9654贵得多,性能还不如9654
作者
Author:
gaohang912    时间: 2023-10-10 23:14
厉害厉害,相当全面且科学,具有很大参考价值。准备3年以后购买9654
作者
Author:
Entropy.S.I    时间: 2023-10-12 02:58
gaohang912 发表于 2023-10-10 23:14
厉害厉害,相当全面且科学,具有很大参考价值。准备3年以后购买9654

3年后Zen6将会引入硅中介层或EMIB封装技术,巨幅改善CCX之间互联性能(参考Intel SPR开始所用的EMIB,核间延迟非常均匀);Zen6“Dense”变体甚至会将单CCX核心数量提升至32核,单片核心数提升至256核,双路即有512核。
作者
Author:
chrinide    时间: 2023-10-12 08:22
Entropy.S.I 发表于 2023-10-12 02:58
3年后Zen6将会引入硅中介层或EMIB封装技术,巨幅改善CCX之间互联性能(参考Intel SPR开始所用的EMIB,核 ...

9684X性价比怎么样?似乎就比9654贵一点?
作者
Author:
Entropy.S.I    时间: 2023-10-12 15:38
chrinide 发表于 2023-10-12 08:22
9684X性价比怎么样?似乎就比9654贵一点?

TB价格,每家一个数,乱七八糟。目前我问到的AMD官方拿货价格(含原厂质保,专票),9654是2.3万,9684X是3.3万,这种价格差,除了对于OpenFOAM之类大L3有异常提升的应用,其他的都不值(具体可以等等实测)。当然上面价格的前提都是你有大项目,有大量需求。AMD官方报价完全是根据需求来的,上面的价格就是用特定项目问到的。
作者
Author:
Janus    时间: 2023-10-13 10:08
本帖最后由 Janus 于 2023-10-13 10:10 编辑

谢谢版主的分享。我把双路8336C和8375C(内存插满,512G)的CP2K和VASP的测试也跑了一下:
1.CP2K,官方的Singularity,没做额外的优化,H2O-256,10步,双路8336C为 202s,双路8375C为183s;
2. VASP, 6.3.2, intel oneapi,没做额外优化,github下的TiO2用vasp_gam跑,前几电子步的时间:双路8336C为 312s、292s、287,双路8375C为277、277、275、277s。

版主的VASP测试,可能用的是vasp_std?

作者
Author:
abin    时间: 2023-10-13 10:53
本帖最后由 abin 于 2023-10-13 18:41 编辑

我初步的结果如下:
cp2k表现良好.

VASP, 可能会遭遇某些麻烦。
但是,好在核心多,192个核心,还是比64个快点的。

作者
Author:
Entropy.S.I    时间: 2023-10-13 14:15
本帖最后由 Entropy.S.I 于 2023-10-13 14:24 编辑
Janus 发表于 2023-10-13 10:08
谢谢版主的分享。我把双路8336C和8375C(内存插满,512G)的CP2K和VASP的测试也跑了一下:
1.CP2K,官方的 ...

你可能对我文章里所说的“电子步”有误解。你直接用了原版输入文件,看的是Iteration 1(1)的LOOP时间;而我把原版的NELM参数从10改为了1,看的是整个任务的LOOP+时间。如果只看Iteration 1(1)的LOOP时间,双路9654是98s,双路9754是107s。再看看你的312s、277s,差几倍?
作者
Author:
Entropy.S.I    时间: 2023-10-13 14:25
abin 发表于 2023-10-13 10:53
我初步的结果如下:
cp2k表现良好.

没必要“分析”了,双路9654速度是双路8336C的3.18倍、双路8375C的2.83倍
作者
Author:
Janus    时间: 2023-10-13 15:59
本帖最后由 Janus 于 2023-10-13 16:31 编辑
Entropy.S.I 发表于 2023-10-13 14:25
没必要“分析”了,双路9654速度是双路8336C的3.18倍、双路8375C的2.83倍
3倍的差距,刚好和价格也匹配了。对VASP用户来说,这个就比较友好了;购置单路9654+少量双路9654,刚好能满足需求。大体系、TS、动力学等上双路,一个节点就搞定,省去跨节点并行;普通的结构优化啥的,跑单路。
等有空了,我自己也找个机器跑跑试试。
AMD从Zen2开始,就是呼声高的不行,跑VASP慢的不行。
有超算的销售大佬说,他听着用户说要用vasp就头疼;对AMD二代,他们技术各种调整参数,核数多一倍的双路7742 7H12完全打不赢双路intel。
版主这测评出来后,相信很快就会有更广泛的测评出来。在常规(大小体系等)的体系计算中,不奢求多了,AMD4代只需要能打赢intel 3对vasp用户来说就是福音。

作者
Author:
Entropy.S.I    时间: 2023-10-13 16:55
建议某些自负之人出来走两步

http://bbs.keinsci.com/thread-38538-2-1.html
(, 下载次数 Times of downloads: 44)

作者
Author:
abin    时间: 2023-10-13 18:26
Entropy.S.I 发表于 2023-10-13 14:25
没必要“分析”了,双路9654速度是双路8336C的3.18倍、双路8375C的2.83倍

如果大家的指令集支持都一个水准的话,
这个差异是可以预期的.

9654双路192核心
Intel 83XX双路, 64核心,
恰好是3倍.

对于并行效率不怎么差劲的程序来说, 3倍的差距基本符合逻辑.

推测, 都使用64核心, 计算速度应该旗鼓相当?
只是推测, 因为没有设备最对比测试.  




作者
Author:
chrinide    时间: 2023-10-13 19:56
Entropy.S.I 发表于 2023-10-13 14:25
没必要“分析”了,双路9654速度是双路8336C的3.18倍、双路8375C的2.83倍

这样看8336c 性价比很高,8375c性价比就太低了
作者
Author:
abin    时间: 2023-10-14 10:47
是不是应该测试:
双路AMD EYPC 9334 vs 双路Intel 8336C?
可能也不太恰当, 因为我不晓得两者的价格区间.

作者
Author:
chrinide    时间: 2023-10-14 10:55
本帖最后由 chrinide 于 2023-10-14 11:10 编辑
abin 发表于 2023-10-14 10:47
是不是应该测试:
双路AMD EYPC 9334 vs 双路Intel 8336C?
可能也不太恰当, 因为我不晓得两者的价格区间 ...

8336C有字节的大船 拆新 不到4000 性价比挺香,9334QS拆新看成色 3200-4000,两个价格差不多,9334全核3.85,8336C全核只有3.0(可以干到3.5),去掉指令集和内存带宽等加成,这么看9334性价比更高
作者
Author:
Entropy.S.I    时间: 2023-10-14 13:59
abin 发表于 2023-10-14 10:47
是不是应该测试:
双路AMD EYPC 9334 vs 双路Intel 8336C?
可能也不太恰当, 因为我不晓得两者的价格区间 ...

9334主要优势在于GMI-wide。不明白的可以去看架构手册。近期测全NVMe存储会用到9334,届时顺便测一下计算相关。
作者
Author:
Entropy.S.I    时间: 2023-10-14 14:01
本帖最后由 Entropy.S.I 于 2023-10-14 14:02 编辑
chrinide 发表于 2023-10-14 10:55
8336C有字节的大船 拆新 不到4000 性价比挺香,9334QS拆新看成色 3200-4000,两个价格差不多,9334全核3. ...

9334全核3.9GHz。QS不做评价。特殊渠道行情瞬息万变,今天推荐的到明天可能就不合适了,自讨苦吃
作者
Author:
Janus    时间: 2023-10-14 22:54
本帖最后由 Janus 于 2023-10-14 23:09 编辑
abin 发表于 2023-10-14 10:47
是不是应该测试:
双路AMD EYPC 9334 vs 双路Intel 8336C?
可能也不太恰当, 因为我不晓得两者的价格区间 ...

单路9654 vs 双路8375或者双路8336C。
这两个东东价格应该差不多,两块8375C差不多也要2万出头,差距可能出在DDR5的内存上。主要就看实际上机后的性能啦。
此外,单路9654可能可以做到1U,功耗也低,各方面来说都优。再等等,希望这次AMD能YES到量化、材料计算领域

作者
Author:
comchem    时间: 2023-10-17 08:52
谢谢版主的分享。9654是购买首选。
作者
Author:
啊不错的飞过海    时间: 2023-10-17 14:54
非常好测试,爱来自中国(划掉
关于CP2K报显存不足时显存还远未占满的问题,可能是因为CP2K会一次性分配很大的显存而不是随用随申。HIP驱动会在显存分配失败报错中输出这块没申下来的显存有多大,我见过的最大一块是4GB多,CP2K可能可以一次性申更大的;这足够让显卡在显存看起来还够的时候直接撑爆。
另一种熵老师应该没碰到的情况是计算程序把核显也当显卡来用了——核显倒是确实可以跑计算,clpeak、gmx都可以调用并运行,CP2K只会一口气把显存塞爆然后报错退出。clpeak测试下5600g的单精度能有~1600GFLOPS,和4块12500 CPU差不多,换句话说性能很弱;512M的显存也十分小。显存问题可能可以加显卡来消除,不过咱是没有多卡平台做试验的(
作者
Author:
Entropy.S.I    时间: 2023-10-17 15:08
啊不错的飞过海 发表于 2023-10-17 14:54
非常好测试,爱来自中国(划掉
关于CP2K报显存不足时显存还远未占满的问题,可能是因为CP2K会一次性分 ...

感谢解答。程序误把核显用来跑GPU加速,可以通过设置HIP_VISIBLE_DEVICES环境变量来避免
作者
Author:
啊不错的飞过海    时间: 2023-10-17 15:13
Entropy.S.I 发表于 2023-10-17 15:08
感谢解答。程序误把核显用来跑GPU加速,可以通过设置HIP_VISIBLE_DEVICES环境变量来避免

咦,这样,感谢
作者
Author:
Weldingspock    时间: 2023-10-22 21:37
持续关注,等楼主出一个调优AMD平台VASP的经验
作者
Author:
Entropy.S.I    时间: 2023-10-31 19:33
本帖最后由 Entropy.S.I 于 2023-10-31 19:37 编辑

有必要提醒一下:并行效率测试中大部分都是“根据NUMA节点均匀分配CPU内核”,这种情况下双路机器的一半CPU核心性能并不等于单路机器。

(已补充到正文)

作者
Author:
喝杯热水    时间: 2023-11-1 18:40
Entropy.S.I 发表于 2023-10-31 19:33
有必要提醒一下:并行效率测试中大部分都是“根据NUMA节点均匀分配CPU内核”,这种情况下双路机器的一半CPU ...

请问,这种情况下的单路机器是弱于一半CPU核心性能呢还是强于?
作者
Author:
Entropy.S.I    时间: 2023-11-1 20:33
喝杯热水 发表于 2023-11-1 18:40
请问,这种情况下的单路机器是弱于一半CPU核心性能呢还是强于?

多数情况下是弱于
作者
Author:
ddddnight    时间: 2023-11-2 09:16
老师,什么主板现在支持192g内存呀
作者
Author:
zmjsce    时间: 2023-11-2 22:45
ddddnight 发表于 2023-11-2 09:16
老师,什么主板现在支持192g内存呀

其他的不太清楚,我们目前用的超微X12DPI-N6是支持12条16G的(双cpu下),具体可以看看主板的说明书。
作者
Author:
ddddnight    时间: 2023-11-3 10:34
zmjsce 发表于 2023-11-2 22:45
其他的不太清楚,我们目前用的超微X12DPI-N6是支持12条16G的(双cpu下),具体可以看看主板的说明书。

我是说的用7950x下如何支持192g内存,好像一般的主板不支持,只能支持到128g
作者
Author:
啊不错的飞过海    时间: 2023-11-3 17:27
ddddnight 发表于 2023-11-3 10:34
我是说的用7950x下如何支持192g内存,好像一般的主板不支持,只能支持到128g

单条48G的DDR5内存插满4根。
主板标注只支持128通常是基于消费级DDR5最大32G单条写的,背后原因是消费级内存控制器只支持16颗粒每条内存,而现存产品发布时DDR5颗粒最大只有16Gb的;24Gb DDR5颗粒今年才上市,厂商资料普遍还没跟进。
作者
Author:
ddddnight    时间: 2023-11-3 17:51
啊不错的飞过海 发表于 2023-11-3 17:27
单条48G的DDR5内存插满4根。
主板标注只支持128通常是基于消费级DDR5最大32G单条写的,背后原因是消费级 ...

好的,明白了,谢谢您
作者
Author:
lue611    时间: 2023-12-2 17:48
本帖最后由 lue611 于 2023-12-2 17:54 编辑

大佬好,我查了下8336c现在是3800,9654是23000,而双路9654有双路8336c的3.18倍,那么在钱足够的情况下是不是与其买一台9654,更应当多买几台8336c更合适?
大佬测出的9654性能8383c的2.76倍,价格是2.13倍,但是这是在vasp调好参数的情况下,而intel编译vasp几乎不用怎么调参,从这个角度看值得多花钱买intel吗

作者
Author:
Entropy.S.I    时间: 2023-12-2 18:18
本帖最后由 Entropy.S.I 于 2023-12-2 18:19 编辑
lue611 发表于 2023-12-2 17:48
大佬好,我查了下8336c现在是3800,9654是23000,而双路9654有双路8336c的3.18倍,那么在钱足够的情况下是 ...

光有CPU就能跑起来了??

我尊重intel信徒

作者
Author:
lue611    时间: 2023-12-2 22:38
本帖最后由 lue611 于 2023-12-2 22:52 编辑
Entropy.S.I 发表于 2023-12-2 18:18
光有CPU就能跑起来了??

我尊重intel信徒

我大概看了一下(都是没扩展硬盘内存的),9654*2+16G内存+512Gssd纯CPU工作站67800,8383c*2+16G内存+512Gssd纯CPU工作站30500,整机也是贵2.22倍
8336c整机是18000,贵3.76倍
我就是觉得奇怪为什么好像性价比差不会很多而已

作者
Author:
Janus    时间: 2023-12-3 00:43
lue611 发表于 2023-12-2 22:38
我大概看了一下(都是没扩展硬盘内存的),9654*2+16G内存+512Gssd纯CPU工作站67800,8383c*2+16G内存+51 ...

只有合适与否,没有好坏之分。机器还是看你需求的,明白影响计算速度的瓶颈,再做选择:
1. 如果是vasp,并且计算体系不大,150个原子以内,任务数量多;3台8336C大概率干的活多;
2. 如果任务数量不多,但是单个任务贼耗时,类似杂化泛函,9654可能优秀;
3. 如果已经有部分intel的机器了,例如:1代或者2代 xeon,可以考虑9654,配合着用,大体系、小体系都能搞定;

此外,还需要考虑:
1. 几个人用这个机器,是否需要双路9654?两个单路咋样?
2. 是否有机柜,是否有管理节点,供电是否充足;

最后,建议先租机器,实际测试再做选择。不是很懂,并且钱不充足的,我个人建议,双路9654慎选,想用9654,可以考虑单路。
作者
Author:
Janus    时间: 2023-12-3 01:38
本帖最后由 Janus 于 2023-12-3 01:41 编辑

我相信很多朋友对这个贴子有错误的认识,只看那几个计算和CPU纸面信息,越看越糊涂,特做此回复。仅代表个人观点,仅代表个人观点!不喜勿看,不喜勿喷:
双路9654,涉及复杂的调优,对体系小但任务数量多的用户,请租机时测试。淘宝闲鱼上均有机器,一天也就百来块,测试后再决定。以下给出几个例子:
例1:
手头有30个结构优化的vasp任务,电子步时间不长(15s左右),离子步多,需要两三百步。8336C 64核算一个需要大约6小时,两个任务分别用32核心跑,大概率是10小时结束。
1. 三台8336,10小时可以算6个任务,两天差不多完成所有的计算。并且还可以调控优先级,先出来结果先分析,着急的结构用64核。
2. 双路9654,怎么去分配资源会是很大的问题。小任务,通信瓶颈可能更占主导,192核 vs 64核,可能就1.5~2倍的优势;如果提交多个,吃资源的任务会影响不怎么吃资源的任务。
3. 如果是2个学生用?如果是3个学生用?多台8336C会不会更好点?

例2:
杂化泛函、大体系AIMD、大模型(>200个原子,含铁磁元素...)等等,双路8336勉强能算,一个电子步骤30分钟,这种体系,双路9654可能是最优解。

例3:
过渡态,过渡态计算很有趣,5个插值,用5个节点算,如果4个插值点很快收敛,第五个很慢很慢,已经收敛的4个节点就开始休息了。双路9654可能只需要1个节点就行了,插值点逐步收敛,节点内资源就逐步释放,收敛慢计算速度逐步加快。

综上:只有适合自己的,才是最重要的。双路9654是款非常好的服务器,节能且性能强劲,AOCC和AOCl也在逐步完善。但是,但是,但是适不适合,可能需要根据自身情况选择。

作者
Author:
lue611    时间: 2023-12-3 10:32
本帖最后由 lue611 于 2023-12-5 23:41 编辑
Janus 发表于 2023-12-3 01:38
我相信很多朋友对这个贴子有错误的认识,只看那几个计算和CPU纸面信息,越看越糊涂,特做此回复。仅代表个 ...

非常感谢大佬!心里有数了。论坛需要你这样热心且有实力的大佬,比某位只会骂别人intel信徒的好多了
作者
Author:
ggdh    时间: 2023-12-14 16:12
我发现了一个问题,在zen3和zen4上设OMP_PLACES或OMP_PROC_BIND后,某些情况跑起来会慢几百倍。unset这两个环境变量后就正常了,具体出现条件还没有研究。用的是标准的toolchain编译的 cp2k/2023.2-openmpi416-gcc113
作者
Author:
gauss98    时间: 2023-12-15 22:49
Entropy.S.I 发表于 2023-10-12 02:58
3年后Zen6将会引入硅中介层或EMIB封装技术,巨幅改善CCX之间互联性能(参考Intel SPR开始所用的EMIB,核 ...

口水ing
想想一台机器512核就相当于一套超算了
不知道能快多少

不过最期待的还是像MD在gpu上那样几十倍的涨

作者
Author:
ggdh    时间: 2023-12-27 16:41
请问9654上最终选用的是96核X2并行 ,而没有选用平方数的原因是因为96x2 更快么
作者
Author:
Entropy.S.I    时间: 2023-12-27 23:54
本帖最后由 Entropy.S.I 于 2023-12-27 23:55 编辑
ggdh 发表于 2023-12-27 16:41
请问9654上最终选用的是96核X2并行 ,而没有选用平方数的原因是因为96x2 更快么

对。如果用平方数(64*3),没法map by l3cache,核间延迟成为了瓶颈。24Q2发布EPYC Turin,classic版本单机256核就不会有这种头疼的问题了
作者
Author:
Weldingspock    时间: 2024-2-14 10:48
我用aocc+aocl编译的vasp.6.4.2比 intel oneapi编译的速度只快了5%左右。系统是Cent os 8,gnu版本是8.3.1,cpu是amd 9554。openmpi版本是4.1.6。最后运行vasp的命令直接是mpirun -np ** vasp_std。请问最后的运行命令需要改吗还是有一些别的参数需要修改?
作者
Author:
Entropy.S.I    时间: 2024-2-14 21:12
本帖最后由 Entropy.S.I 于 2024-2-14 21:14 编辑
Weldingspock 发表于 2024-2-14 10:48
我用aocc+aocl编译的vasp.6.4.2比 intel oneapi编译的速度只快了5%左右。系统是Cent os 8,gnu版本是8.3.1 ...

首先更新系统,内核越新越好。新的硬件搭配新的Linux内核才能发挥出更好的性能,特别是Zen4新增了扩展指令集。现在Ubuntu Server 22.04 LTS的HWE内核已经是6.5了。

然后仔细测试不同的NCORE、NPAR、KPAR等参数。

不过目前已经不推荐用CPU跑VASP了,用2.4万元组装一台2*4卡V100 SXM2的机器,单个4卡模组跑480原子pure DFT的速度是双路8383C的2.5倍,8卡并行跑一个Cd33Te32 Hybrid DFT速度是双路9654的6倍。年前我就已经做了大量测试,目前准备定制专用机箱以便把这套方案普及开,浅浅颠覆一下计算材料学领域。
作者
Author:
1984901858    时间: 2024-2-15 13:33
Entropy.S.I 发表于 2024-2-14 21:12
首先更新系统,内核越新越好。新的硬件搭配新的Linux内核才能发挥出更好的性能,特别是Zen4新增了扩展指 ...

熵大,我也注意到小黄鱼上的V100 SXM2的性价比逐渐凸显出来,当然,缺点是电费感人。你能不能细说一下,4卡V100 SXM2跑DFT和AIMD时,体系的上限。还有跑CP2K怎么样。这套机器跑双精度LAMMPS也应该不错吧。期待你的文章。
作者
Author:
ljb874722957    时间: 3 day ago
本帖最后由 ljb874722957 于 2024-11-20 20:57 编辑

老师,个人一手自用,7950X+3080(10 G)算VASP速度怎么样?体系一般都是在100个原子以内,偶尔用到分子动力学模拟,不想配服务器主机,主要是跑计算的过程中可以偶尔看看网站,写写论文之类的
作者
Author:
abin    时间: yesterday 13:08
本帖最后由 abin 于 2024-11-22 14:17 编辑

AMD 9654 单路 vs Intel 8369B双路
也就是AMD 96核心 vs Intel 64核心。

网友提供的算例。 告知需要6小时以上。
我问使用,grep LOOP OUTPUT评估一下可否,对方不认可这种比对。

那只好放在集群上排队等着计算。

采用标准编译, 在慧计算的机器上, 64核心跑同样的算例, 4小时40分钟不到。 SLURM调度器。
经过慧计算调优后, 同样算例, 64核心跑, 大概2小时20分钟。 SLURM调度器。

慧计算采用Intel工具链编译。

并非表达: AMD好或者Intel好; 而是想说明,如果编译不当,使用不当,计算效率可能差很多。

一般而言, 处理器更新换代,性能提升100%比较少见。
但是使用不当,导致性能掉一两倍,那岂不是花了大价钱,而实际性能,确实古董级的电子垃圾?

另, 本人不懂VASP,看不懂输入文件在跑什么东西。

相关讨论截图如下。
(, 下载次数 Times of downloads: 0)
(, 下载次数 Times of downloads: 0)
(, 下载次数 Times of downloads: 1)








欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3