AMD4代单台 vs 8336C 双路 4台

abin · 发表于 Post on 2023-9-25 18:03:14

本帖最后由 abin 于 2023-9-25 18:21 编辑

Entropy.S.I 发表于 2023-9-25 16:21
测试结果出来了，VASP6.4.2，AOCC4.1+AOCL4.1，双路EPYC 9654（192个Zen4内核，实际频率3.7GHz）速度是双 ...

192/80=2.4

实际2.3倍……

基本符合纸面数据……

要是在一个主板上，
以Intel双路1.5倍的价格，买到Intel两倍多的核心，
那才是真正的高性价比……

至于我上面提到的真实案例，那的确是一个笑话。
这个案例也说明，买了十几万的设备，
不会摆弄的话，运算效率奇差……
还不如一万元的古董设备呢……

买硬件是一回事情，
让软件顺利跑起来，发挥硬件的设计性能……
还是需要一点技能的。

Entropy.S.I · 发表于 Post on 2023-9-25 18:45:21

abin 发表于 2023-9-25 18:03
192/80=2.4

实际2.3倍……

又做了一些tuning，现在是2.75倍

Janus · 发表于 Post on 2023-9-25 23:09:38

Entropy.S.I 发表于 2023-9-25 16:21
测试结果出来了，VASP6.4.2，AOCC4.1+AOCL4.1，双路EPYC 9654（192个Zen4内核，实际频率3.7GHz）速度是双 ...

按照您的这个结果，可能单路的EPYC 96 core 效益可能更优

chrinide · 发表于 Post on 2023-9-26 14:42:55

Janus 发表于 2023-9-25 23:09
按照您的这个结果，可能单路的EPYC 96 core 效益可能更优

正解，单路并行效率应该会更高一些，牙膏厂的U并行效率一直比按摩店低一些

Entropy.S.I · 发表于 Post on 2023-9-26 15:09:00

本帖最后由 Entropy.S.I 于 2023-9-26 15:28 编辑

VASP等@KiritsuguPapa 的分析吧。目前看来纯泛函（https://github.com/hpc-uk/archer ... in/others/VASP/TiO2）EPYC 9654性能非常理想，但杂化泛函（https://github.com/hpc-uk/archer ... rs/VASP/CdTe_Hybrid）intel这边似乎还有点神秘加成，估计还没调优好，但是没时间了，还要测另一边的9754。

这次我自己主要负责CP2K、G16和ORCA的测试，请别人测试了VASP和COMSOL。

CP2K也需要非常仔细的调优，即使是使用最新的软件、编译器和库，不做并行参数的调优，性能也会比调好后慢一大截。例如H2O-64和H2O-256，单纯MPI*OMP=96*2速度分别是15s、107s；改用MPI*OMP=64*3（考虑平方数个MPI Rank）并且map-by numa（BIOS设置了NPS=4），速度分别提升到14.4s、98s；进一步调优，改用map-by l3cache，改回MPI*OMP=96*2，速度大幅提升到11.6s、79s。

G16和ORCA，双路9654测出来的数据和之前论坛里其他朋友测试出来的7T83/7B13（7763定制马甲）数据对比，性能提升都是100%起步。

Entropy.S.I · 发表于 Post on 2023-9-26 15:39:37

本帖最后由 Entropy.S.I 于 2023-9-26 15:51 编辑

chrinide 发表于 2023-9-26 14:42
正解，单路并行效率应该会更高一些，牙膏厂的U并行效率一直比按摩店低一些

这是什么经验？我印象里intel Xeon由于核间延迟低且均匀，并行效率比AMD EPYC高很多，单颗CPU里甚至不需要做复杂的调优（不过现在intel也开始chiplet了，需要观望观望，从3月份3495X带4090跑GMX的测试结果来看，intel的EMIB还是很强的，增加的延迟非常少，不过这个封装工艺的成本可能比AMD单纯走PCB基板的封装高很多）。

chrinide · 发表于 Post on 2023-9-26 16:06:02

本帖最后由 chrinide 于 2023-9-27 09:42 编辑

Entropy.S.I 发表于 2023-9-26 15:39
这是什么经验？我印象里intel Xeon由于核间延迟低且均匀，并行效率比AMD EPYC高很多，单颗CPU里甚至不需 ...

应该是中古时代的经验，当时还是皓龙的U，我记得测试过当时很多程序的并行效率，确实AMD比同时代的Xeon并行效率高。现在这种数据在网上比较难看到，当年的PC-GAMESS还是最快的量化软件的时代。
可以参考这几个结果 Opteron 2350 (Barcelona) http://classic.chem.msu.su/gran/gamess/barcelona.html，到8核心很多测试的并行标度都是超线性的
同时代Intel Dunnington Xeons MP L7455 http://classic.chem.msu.su/gran/gamess/dunnington.html , 到8核心所有测试的并行标度都是低于线性的
每一个测试可以看到Barcelona的并行标度都是高于Xeons。

可惜了PC-GAMESS（Firefly）， Alex A. Granovsky是少有的数学功底极强的理论化学家，2017年时候就说Firefly已经搞定了DFT解析频率计算的代码，在做优化，后面就生病了，没两年就走了，Firefly的更新就此停摆已经7年了！哪怕是7年前的代码，Firefly的速度和效率依然不落一直在发展的量化软件。

Janus · 发表于 Post on 2023-9-26 19:55:56

Entropy.S.I 发表于 2023-9-26 15:39
这是什么经验？我印象里intel Xeon由于核间延迟低且均匀，并行效率比AMD EPYC高很多，单颗CPU里甚至不需 ...

也是经验之谈，对一般的体系来说，vasp程序在60多核往后走，瓶颈就不在核芯的数量了。不是非常特殊的体系，192核可能和96核的速度差不了多少，这么来说，单路可能就占优势。
不过9654这颗U也不能用一般的眼光来看，期待后期系统性的报告。

Weldingspock · 发表于 Post on 2023-9-26 21:17:40

有没有大佬之后会测9554，刚好实验室买了这个型号

Entropy.S.I · 发表于 Post on 2023-9-26 21:23:11

Weldingspock 发表于 2023-9-26 21:17
有没有大佬之后会测9554，刚好实验室买了这个型号

我不会专门去协调硬件了。你有9554可以自己测试然后发出来

abin · 发表于 Post on 2023-9-27 09:45:36

Entropy.S.I 发表于 2023-9-25 18:45
又做了一些tuning，现在是2.75倍

考虑到, 注入CP2K,VASP等真实场景的并行计算,
一般会占据很多物理内存, 可以推测, 处理器自身的缓存大小带来的影响可以忽略.

粗略认为, AMD和Intel在支持AVX52指令集方面, 本质性能差异不大.

剩下的差异就是, 核心之间的通讯效率, 每个核心每秒能完成的计算次数(频率), 核心的多少了.

对于并行效率很好的程序而言, 在支持的指令集一致的时候, 显然核心多, 频率高, 更具有优势.
最后再评估, 价格层面的优势大不大?

如果追求在一个主板上, 实现更多的核心, 更多的内存来跑更大的体系,
AMD当然是可以解决问题的.

元无虚空 · 发表于 Post on 2023-9-27 12:39:25

chrinide 发表于 2023-9-26 16:06
应该是中古时代的经验，当时还是皓龙的U，我记得测试过当时很多程序的并行效率，确实AMD比同时代的X ...

Firefly的Alex真是好人啊，Firefly论坛上的各种疑难杂症他都亲自替你解决得稳稳当当！可敬的人啊！

renzhogn424 · 发表于 Post on 2023-9-27 14:24:44

Entropy.S.I 发表于 2023-9-26 15:09
VASP等@KiritsuguPapa 的分析吧。目前看来纯泛函（https://github.com/hpc-uk/archer ... in/others/VASP/T ...

请教一下，如何进行map-by l3cache？ MPI*OMP=64*3是export OMP_NUM_THREADS=3 ，然后mpirun -n 64....对吧？

gog · 发表于 Post on 2023-9-30 21:55:12

renzhogn424 发表于 2023-9-27 14:24
请教一下，如何进行map-by l3cache？ MPI*OMP=64*3是export OMP_NUM_THREADS=3 ，然后mpirun -n 64....对 ...

应该是这样。但等版主回复确认

啊不错的飞过海 · 发表于 Post on 2023-10-17 22:00:36

renzhogn424 发表于 2023-9-27 14:24
请教一下，如何进行map-by l3cache？ MPI*OMP=64*3是export OMP_NUM_THREADS=3 ，然后mpirun -n 64....对 ...

用L3的参数按http://bbs.keinsci.com/thread-40077-1-1.html写法是--map-by ppr:2:l3cache，后面的:pe=n控制OpenMP并行。
MPI程序控制OMP并行靠命令行的--map-by :pe=n控制比OMP_NUM_THREADS好使些，主要是不用管超线程的事，MPI的默认设置就是绑定并吃满这个核上的所有线程。不过对一些用通信线程的程序就不了解了，也许后者效率反而高。

		自动登录 Automatic login	找回密码 Forget password
密码 Password			注册 Register

[计算机购买] AMD4代单台 vs 8336C 双路 4台

评分 Rate

评分 Rate

浏览过的版块

[计算机购买] AMD4代 单台 vs 8336C 双路 4台

评分 Rate

评分 Rate

浏览过的版块

[计算机购买] AMD4代单台 vs 8336C 双路 4台