计算化学公社

标题: AMD4代 单台 vs 8336C 双路 4台 [打印本页]

作者
Author:
Janus    时间: 2023-9-19 11:21
标题: AMD4代 单台 vs 8336C 双路 4台
逛了逛帖子,最近聊的最多的是 AMD 9654 四代CPU。
之前都是购买双路8336C,3200 512G,税后3万不到;最近可能会稍微拓展哈,十万的预算,想请大神帮忙建议一下,是3-4台8336C,还是2台单路9654,或者1台双路9754?
主要用的软件是VASP,CP2K。
自我感觉,买AMD有点战未来的感觉。AMD2代在VASP上效果不咋地,128核干不过两颗8336C。4代不知道效果如何,如有这方面的测评,也烦请大神帮忙提供哈。

作者
Author:
abin    时间: 2023-9-19 13:17
提供一个别人报告的事情.

一位不愿意透漏姓名的网友报告:

Intel平台
9242双路 + 12*32GB, 关闭超线程
通过10Gb OPA连接起来,
得到
- 48*4=192个处理器核心
- 384G + 384G内存
- 两个节点, 通过100Gb OPA通讯


AMD测试平台
9654双路+ 24*32GB, 关闭超线程
- 192个处理器核心
- 24个内存通道,
- 节点内通讯

这位网友报告说:
测试软件是VASP6.

Intel平台采用Intel OneAPI.
AMD平台分别使用Intel OneAPI, AOCC编译器, MKL+GCC等等组合方式.

结果, 同样的测试算例, AMD平台比Intel慢很多.
原话是“Intel平台上, 需要7个小时算完; 在AMD平台上,  需要15到16个小时”.

另, 为何说是不愿意透漏姓名的网友呢?
就是直接微信聊天, 我问, 您高姓大名, 如何称呼? 对方从来未回复.

对方也没有废话, 直接讲了他遇到的问题, 问我能否调优?
我说可以试试.
从性能参数评估, 至少能把AMD平台弄的和你手里的Intel平台一样快, 这一步实现后, 再考虑其他调优.
如有效果, 需要支付酬金.
然后就失联了.



作者
Author:
Janus    时间: 2023-9-19 14:06
abin 发表于 2023-9-19 13:17
提供一个别人报告的事情.

一位不愿意透漏姓名的网友报告:

这个....您应该免费调优,出个系统的报告出来,后期客户可能源源不断。
这里面涉及的东西,还是有点技术的。
AMD 4代出来这么久了,vasp的效率一直没有出正统的对比,就猜到大概率还是有那么一点问题。
正常来说,VASP 一般的体系只需要五六十核,主频搞点就够了。
作者
Author:
abin    时间: 2023-9-19 18:19
本帖最后由 abin 于 2023-9-19 19:40 编辑
Janus 发表于 2023-9-19 14:06
这个....您应该免费调优,出个系统的报告出来,后期客户可能源源不断。
这里面涉及的东西,还是有点技术 ...

你来吧……

有人提供这几十万的设备吗?
或者提供这些设备的租赁费吗?

对于我呢,免费无偿,没兴趣……



作者
Author:
Janus    时间: 2023-9-19 19:59
abin 发表于 2023-9-19 18:19
你来吧……

有人提供这几十万的设备吗?

哈哈,我得意思就是拿着这个人的设备干呀,双路9654。
现在卖服务器的都在推AMD,推9654 9754。AMD在参数上已经牛的一塌糊度,但是绝大多数材料、化学方面的用户还是在折腾20年之前的mkl, 通过export MKL_DEBUG_CPU_TYPE=5调用avx2。这个是现在的最优解。

AMD这几年的发展,软件商和AMD公司应该很快会在生态上发力。这一代或者下一代,量化类软件应该会AMD YES。如果您能在这个窗口期解决点问题,根本不用担心没人付费。但是,这东东大概率也是地狱级的难度。
窗口期一过,就又会变成现在intel平台上调用vasp,添加个mkl路径,速度就大差不差。
作者
Author:
Picardo    时间: 2023-9-21 15:30
有一说一,有能力搞那个的,除非是对计算特别有兴趣,肯定不会来搞计算的,大把的米可以挣
作者
Author:
wypkdhd    时间: 2023-9-21 17:58
就abin大佬说的,amd编译vasp,我正儿八经见人测试过,用amd自己给的方法,完全不如用intel全家桶,用intel全家桶,还不能用inteloneapi,用intel2019,在编译vasp的时候OFLAG参数如果胡乱写,计算速度慢一倍。http://bbs.keinsci.com/thread-36834-1-1.html 这个帖子很明确了。 当然abin大佬让用VASP AOCC这个试试,我最后是看到别人试过了发现不行,所以最后我也没折腾。

就按abin大大佬给的9242和9654的对比。“Intel平台上, 需要7个小时算完; 在AMD平台上,  需要15到16个小时”. 那是不是可以这样说,好好编译的amd起码和intel在同等核心数是可以持平的。

所以,双路9754没啥说的。
作者
Author:
abin    时间: 2023-9-21 18:38
wypkdhd 发表于 2023-9-21 17:58
就abin大佬说的,amd编译vasp,我正儿八经见人测试过,用amd自己给的方法,完全不如用intel全家桶,用intel ...

我没有同等的设备,
没有实际测试过。

我只是控制同样八个核心,
AMD 7735H ,比8369B,同样八个核心,慢很多。

VASP CP2K都有测试。
AMD 480多秒
Intel 230多秒。Intel测试得时候,只是要了8个核心,16G内存,机器其他资源还在跑其他任务。

AMD平台有测试 AOCC+AOCL,以及Intel2019, OneAPI
Intel 平台就是OneAPI。

从纸面数据看,AMD应该快一些的……不过,没有遥遥领先……

可能测试场景,循环在处理器缓存就搞定了。
科学计算,处理器那点缓存是不够用的。


AMD平台用AOCC跑的快,
是AMD自己写的,不是我说的……

我没有设备,没法验证这个说法是否可靠。

作者
Author:
abin    时间: 2023-9-21 18:43
另,根据VASP官方说法,
使用AoCC套件,需要使用特定的MPI,
否则容易有内存溢出……他们的站点有写的……

十多万的设备,
买之前充分调研……
硬件买回来,软件跑不起来,
也就是废品一堆……


作者
Author:
Entropy.S.I    时间: 2023-9-21 19:14
本帖最后由 Entropy.S.I 于 2023-9-21 19:24 编辑

9754不必考虑,从架构上来说就有明显缺陷。每1个CCD、2个CCX、16个核心,共享一条GMI链路,并且全核心满载频率也远低于9654。

本周我会测试双路9654和双路9754,但是个人做不到覆盖太多的应用,所以欢迎有能力的朋友带着你们的应用过来做benchmark,时间宝贵,需要事先制定测试计划。最终的数据可能会以视频的形式发布在极客湾频道,这是头部科技自媒体,影响力会很大,所以注意测试的严谨性。

双路9654 + 768GB内存,如果DIY攒机,目前价格~8万。

作者
Author:
Janus    时间: 2023-9-22 13:21
Picardo 发表于 2023-9-21 15:30
有一说一,有能力搞那个的,除非是对计算特别有兴趣,肯定不会来搞计算的,大把的米可以挣

是的
作者
Author:
Janus    时间: 2023-9-22 13:22
Entropy.S.I 发表于 2023-9-21 19:14
9754不必考虑,从架构上来说就有明显缺陷。每1个CCD、2个CCX、16个核心,共享一条GMI链路,并且全核心满载 ...

期待大佬的评测结果
作者
Author:
Janus    时间: 2023-9-22 13:24
abin 发表于 2023-9-21 18:43
另,根据VASP官方说法,
使用AoCC套件,需要使用特定的MPI,
否则容易有内存溢出……他们的站点有写的… ...

看了看,目前来说,Intel的还是靠谱点。基本上intel了
作者
Author:
biogon    时间: 2023-9-22 14:43
wypkdhd 发表于 2023-9-21 17:58
就abin大佬说的,amd编译vasp,我正儿八经见人测试过,用amd自己给的方法,完全不如用intel全家桶,用intel ...

amd自己给的方法那纯粹是懒人方法,只能保证能用罢了
作者
Author:
Entropy.S.I    时间: 2023-9-25 16:21
本帖最后由 Entropy.S.I 于 2023-9-25 16:22 编辑
Janus 发表于 2023-9-22 13:24
看了看,目前来说,Intel的还是靠谱点。基本上intel了

测试结果出来了,VASP6.4.2,AOCC4.1+AOCL4.1,双路EPYC 9654(192个Zen4内核,实际频率3.7GHz)速度是双路Xeon 8383C(80个SunnyCove内核,实际频率2.5GHz-3.6GHz)的2.3倍。那个双路9654只有2*双路Xeon 9242不到一半速度的,属实闹笑话。
作者
Author:
abin    时间: 2023-9-25 18:03
本帖最后由 abin 于 2023-9-25 18:21 编辑
Entropy.S.I 发表于 2023-9-25 16:21
测试结果出来了,VASP6.4.2,AOCC4.1+AOCL4.1,双路EPYC 9654(192个Zen4内核,实际频率3.7GHz)速度是双 ...

192/80=2.4

实际2.3倍……

基本符合纸面数据……


要是在一个主板上,
以Intel双路1.5倍的价格,买到Intel两倍多的核心,
那才是真正的高性价比……



至于我上面提到的真实案例,那的确是一个笑话。
这个案例也说明,买了十几万的设备,
不会摆弄的话,运算效率奇差……
还不如一万元的古董设备呢……

买硬件是一回事情,
让软件顺利跑起来,发挥硬件的设计性能……
还是需要一点技能的。

作者
Author:
Entropy.S.I    时间: 2023-9-25 18:45
abin 发表于 2023-9-25 18:03
192/80=2.4

实际2.3倍……

又做了一些tuning,现在是2.75倍
作者
Author:
Janus    时间: 2023-9-25 23:09
Entropy.S.I 发表于 2023-9-25 16:21
测试结果出来了,VASP6.4.2,AOCC4.1+AOCL4.1,双路EPYC 9654(192个Zen4内核,实际频率3.7GHz)速度是双 ...

按照您的这个结果,可能单路的EPYC 96 core 效益可能更优
作者
Author:
chrinide    时间: 2023-9-26 14:42
Janus 发表于 2023-9-25 23:09
按照您的这个结果,可能单路的EPYC 96 core 效益可能更优

正解,单路并行效率应该会更高一些,牙膏厂的U并行效率一直比按摩店低一些
作者
Author:
Entropy.S.I    时间: 2023-9-26 15:09
本帖最后由 Entropy.S.I 于 2023-9-26 15:28 编辑

VASP等@KiritsuguPapa 的分析吧。目前看来纯泛函(https://github.com/hpc-uk/archer ... in/others/VASP/TiO2)EPYC 9654性能非常理想,但杂化泛函(https://github.com/hpc-uk/archer ... rs/VASP/CdTe_Hybrid)intel这边似乎还有点神秘加成,估计还没调优好,但是没时间了,还要测另一边的9754。

这次我自己主要负责CP2K、G16和ORCA的测试,请别人测试了VASP和COMSOL。

CP2K也需要非常仔细的调优,即使是使用最新的软件、编译器和库,不做并行参数的调优,性能也会比调好后慢一大截。例如H2O-64和H2O-256,单纯MPI*OMP=96*2速度分别是15s、107s;改用MPI*OMP=64*3(考虑平方数个MPI Rank)并且map-by numa(BIOS设置了NPS=4),速度分别提升到14.4s、98s;进一步调优,改用map-by l3cache,改回MPI*OMP=96*2,速度大幅提升到11.6s、79s。

G16和ORCA,双路9654测出来的数据和之前论坛里其他朋友测试出来的7T83/7B13(7763定制马甲)数据对比,性能提升都是100%起步。

作者
Author:
Entropy.S.I    时间: 2023-9-26 15:39
本帖最后由 Entropy.S.I 于 2023-9-26 15:51 编辑
chrinide 发表于 2023-9-26 14:42
正解,单路并行效率应该会更高一些,牙膏厂的U并行效率一直比按摩店低一些

这是什么经验?我印象里intel Xeon由于核间延迟低且均匀,并行效率比AMD EPYC高很多,单颗CPU里甚至不需要做复杂的调优(不过现在intel也开始chiplet了,需要观望观望,从3月份3495X带4090跑GMX的测试结果来看,intel的EMIB还是很强的,增加的延迟非常少,不过这个封装工艺的成本可能比AMD单纯走PCB基板的封装高很多)。
作者
Author:
chrinide    时间: 2023-9-26 16:06
本帖最后由 chrinide 于 2023-9-27 09:42 编辑
Entropy.S.I 发表于 2023-9-26 15:39
这是什么经验?我印象里intel Xeon由于核间延迟低且均匀,并行效率比AMD EPYC高很多,单颗CPU里甚至不需 ...


可惜了PC-GAMESS(Firefly), Alex A. Granovsky是少有的数学功底极强的理论化学家,2017年时候就说Firefly已经搞定了DFT解析频率计算的代码,在做优化,后面就生病了,没两年就走了,Firefly的更新就此停摆已经7年了!哪怕是7年前的代码,Firefly的速度和效率依然不落一直在发展的量化软件。



作者
Author:
Janus    时间: 2023-9-26 19:55
Entropy.S.I 发表于 2023-9-26 15:39
这是什么经验?我印象里intel Xeon由于核间延迟低且均匀,并行效率比AMD EPYC高很多,单颗CPU里甚至不需 ...

也是经验之谈,对一般的体系来说,vasp程序在60多核往后走,瓶颈就不在核芯的数量了。不是非常特殊的体系,192核可能和96核的速度差不了多少,这么来说,单路可能就占优势。
不过9654这颗U也不能用一般的眼光来看,期待后期系统性的报告。
作者
Author:
Weldingspock    时间: 2023-9-26 21:17
有没有大佬之后会测9554,刚好实验室买了这个型号
作者
Author:
Entropy.S.I    时间: 2023-9-26 21:23
Weldingspock 发表于 2023-9-26 21:17
有没有大佬之后会测9554,刚好实验室买了这个型号

我不会专门去协调硬件了。你有9554可以自己测试然后发出来
作者
Author:
abin    时间: 2023-9-27 09:45
Entropy.S.I 发表于 2023-9-25 18:45
又做了一些tuning,现在是2.75倍

考虑到, 注入CP2K,VASP等真实场景的并行计算,
一般会占据很多物理内存, 可以推测, 处理器自身的缓存大小带来的影响可以忽略.

粗略认为, AMD和Intel在支持AVX52指令集方面, 本质性能差异不大.

剩下的差异就是, 核心之间的通讯效率, 每个核心每秒能完成的计算次数(频率), 核心的多少了.

对于并行效率很好的程序而言, 在支持的指令集一致的时候, 显然核心多, 频率高, 更具有优势.
最后再评估, 价格层面的优势大不大?

如果追求在一个主板上, 实现更多的核心, 更多的内存来跑更大的体系,
AMD当然是可以解决问题的.

作者
Author:
元无虚空    时间: 2023-9-27 12:39
chrinide 发表于 2023-9-26 16:06
  • 应该是中古时代的经验,当时还是皓龙的U,我记得测试过当时很多程序的并行效率,确实AMD比同时代的X ...

  • Firefly的Alex真是好人啊,Firefly论坛上的各种疑难杂症他都亲自替你解决得稳稳当当!可敬的人啊!
    作者
    Author:
    renzhogn424    时间: 2023-9-27 14:24
    Entropy.S.I 发表于 2023-9-26 15:09
    VASP等@KiritsuguPapa 的分析吧。目前看来纯泛函(https://github.com/hpc-uk/archer ... in/others/VASP/T ...

    请教一下,如何进行map-by l3cache? MPI*OMP=64*3是export OMP_NUM_THREADS=3 ,然后mpirun -n 64....对吧?
    作者
    Author:
    gog    时间: 2023-9-30 21:55
    renzhogn424 发表于 2023-9-27 14:24
    请教一下,如何进行map-by l3cache? MPI*OMP=64*3是export OMP_NUM_THREADS=3 ,然后mpirun -n 64....对 ...

    应该是这样。但等版主回复确认
    作者
    Author:
    啊不错的飞过海    时间: 2023-10-17 22:00
    renzhogn424 发表于 2023-9-27 14:24
    请教一下,如何进行map-by l3cache? MPI*OMP=64*3是export OMP_NUM_THREADS=3 ,然后mpirun -n 64....对 ...

    用L3的参数按http://bbs.keinsci.com/thread-40077-1-1.html写法是--map-by ppr:2:l3cache,后面的:pe=n控制OpenMP并行。
    MPI程序控制OMP并行靠命令行的--map-by :pe=n控制比OMP_NUM_THREADS好使些,主要是不用管超线程的事,MPI的默认设置就是绑定并吃满这个核上的所有线程。不过对一些用通信线程的程序就不了解了,也许后者效率反而高。
    作者
    Author:
    Janus    时间: 2023-10-24 20:26
    本帖最后由 Janus 于 2023-10-24 20:28 编辑

    差不多决定买9654了。 今天租了3小时的单路9v84 384G内存 测试了一下性,9V84性能同9654。3小时包含系统更新、各类软件安装等。测试比较仓促,没有系统性调试。
    1. CP2K,单路9v84跑H2O-256耗时,131s,8375C 183s,8336C 202s;
    2. VASP,跑一个小任务,取3个LOOP的平均值。AOCC-AOCl的9v84 96核为14s,同时提交两个48核任务到9v84,时间在23.5s;8336C 64核心在16.5s.
    3. 同2的任务,9v84用intel oneapi 编译的vasp,96核心执行时间为20s。
    从编译软件就能感觉出来,这个服务器非常顺滑;vasp是直接改的arch中的模板,cp2k直接抄的“Entropy.S.I”的测评。再稍微优化哈,成绩应该会更好。
    AMD确实YES了,相信AOCC AOCL再更新几版,vasp性能还会提升。


    硬件参数,是否有超频啥的,我不了解。计算中途查看了频率,在3.5GHz。





    欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3