计算化学公社

 找回密码 Forget password
 注册 Register
Views: 5327|回复 Reply: 30
打印 Print 上一主题 Last thread 下一主题 Next thread

[计算机购买] AMD4代 单台 vs 8336C 双路 4台

[复制链接 Copy URL]

34

帖子

0

威望

335

eV
积分
369

Level 3 能力者

跳转到指定楼层 Go to specific reply
楼主
逛了逛帖子,最近聊的最多的是 AMD 9654 四代CPU。
之前都是购买双路8336C,3200 512G,税后3万不到;最近可能会稍微拓展哈,十万的预算,想请大神帮忙建议一下,是3-4台8336C,还是2台单路9654,或者1台双路9754?
主要用的软件是VASP,CP2K。
自我感觉,买AMD有点战未来的感觉。AMD2代在VASP上效果不咋地,128核干不过两颗8336C。4代不知道效果如何,如有这方面的测评,也烦请大神帮忙提供哈。

34

帖子

0

威望

335

eV
积分
369

Level 3 能力者

31#
 楼主 Author| 发表于 Post on 2023-10-24 20:26:26 | 只看该作者 Only view this author
本帖最后由 Janus 于 2023-10-24 20:28 编辑

差不多决定买9654了。 今天租了3小时的单路9v84 384G内存 测试了一下性,9V84性能同9654。3小时包含系统更新、各类软件安装等。测试比较仓促,没有系统性调试。
1. CP2K,单路9v84跑H2O-256耗时,131s,8375C 183s,8336C 202s;
2. VASP,跑一个小任务,取3个LOOP的平均值。AOCC-AOCl的9v84 96核为14s,同时提交两个48核任务到9v84,时间在23.5s;8336C 64核心在16.5s.
3. 同2的任务,9v84用intel oneapi 编译的vasp,96核心执行时间为20s。
从编译软件就能感觉出来,这个服务器非常顺滑;vasp是直接改的arch中的模板,cp2k直接抄的“Entropy.S.I”的测评。再稍微优化哈,成绩应该会更好。
AMD确实YES了,相信AOCC AOCL再更新几版,vasp性能还会提升。


硬件参数,是否有超频啥的,我不了解。计算中途查看了频率,在3.5GHz。

186

帖子

1

威望

548

eV
积分
754

Level 4 (黑子)

30#
发表于 Post on 2023-10-17 22:00:36 | 只看该作者 Only view this author
renzhogn424 发表于 2023-9-27 14:24
请教一下,如何进行map-by l3cache? MPI*OMP=64*3是export OMP_NUM_THREADS=3 ,然后mpirun -n 64....对 ...

用L3的参数按http://bbs.keinsci.com/thread-40077-1-1.html写法是--map-by ppr:2:l3cache,后面的:pe=n控制OpenMP并行。
MPI程序控制OMP并行靠命令行的--map-by :pe=n控制比OMP_NUM_THREADS好使些,主要是不用管超线程的事,MPI的默认设置就是绑定并吃满这个核上的所有线程。不过对一些用通信线程的程序就不了解了,也许后者效率反而高。

356

帖子

0

威望

2249

eV
积分
2605

Level 5 (御坂)

29#
发表于 Post on 2023-9-30 21:55:12 | 只看该作者 Only view this author
renzhogn424 发表于 2023-9-27 14:24
请教一下,如何进行map-by l3cache? MPI*OMP=64*3是export OMP_NUM_THREADS=3 ,然后mpirun -n 64....对 ...

应该是这样。但等版主回复确认

135

帖子

0

威望

1587

eV
积分
1722

Level 5 (御坂)

28#
发表于 Post on 2023-9-27 14:24:44 | 只看该作者 Only view this author
Entropy.S.I 发表于 2023-9-26 15:09
VASP等@KiritsuguPapa 的分析吧。目前看来纯泛函(https://github.com/hpc-uk/archer ... in/others/VASP/T ...

请教一下,如何进行map-by l3cache? MPI*OMP=64*3是export OMP_NUM_THREADS=3 ,然后mpirun -n 64....对吧?

18

帖子

0

威望

735

eV
积分
753

Level 4 (黑子)

27#
发表于 Post on 2023-9-27 12:39:25 | 只看该作者 Only view this author
chrinide 发表于 2023-9-26 16:06
  • 应该是中古时代的经验,当时还是皓龙的U,我记得测试过当时很多程序的并行效率,确实AMD比同时代的X ...

  • Firefly的Alex真是好人啊,Firefly论坛上的各种疑难杂症他都亲自替你解决得稳稳当当!可敬的人啊!

    2407

    帖子

    1

    威望

    5948

    eV
    积分
    8375

    Level 6 (一方通行)

    26#
    发表于 Post on 2023-9-27 09:45:36 | 只看该作者 Only view this author
    Entropy.S.I 发表于 2023-9-25 18:45
    又做了一些tuning,现在是2.75倍

    考虑到, 注入CP2K,VASP等真实场景的并行计算,
    一般会占据很多物理内存, 可以推测, 处理器自身的缓存大小带来的影响可以忽略.

    粗略认为, AMD和Intel在支持AVX52指令集方面, 本质性能差异不大.

    剩下的差异就是, 核心之间的通讯效率, 每个核心每秒能完成的计算次数(频率), 核心的多少了.

    对于并行效率很好的程序而言, 在支持的指令集一致的时候, 显然核心多, 频率高, 更具有优势.
    最后再评估, 价格层面的优势大不大?

    如果追求在一个主板上, 实现更多的核心, 更多的内存来跑更大的体系,
    AMD当然是可以解决问题的.
    High-Performance Computing for You
    为您专属定制的高性能计算解决方案

    更多讯息,请访问:
    https://labitc.top
    http://tophpc.top:8080
    电邮: ask@hpc4you.top

    859

    帖子

    16

    威望

    5082

    eV
    积分
    6261

    Level 6 (一方通行)

    小屁孩

    25#
    发表于 Post on 2023-9-26 21:23:11 | 只看该作者 Only view this author
    Weldingspock 发表于 2023-9-26 21:17
    有没有大佬之后会测9554,刚好实验室买了这个型号

    我不会专门去协调硬件了。你有9554可以自己测试然后发出来
    - 向着虚无前进 -

    207

    帖子

    1

    威望

    1433

    eV
    积分
    1660

    Level 5 (御坂)

    24#
    发表于 Post on 2023-9-26 21:17:40 | 只看该作者 Only view this author
    有没有大佬之后会测9554,刚好实验室买了这个型号

    34

    帖子

    0

    威望

    335

    eV
    积分
    369

    Level 3 能力者

    23#
     楼主 Author| 发表于 Post on 2023-9-26 19:55:56 | 只看该作者 Only view this author
    Entropy.S.I 发表于 2023-9-26 15:39
    这是什么经验?我印象里intel Xeon由于核间延迟低且均匀,并行效率比AMD EPYC高很多,单颗CPU里甚至不需 ...

    也是经验之谈,对一般的体系来说,vasp程序在60多核往后走,瓶颈就不在核芯的数量了。不是非常特殊的体系,192核可能和96核的速度差不了多少,这么来说,单路可能就占优势。
    不过9654这颗U也不能用一般的眼光来看,期待后期系统性的报告。

    339

    帖子

    0

    威望

    5049

    eV
    积分
    5388

    Level 6 (一方通行)

    22#
    发表于 Post on 2023-9-26 16:06:02 来自手机 | 只看该作者 Only view this author
    本帖最后由 chrinide 于 2023-9-27 09:42 编辑
    Entropy.S.I 发表于 2023-9-26 15:39
    这是什么经验?我印象里intel Xeon由于核间延迟低且均匀,并行效率比AMD EPYC高很多,单颗CPU里甚至不需 ...

    • 应该是中古时代的经验,当时还是皓龙的U,我记得测试过当时很多程序的并行效率,确实AMD比同时代的Xeon并行效率高。现在这种数据在网上比较难看到,当年的PC-GAMESS还是最快的量化软件的时代。
    • 可以参考这几个结果 Opteron 2350 (Barcelona) http://classic.chem.msu.su/gran/gamess/barcelona.html,到8核心很多测试的并行标度都是超线性的
    • 同时代Intel Dunnington Xeons MP L7455 http://classic.chem.msu.su/gran/gamess/dunnington.html , 到8核心所有测试的并行标度都是低于线性的
    • 每一个测试可以看到Barcelona的并行标度都是高于Xeons。

    可惜了PC-GAMESS(Firefly), Alex A. Granovsky是少有的数学功底极强的理论化学家,2017年时候就说Firefly已经搞定了DFT解析频率计算的代码,在做优化,后面就生病了,没两年就走了,Firefly的更新就此停摆已经7年了!哪怕是7年前的代码,Firefly的速度和效率依然不落一直在发展的量化软件。


    859

    帖子

    16

    威望

    5082

    eV
    积分
    6261

    Level 6 (一方通行)

    小屁孩

    21#
    发表于 Post on 2023-9-26 15:39:37 | 只看该作者 Only view this author
    本帖最后由 Entropy.S.I 于 2023-9-26 15:51 编辑
    chrinide 发表于 2023-9-26 14:42
    正解,单路并行效率应该会更高一些,牙膏厂的U并行效率一直比按摩店低一些

    这是什么经验?我印象里intel Xeon由于核间延迟低且均匀,并行效率比AMD EPYC高很多,单颗CPU里甚至不需要做复杂的调优(不过现在intel也开始chiplet了,需要观望观望,从3月份3495X带4090跑GMX的测试结果来看,intel的EMIB还是很强的,增加的延迟非常少,不过这个封装工艺的成本可能比AMD单纯走PCB基板的封装高很多)。
    - 向着虚无前进 -

    859

    帖子

    16

    威望

    5082

    eV
    积分
    6261

    Level 6 (一方通行)

    小屁孩

    20#
    发表于 Post on 2023-9-26 15:09:00 | 只看该作者 Only view this author
    本帖最后由 Entropy.S.I 于 2023-9-26 15:28 编辑

    VASP等@KiritsuguPapa 的分析吧。目前看来纯泛函(https://github.com/hpc-uk/archer ... in/others/VASP/TiO2)EPYC 9654性能非常理想,但杂化泛函(https://github.com/hpc-uk/archer ... rs/VASP/CdTe_Hybrid)intel这边似乎还有点神秘加成,估计还没调优好,但是没时间了,还要测另一边的9754。

    这次我自己主要负责CP2K、G16和ORCA的测试,请别人测试了VASP和COMSOL。

    CP2K也需要非常仔细的调优,即使是使用最新的软件、编译器和库,不做并行参数的调优,性能也会比调好后慢一大截。例如H2O-64和H2O-256,单纯MPI*OMP=96*2速度分别是15s、107s;改用MPI*OMP=64*3(考虑平方数个MPI Rank)并且map-by numa(BIOS设置了NPS=4),速度分别提升到14.4s、98s;进一步调优,改用map-by l3cache,改回MPI*OMP=96*2,速度大幅提升到11.6s、79s。

    G16和ORCA,双路9654测出来的数据和之前论坛里其他朋友测试出来的7T83/7B13(7763定制马甲)数据对比,性能提升都是100%起步。

    评分 Rate

    参与人数
    Participants 2
    eV +9 收起 理由
    Reason
    wsz + 4 赞!
    wypkdhd + 5 从107到79提升基本上提升了35%了,编译这个.

    查看全部评分 View all ratings

    - 向着虚无前进 -

    339

    帖子

    0

    威望

    5049

    eV
    积分
    5388

    Level 6 (一方通行)

    19#
    发表于 Post on 2023-9-26 14:42:55 来自手机 | 只看该作者 Only view this author
    Janus 发表于 2023-9-25 23:09
    按照您的这个结果,可能单路的EPYC 96 core 效益可能更优

    正解,单路并行效率应该会更高一些,牙膏厂的U并行效率一直比按摩店低一些

    34

    帖子

    0

    威望

    335

    eV
    积分
    369

    Level 3 能力者

    18#
     楼主 Author| 发表于 Post on 2023-9-25 23:09:38 | 只看该作者 Only view this author
    Entropy.S.I 发表于 2023-9-25 16:21
    测试结果出来了,VASP6.4.2,AOCC4.1+AOCL4.1,双路EPYC 9654(192个Zen4内核,实际频率3.7GHz)速度是双 ...

    按照您的这个结果,可能单路的EPYC 96 core 效益可能更优

    手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

    GMT+8, 2025-8-12 15:31 , Processed in 0.210555 second(s), 22 queries , Gzip On.

    快速回复 返回顶部 返回列表 Return to list