计算化学公社

 找回密码 Forget password
 注册 Register
Views: 15034|回复 Reply: 28
打印 Print 上一主题 Last thread 下一主题 Next thread

[硬件评测] [11/28/21更新]12900KF G16 和 ORCA5 大小核心调度测试(Win11,虚拟机,WSL2 和原生L...

[复制链接 Copy URL]

320

帖子

1

威望

5357

eV
积分
5697

Level 6 (一方通行)

本帖最后由 paramecium86 于 2022-5-31 03:10 编辑

****************************
05/31/2022 更新 使用 Ubuntu22 + Kernel 5.18
G16 0397 几乎没有统计意义上的区别
ORCA5的任务
双杂化单点(分钟) nprocs                     8        12      16
Ubuntu20                                          23.2   22.3    21.2
Ubuntu22+kernel5.18                         18.3   21.3    18

基本上看出 调度上确实新版kernel有提升。 但是这个数据依然比不上MSMPI win版下的数据(24核 14分钟)
********************************
测试平台
12900KF / 开启华硕AI超频 /32GB DDR4 3600  Win11
12900KF  8大核16线程+8小核心对比平台
5900X/ 强制PBO/32GB DDR4 3600 Win11
5900X 12核心24线程
高斯的测试文件使用老朋友Test0397

1. 首先尝试了 VMware16 Pro +CentOS8 发现调度出现问题。无论如何设置%nproc或者 %cpu, 都仅能调动8个小核,所有大核齐刷刷围观。测试成绩惨不忍睹。

2. 使用WSL2 看起来调度正常。所以测试中使用了WSL2。
测试结果如下图1-3



从测试可以看出关闭超线程对于速度有大约10%的提升。并且看起来无论是超线程还是小核心对于高斯的计算应该是没有帮助。8核心最快。
另外在计算中发现虽然看起来%CPU会比%nproc略快一点但是从任务管理器里查看,发现并没有锁定CPU。应该是12代线程调度器和%CPU 可能并无法一起工作。

作为对比我把我以前测过的一些平台上的0397的数据以及让朋友帮我测的和论坛上一些帖子里的结果都放在下面的表格里仅供大家参考。(测试中发现R9 5900X 在win11下比win10慢10%左右,我是用的win11已经是打过AMD补丁的版本。但是还是降了不少效能。)
参考的帖子如下
http://bbs.keinsci.com/thread-26448-1-1.html
http://bbs.keinsci.com/thread-19256-1-1.html

12楼
7502机器有空随便跑了一波分,单路@3.1G平均52s,双路@3.02G平均36s
我刚才试了试8352Y双路,32核平均48s
不过用两个CPU就莫名其妙的耗时增加了
用%CPU指定以后就正常了,平均耗时36s

Biogen大佬测了AMD Rome和三代Scalable的Test0397速度。


以下更新ORCA5.0测试结果

测试计算为 瑞德西韦分子的双杂化单点能计算
! PWPB95 D3 def2-TZVPP def2/J def2-TZVPP/C RIJCOSX tightSCF noautostart miniprint nopop
输入文件见附件。
分别测试了1. 12900KF 默认全开(包括大核心小核心和超线程)
                2. 12900KF 关闭超线程
                3. 12900KF 关闭小核心
                4 5900X作为对比
并分别使用了虚拟机上和win版ORCA5.0.1进行测试。
结果如 图4

总结如下
1. 和高斯的测试类似,虚拟机依然只能调用小核心,猜测这是VMware或者Win11还没有做好适配。或许未来更新版本后会有改观。在关闭小核心后VMware可以正常调用大核心运算。但是速度相比于win版ORCA,要慢一些。而作为对比,在5900X平台上,还是虚拟机平台运行较快。
2. 在相同的nproc设置下,总是关闭超线程时候的win版ORCA最快。而关闭小核心时候最慢。
3. 默认全开且使用全部24线程时候速度最快(14min),而关闭超线程,调用全部大核心和小核心(nproc=16)用时(15.2min);而关闭小核心,仅仅调用大核心和超线程(nproc=16)速度是 (18.6min)
      对比之下,5900X是使用nproc=12 在VMware下速度最快(21.2min)

总的来说,ORCA和高斯调用12代大小核在win11下有些相似。只是高斯应该要关掉超线程会比较快。而ORCA可以保留着超线程。会得到些微的速度提升。而小核心目前来看会对计算速度起到正面作用 但是应该要等待后续VMware或者win11的更新才能正常在虚拟机下进行计算。

*************************************************************以下更新原生linux平台测试结果
使用版本 Ubuntu 20  LTS 默认 Linux内核 5.1

结果如图5,图6

可以看出在原生Linux下,12代大小核的调度略有不同。总结如下
1. Gaussian16 A.03 AVX2
在原生Linux下高斯的 %CPU可以成功地绑定核心。在一些测试后发现。
a. 小核心大概是50%大核心的性能。并且并行计算能力稍微弱于大核心。
b. 超线程对于计算没有任何帮助。可以关掉。
c. 虽然小核心对于计算有些许帮助,但是因为高斯的并行核心多了之后效率同样会下降。全开8大+8小 和 单独用8大核基本上没有任何区别。
d. Win11的WSL2 速度 和 原生Ubuntu20下跑高斯速度基本是一致的。

2. ORCA5.0
a. 经过测试,Ubuntu20下用OpenMPI的ORCA5.0.1 速度比Win11下的使用MSMPI的 win版ORCA5速度要慢。
b. 在Ubuntu20下 超线程和小核心对于ORCA的计算看起来都没有什么帮助,只保留大核的情况下速度最快(但是仍然赶不上24线程全部调用的ORCA5 win版)

经过一系列测试,我目前的看法是12代买来当做入门的一台量化计算的机器并不是很好的选择。虽然大核心性能强悍,已经略微强过5900X,但是大小核的调用不同情况下存在差异。没准不同的软件不同的操作系统都会不同。不如用5950X这类纯大核的·CPU来的省心。如果买了12代平台只是兼顾做计算,只为计算速度的话没必要安装原生Linux. 高斯用WSL2 ,ORCA使用Win版的ORCA会是目前看起来最好的选择。
*********

11/28/2021更新

有坛友提到可以试一试不同的Linux发行版。
测试了一下CentOS8 Stream的版本如图7,图8
对于Gaussian16
如果默认使用%nproc看起来是CentOS8 比Ubuntu20更快一点点。如果是用%CPU绑定核心,那么二者差不多。
对于ORCA5.0.1
CentOS 4核 8核 12核都快过Ubuntu并在12核达到最快。而在16核的时候反而变慢了。这也看出来linux对于12代的调度还是有问题。总的来说还是Win版的ORCA5 运行要比在linux上快不少。

0397对比.jpg (336.07 KB, 下载次数 Times of downloads: 104)

图3_0397各种平台对比

图3_0397各种平台对比

12900k_table.jpg (62.92 KB, 下载次数 Times of downloads: 97)

图1_12900K table

图1_12900K table

12900k_chart.png (90.13 KB, 下载次数 Times of downloads: 86)

图2_12900K chart

图2_12900K chart

orca测试.jpg (285.45 KB, 下载次数 Times of downloads: 82)

图4_ORCA测试

图4_ORCA测试

Ubuntu20_orca.jpg (60.16 KB, 下载次数 Times of downloads: 90)

图6_Ubuntu20_ORCA5

图6_Ubuntu20_ORCA5

Ubuntu20_g16.jpg (171.41 KB, 下载次数 Times of downloads: 87)

图5_Ubuntu20_G16

图5_Ubuntu20_G16

Picture2.jpg (49.24 KB, 下载次数 Times of downloads: 88)

图7 ORCA5 Ubuntu vs CentOS

图7 ORCA5 Ubuntu vs CentOS

Picture1.jpg (132.23 KB, 下载次数 Times of downloads: 91)

图8 G16 Ubuntu vs CentOS8

图8 G16 Ubuntu vs CentOS8

pwpb95_TZ_24cpu.inp

4.58 KB, 下载次数 Times of downloads: 22

评分 Rate

参与人数
Participants 4
威望 +1 eV +15 收起 理由
Reason
muuu2333 + 5 GJ!
akber123 + 5 好物!
ChrisZheng + 5 谢谢
sobereva + 1

查看全部评分 View all ratings

15

帖子

0

威望

23

eV
积分
38

Level 2 能力者

29#
发表于 Post on 2023-2-20 19:36:22 | 只看该作者 Only view this author
多谢各位老师分享经验,真的受益匪浅!

不然我差点就要买酷睿12代了,要真那样,大小核调度的问题我根本搞不定。

7

帖子

0

威望

227

eV
积分
234

Level 3 能力者

28#
发表于 Post on 2023-1-12 17:45:38 | 只看该作者 Only view this author
最近组了台7950x的主机,关闭超线程(发现r23跑分从38000多降到了28000多,关了超线程跑分是会下降这么多吗,不是很懂,有懂的可以解释一下。但是Gaussian用时有一点降低),内存海盗船5200,wsl2-ubuntu20.04,g16 A.03 AVX2,nproc=16跑test0397用时1.8分钟可以给大家参考一下,以及很想知道13900k跑gaussian怎么样,有组13900k的可以提供一下供大家参考,毕竟还是有挺多人在这两个cpu间纠结,我也是看了这个贴子才选择7950x作为cpu的,但是听说最近win和linux对大小核的调度有提高。

320

帖子

1

威望

5357

eV
积分
5697

Level 6 (一方通行)

27#
 楼主 Author| 发表于 Post on 2022-2-17 15:32:50 | 只看该作者 Only view this author
snljty 发表于 2022-2-13 22:10
如果我没理解错htop的输出的话,gromacs 2021.3在i7-12700 RTX2060 WSL2 Ubuntu 20.04上线程调度器也是有 ...

嗯嗯。我这阵子也试了试在windows11下运行Sob大佬编译的Gromacs。CPU版的。   默认开启E core 比 关闭Ecore 只用大核跑 慢一倍。

1187

帖子

5

威望

2841

eV
积分
4129

Level 6 (一方通行)

26#
发表于 Post on 2022-2-13 22:10:24 | 只看该作者 Only view this author
snljty 发表于 2022-2-13 21:39
我这边用17-12700,WSL2 Ubuntu-20.04下开启超线程目前OpenMPI没办法把任务正确绑定在大核上。不管是用''-- ...

如果我没理解错htop的输出的话,gromacs 2021.3在i7-12700 RTX2060 WSL2 Ubuntu 20.04上线程调度器也是有问题的,不管加不加-pin on,都是大小核乱放。

1187

帖子

5

威望

2841

eV
积分
4129

Level 6 (一方通行)

25#
发表于 Post on 2022-2-13 21:39:45 | 只看该作者 Only view this author
本帖最后由 snljty 于 2022-2-13 22:10 编辑

我这边用17-12700(8P核4E核,P核支持且开启HT,E核不支持HT),WSL2 Ubuntu-20.04下开启超线程目前OpenMPI没办法把任务正确绑定在大核上。不管是用''--bind-to core --map-by core'还是使用Rankfile都不行。比如ORCA就是,在各个核心之间反复横跳。

320

帖子

1

威望

5357

eV
积分
5697

Level 6 (一方通行)

24#
 楼主 Author| 发表于 Post on 2021-11-28 18:05:45 | 只看该作者 Only view this author
biogon 发表于 2021-11-27 20:55
可以试试不同发行版的区别。
我这测试的8352Y在ubuntu是比cent os略慢的

嗯嗯,我试了试CentOS8。已经更新在帖子里。整体来说确实要略快于Ubuntu20。

1236

帖子

1

威望

3495

eV
积分
4751

Level 6 (一方通行)

23#
发表于 Post on 2021-11-27 20:55:13 | 只看该作者 Only view this author
paramecium86 发表于 2021-11-22 20:02
更新了原生Linux下的一些测试数据。

可以试试不同发行版的区别。
我这测试的8352Y在ubuntu是比cent os略慢的

320

帖子

1

威望

5357

eV
积分
5697

Level 6 (一方通行)

22#
 楼主 Author| 发表于 Post on 2021-11-22 20:02:03 | 只看该作者 Only view this author
更新了原生Linux下的一些测试数据。

299

帖子

0

威望

1922

eV
积分
2221

Level 5 (御坂)

21#
发表于 Post on 2021-11-22 15:39:56 | 只看该作者 Only view this author
biogon 发表于 2021-11-20 11:43
趁7502机器有空随便跑了一波分,单路@3.1G平均52s,双路@3.02G平均36s,应该是本坛最快记录了,后期试试通 ...

期待详细测试

目前是2696v3的机器,130秒左右。如果三代铂金或者米兰真的能在30秒量级,就有升级机器的动力了

8

帖子

0

威望

954

eV
积分
962

Level 4 (黑子)

20#
发表于 Post on 2021-11-21 14:03:15 | 只看该作者 Only view this author
paramecium86 发表于 2021-11-20 21:32
DDR5 带宽有优势。我觉得跑计算会有一些正面作用。但是我当时装机时候DDR5 全线缺货。就还是装的D4

我 ...

谢谢

320

帖子

1

威望

5357

eV
积分
5697

Level 6 (一方通行)

19#
 楼主 Author| 发表于 Post on 2021-11-20 21:32:33 | 只看该作者 Only view this author
f294540290 发表于 2021-11-20 19:08
请问 DDR5内存 有影响吗
学生自费准备买i5 12600kf 等新主板出来
现在在纠结买5950X 5900X 和12600KF了   ...

DDR5 带宽有优势。我觉得跑计算会有一些正面作用。但是我当时装机时候DDR5 全线缺货。就还是装的D4

我认为就目前测试的这样的结果来看。12代的调用还是有些迷。用不了虚拟机是一个缺陷。虽然大核心确实性能强悍。但是如果用不了小核心。12900K也不过是 5900x的水平。

不知道你的需求是啥。如果是日常使用+兼顾跑跑计算  那用12代还可以吧。
如果主要是用来跑计算的机子,也不想选E5入门平台的话,我还是觉得5900X或者5950X更靠谱。没什么调度问题。而且还能上ECC内存。

1236

帖子

1

威望

3495

eV
积分
4751

Level 6 (一方通行)

18#
发表于 Post on 2021-11-20 21:10:05 | 只看该作者 Only view this author
本帖最后由 biogon 于 2021-11-20 21:17 编辑
gauss98 发表于 2021-11-20 16:38
你这个感觉好得太多了
板上有7742测试也是七十多秒
7502不应该好这么多

这个没有用g09default
7742没有7502*2速度快很正常,另外我这个7502是功耗上限比正常的高的
要是再散热不良实际频率就更低了

8

帖子

0

威望

954

eV
积分
962

Level 4 (黑子)

17#
发表于 Post on 2021-11-20 19:08:58 | 只看该作者 Only view this author
请问 DDR5内存 有影响吗
学生自费准备买i5 12600kf 等新主板出来
现在在纠结买5950X 5900X 和12600KF了  请问有什么建议吗   
目前在学习最基本的软件   未来研究方向应该是发光材料  应该会计算能带这些

299

帖子

0

威望

1922

eV
积分
2221

Level 5 (御坂)

16#
发表于 Post on 2021-11-20 16:38:10 | 只看该作者 Only view this author
biogon 发表于 2021-11-20 11:43
趁7502机器有空随便跑了一波分,单路@3.1G平均52s,双路@3.02G平均36s,应该是本坛最快记录了,后期试试通 ...

你这个感觉好得太多了
板上有7742测试也是七十多秒
7502不应该好这么多

是不是用的g09的数值精度

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 15:05 , Processed in 0.203607 second(s), 26 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list