计算化学公社

标题: [11/28/21更新]12900KF G16 和 ORCA5 大小核心调度测试(Win11,虚拟机,WSL2 和原生L... [打印本页]

作者
Author:
paramecium86    时间: 2021-11-19 10:04
标题: [11/28/21更新]12900KF G16 和 ORCA5 大小核心调度测试(Win11,虚拟机,WSL2 和原生L...
本帖最后由 paramecium86 于 2022-5-31 03:10 编辑

****************************
05/31/2022 更新 使用 Ubuntu22 + Kernel 5.18
G16 0397 几乎没有统计意义上的区别
ORCA5的任务
双杂化单点(分钟) nprocs                     8        12      16
Ubuntu20                                          23.2   22.3    21.2
Ubuntu22+kernel5.18                         18.3   21.3    18

基本上看出 调度上确实新版kernel有提升。 但是这个数据依然比不上MSMPI win版下的数据(24核 14分钟)
********************************
测试平台
12900KF / 开启华硕AI超频 /32GB DDR4 3600  Win11
12900KF  8大核16线程+8小核心对比平台
5900X/ 强制PBO/32GB DDR4 3600 Win11
5900X 12核心24线程
高斯的测试文件使用老朋友Test0397

1. 首先尝试了 VMware16 Pro +CentOS8 发现调度出现问题。无论如何设置%nproc或者 %cpu, 都仅能调动8个小核,所有大核齐刷刷围观。测试成绩惨不忍睹。

2. 使用WSL2 看起来调度正常。所以测试中使用了WSL2。
测试结果如下图1-3



从测试可以看出关闭超线程对于速度有大约10%的提升。并且看起来无论是超线程还是小核心对于高斯的计算应该是没有帮助。8核心最快。
另外在计算中发现虽然看起来%CPU会比%nproc略快一点但是从任务管理器里查看,发现并没有锁定CPU。应该是12代线程调度器和%CPU 可能并无法一起工作。

作为对比我把我以前测过的一些平台上的0397的数据以及让朋友帮我测的和论坛上一些帖子里的结果都放在下面的表格里仅供大家参考。(测试中发现R9 5900X 在win11下比win10慢10%左右,我是用的win11已经是打过AMD补丁的版本。但是还是降了不少效能。)
参考的帖子如下
http://bbs.keinsci.com/thread-26448-1-1.html
http://bbs.keinsci.com/thread-19256-1-1.html

12楼
7502机器有空随便跑了一波分,单路@3.1G平均52s,双路@3.02G平均36s
我刚才试了试8352Y双路,32核平均48s
不过用两个CPU就莫名其妙的耗时增加了
用%CPU指定以后就正常了,平均耗时36s

Biogen大佬测了AMD Rome和三代Scalable的Test0397速度。


以下更新ORCA5.0测试结果

测试计算为 瑞德西韦分子的双杂化单点能计算
! PWPB95 D3 def2-TZVPP def2/J def2-TZVPP/C RIJCOSX tightSCF noautostart miniprint nopop
输入文件见附件。
分别测试了1. 12900KF 默认全开(包括大核心小核心和超线程)
                2. 12900KF 关闭超线程
                3. 12900KF 关闭小核心
                4 5900X作为对比
并分别使用了虚拟机上和win版ORCA5.0.1进行测试。
结果如 图4

总结如下
1. 和高斯的测试类似,虚拟机依然只能调用小核心,猜测这是VMware或者Win11还没有做好适配。或许未来更新版本后会有改观。在关闭小核心后VMware可以正常调用大核心运算。但是速度相比于win版ORCA,要慢一些。而作为对比,在5900X平台上,还是虚拟机平台运行较快。
2. 在相同的nproc设置下,总是关闭超线程时候的win版ORCA最快。而关闭小核心时候最慢。
3. 默认全开且使用全部24线程时候速度最快(14min),而关闭超线程,调用全部大核心和小核心(nproc=16)用时(15.2min);而关闭小核心,仅仅调用大核心和超线程(nproc=16)速度是 (18.6min)
      对比之下,5900X是使用nproc=12 在VMware下速度最快(21.2min)

总的来说,ORCA和高斯调用12代大小核在win11下有些相似。只是高斯应该要关掉超线程会比较快。而ORCA可以保留着超线程。会得到些微的速度提升。而小核心目前来看会对计算速度起到正面作用 但是应该要等待后续VMware或者win11的更新才能正常在虚拟机下进行计算。

*************************************************************以下更新原生linux平台测试结果
使用版本 Ubuntu 20  LTS 默认 Linux内核 5.1

结果如图5,图6

可以看出在原生Linux下,12代大小核的调度略有不同。总结如下
1. Gaussian16 A.03 AVX2
在原生Linux下高斯的 %CPU可以成功地绑定核心。在一些测试后发现。
a. 小核心大概是50%大核心的性能。并且并行计算能力稍微弱于大核心。
b. 超线程对于计算没有任何帮助。可以关掉。
c. 虽然小核心对于计算有些许帮助,但是因为高斯的并行核心多了之后效率同样会下降。全开8大+8小 和 单独用8大核基本上没有任何区别。
d. Win11的WSL2 速度 和 原生Ubuntu20下跑高斯速度基本是一致的。

2. ORCA5.0
a. 经过测试,Ubuntu20下用OpenMPI的ORCA5.0.1 速度比Win11下的使用MSMPI的 win版ORCA5速度要慢。
b. 在Ubuntu20下 超线程和小核心对于ORCA的计算看起来都没有什么帮助,只保留大核的情况下速度最快(但是仍然赶不上24线程全部调用的ORCA5 win版)

经过一系列测试,我目前的看法是12代买来当做入门的一台量化计算的机器并不是很好的选择。虽然大核心性能强悍,已经略微强过5900X,但是大小核的调用不同情况下存在差异。没准不同的软件不同的操作系统都会不同。不如用5950X这类纯大核的·CPU来的省心。如果买了12代平台只是兼顾做计算,只为计算速度的话没必要安装原生Linux. 高斯用WSL2 ,ORCA使用Win版的ORCA会是目前看起来最好的选择。
*********

11/28/2021更新

有坛友提到可以试一试不同的Linux发行版。
测试了一下CentOS8 Stream的版本如图7,图8
对于Gaussian16
如果默认使用%nproc看起来是CentOS8 比Ubuntu20更快一点点。如果是用%CPU绑定核心,那么二者差不多。
对于ORCA5.0.1
CentOS 4核 8核 12核都快过Ubuntu并在12核达到最快。而在16核的时候反而变慢了。这也看出来linux对于12代的调度还是有问题。总的来说还是Win版的ORCA5 运行要比在linux上快不少。


作者
Author:
biogon    时间: 2021-11-19 14:42
本帖最后由 biogon 于 2021-11-19 14:52 编辑

我刚才试了试8352Y双路,32核平均48s
不过用两个CPU就莫名其妙的耗时增加了
用%CPU指定以后就正常了,平均耗时36s

这个单路比我以前测的双路6254快了一倍不止

作者
Author:
ahxb    时间: 2021-11-19 17:15
本帖最后由 ahxb 于 2021-11-19 17:18 编辑

这么看来小核没什么用,真要买的话不如12700K/KF,8大4小,还省些钱,功耗也小些,就是缓存小点(L3 25MB,L2 12MB,分别比12900K/KF小了5MB和2MB),可能是按照2小核=1大核砍的,估计影响不大。
WSL2和虚拟机的效率应该差不多,12900K约等于5900X,应该是5900X跨CCD通讯拖了后腿。和5950X估计还有20%-25%的差距。
E5 V3和V4系列确实老了,但毕竟也有年头了,CPU和内存确实很便宜,尤其是E5 2696 V3,但库存主板是越来越少了。
另外想看看ORCA的调度和并行效率怎么样,如果在windows和linux下都能调用8大核跑的话那确实不错,但兼容性还有些小毛病,可能虚拟机里有些程序有问题。据说12400只有6大核,等明年b660主板出了之后,只用高斯计算的学生想买台自用机的话,12700K/KF或12400+b660主板+16g/32g ddr4内存应该是不错的选择。
作者
Author:
gauss98    时间: 2021-11-19 17:17
biogon 发表于 2021-11-19 14:42
我刚才试了试8352Y双路,32核平均48s
不过用两个CPU就莫名其妙的耗时增加了
用%CPU指定以后就正常了,平 ...

你这个是我看到的最高纪录了,是默认的gaussian16  test0397数值精度吗?

我看到的最快也要71秒,你这个36秒,快了一倍了

作者
Author:
paramecium86    时间: 2021-11-19 17:41
biogon 发表于 2021-11-19 14:42
我刚才试了试8352Y双路,32核平均48s
不过用两个CPU就莫名其妙的耗时增加了
用%CPU指定以后就正常了,平 ...

83xx这么猛呀。那更期待Sapphire Rapid这代的服务器U了。大核效能如此好。怼到几十核心算力还是很可观的。应该不输EPYC的旗舰了。
作者
Author:
paramecium86    时间: 2021-11-19 17:44
ahxb 发表于 2021-11-19 17:15
这么看来小核没什么用,真要买的话不如12700K/KF,8大4小,还省些钱,功耗也小些,就是缓存小点(L3 25MB, ...

确实是。按我目前这个测的结果来看, 12700k 跑高斯应该和12900k差不多。还能便宜好多。等板子便宜了应该挺挺值的。可惜这次没试成 DDR5 对于跑计算有没有加成。
作者
Author:
ahxb    时间: 2021-11-19 19:30
paramecium86 发表于 2021-11-19 17:44
确实是。按我目前这个测的结果来看, 12700k 跑高斯应该和12900k差不多。还能便宜好多。等板子便宜了应该 ...

双通道中高频ddr5内存的带宽说不定能赶上不少服务器上的四通道2133mhz ddr3内存,大多数量化计算不重要,另外据说把小核全关掉后avx512也能用,用vasp的可能用得上。但vasp我没怎么用过,似乎是需要自己编译,并且用mpi并行?可能有不小的概率出问题。
作者
Author:
biogon    时间: 2021-11-19 19:33
gauss98 发表于 2021-11-19 17:17
你这个是我看到的最高纪录了,是默认的gaussian16  test0397数值精度吗?

我看到的最快也要71秒,你这 ...

都是默认设置,如果用8378C 8375C等更高功耗的,双路30s内都有可能
作者
Author:
biogon    时间: 2021-11-19 19:45
paramecium86 发表于 2021-11-19 17:41
83xx这么猛呀。那更期待Sapphire Rapid这代的服务器U了。大核效能如此好。怼到几十核心算力还是很可观的 ...

反正这个单路吊打6254确实是出乎意料了
作者
Author:
paramecium86    时间: 2021-11-19 20:24
biogon 发表于 2021-11-19 19:45
反正这个单路吊打6254确实是出乎意料了

这可能说明之前从E5时代到2代 Scalable 一直都是14nm, 这牙膏真是没多少可以挤。。。
作者
Author:
paramecium86    时间: 2021-11-20 10:54
ahxb 发表于 2021-11-19 17:15
这么看来小核没什么用,真要买的话不如12700K/KF,8大4小,还省些钱,功耗也小些,就是缓存小点(L3 25MB, ...

更新了一些ORCA5的测试。
作者
Author:
biogon    时间: 2021-11-20 11:43
本帖最后由 biogon 于 2021-11-20 11:49 编辑

趁7502机器有空随便跑了一波分,单路@3.1G平均52s,双路@3.02G平均36s,应该是本坛最快记录了,后期试试通过拉高功耗墙看能不能得到快的速度,以及现在用的内核4.18的cent os,后面试试换5.x内核的系统,据说速度更快
作者
Author:
biogon    时间: 2021-11-20 11:45
本帖最后由 biogon 于 2021-11-20 11:48 编辑
paramecium86 发表于 2021-11-19 20:24
这可能说明之前从E5时代到2代 Scalable 一直都是14nm, 这牙膏真是没多少可以挤。。。

确实是挤牙膏,我在12楼更新了随便用罗马测的速度
作者
Author:
ahxb    时间: 2021-11-20 13:06
paramecium86 发表于 2021-11-20 10:54
更新了一些ORCA5的测试。

非常详细的测试!看起来就ORCA5而言8大+8小和8大+4小差别不算大,8+4比8大核有明显的加速,比5900x开12核也快不少,应该是大核算完后把小核的任务转交给大核去算了。
另外开8大8小时默认功耗怎么样?250w还是太恐怖了
作者
Author:
paramecium86    时间: 2021-11-20 16:18
本帖最后由 paramecium86 于 2021-11-20 16:19 编辑
ahxb 发表于 2021-11-20 13:06
非常详细的测试!看起来就ORCA5而言8大+8小和8大+4小差别不算大,8+4比8大核有明显的加速,比5900x开12核 ...

8大8小并没有比8大8小并开启超线程省很多。基本是一样的功耗。大概是平均250W+ 瞬时有时候飙到270W。(默认全开是瞬时可以到300W这种数的)我想这个巨量的功耗来自于华硕的AI自动超频。全程我看大核心频率一直是5.0-5.1GHz 频率,大小核都能到100度左右 然后就撞温度墙了。  我用的360水冷压不住这U了。用默认频率功耗会好得多。不过速度上要慢个大概10%左右。
作者
Author:
gauss98    时间: 2021-11-20 16:38
biogon 发表于 2021-11-20 11:43
趁7502机器有空随便跑了一波分,单路@3.1G平均52s,双路@3.02G平均36s,应该是本坛最快记录了,后期试试通 ...

你这个感觉好得太多了
板上有7742测试也是七十多秒
7502不应该好这么多

是不是用的g09的数值精度

作者
Author:
f294540290    时间: 2021-11-20 19:08
请问 DDR5内存 有影响吗
学生自费准备买i5 12600kf 等新主板出来
现在在纠结买5950X 5900X 和12600KF了  请问有什么建议吗   
目前在学习最基本的软件   未来研究方向应该是发光材料  应该会计算能带这些
作者
Author:
biogon    时间: 2021-11-20 21:10
本帖最后由 biogon 于 2021-11-20 21:17 编辑
gauss98 发表于 2021-11-20 16:38
你这个感觉好得太多了
板上有7742测试也是七十多秒
7502不应该好这么多

这个没有用g09default
7742没有7502*2速度快很正常,另外我这个7502是功耗上限比正常的高的
要是再散热不良实际频率就更低了

作者
Author:
paramecium86    时间: 2021-11-20 21:32
f294540290 发表于 2021-11-20 19:08
请问 DDR5内存 有影响吗
学生自费准备买i5 12600kf 等新主板出来
现在在纠结买5950X 5900X 和12600KF了   ...

DDR5 带宽有优势。我觉得跑计算会有一些正面作用。但是我当时装机时候DDR5 全线缺货。就还是装的D4

我认为就目前测试的这样的结果来看。12代的调用还是有些迷。用不了虚拟机是一个缺陷。虽然大核心确实性能强悍。但是如果用不了小核心。12900K也不过是 5900x的水平。

不知道你的需求是啥。如果是日常使用+兼顾跑跑计算  那用12代还可以吧。
如果主要是用来跑计算的机子,也不想选E5入门平台的话,我还是觉得5900X或者5950X更靠谱。没什么调度问题。而且还能上ECC内存。

作者
Author:
f294540290    时间: 2021-11-21 14:03
paramecium86 发表于 2021-11-20 21:32
DDR5 带宽有优势。我觉得跑计算会有一些正面作用。但是我当时装机时候DDR5 全线缺货。就还是装的D4

我 ...

谢谢
作者
Author:
gauss98    时间: 2021-11-22 15:39
biogon 发表于 2021-11-20 11:43
趁7502机器有空随便跑了一波分,单路@3.1G平均52s,双路@3.02G平均36s,应该是本坛最快记录了,后期试试通 ...

期待详细测试

目前是2696v3的机器,130秒左右。如果三代铂金或者米兰真的能在30秒量级,就有升级机器的动力了
作者
Author:
paramecium86    时间: 2021-11-22 20:02
更新了原生Linux下的一些测试数据。
作者
Author:
biogon    时间: 2021-11-27 20:55
paramecium86 发表于 2021-11-22 20:02
更新了原生Linux下的一些测试数据。

可以试试不同发行版的区别。
我这测试的8352Y在ubuntu是比cent os略慢的
作者
Author:
paramecium86    时间: 2021-11-28 18:05
biogon 发表于 2021-11-27 20:55
可以试试不同发行版的区别。
我这测试的8352Y在ubuntu是比cent os略慢的

嗯嗯,我试了试CentOS8。已经更新在帖子里。整体来说确实要略快于Ubuntu20。
作者
Author:
snljty    时间: 2022-2-13 21:39
本帖最后由 snljty 于 2022-2-13 22:10 编辑

我这边用17-12700(8P核4E核,P核支持且开启HT,E核不支持HT),WSL2 Ubuntu-20.04下开启超线程目前OpenMPI没办法把任务正确绑定在大核上。不管是用''--bind-to core --map-by core'还是使用Rankfile都不行。比如ORCA就是,在各个核心之间反复横跳。
作者
Author:
snljty    时间: 2022-2-13 22:10
snljty 发表于 2022-2-13 21:39
我这边用17-12700,WSL2 Ubuntu-20.04下开启超线程目前OpenMPI没办法把任务正确绑定在大核上。不管是用''-- ...

如果我没理解错htop的输出的话,gromacs 2021.3在i7-12700 RTX2060 WSL2 Ubuntu 20.04上线程调度器也是有问题的,不管加不加-pin on,都是大小核乱放。 (, 下载次数 Times of downloads: 104)
作者
Author:
paramecium86    时间: 2022-2-17 15:32
snljty 发表于 2022-2-13 22:10
如果我没理解错htop的输出的话,gromacs 2021.3在i7-12700 RTX2060 WSL2 Ubuntu 20.04上线程调度器也是有 ...

嗯嗯。我这阵子也试了试在windows11下运行Sob大佬编译的Gromacs。CPU版的。   默认开启E core 比 关闭Ecore 只用大核跑 慢一倍。
作者
Author:
SONGJIANHUA    时间: 2023-1-12 17:45
最近组了台7950x的主机,关闭超线程(发现r23跑分从38000多降到了28000多,关了超线程跑分是会下降这么多吗,不是很懂,有懂的可以解释一下。但是Gaussian用时有一点降低),内存海盗船5200,wsl2-ubuntu20.04,g16 A.03 AVX2,nproc=16跑test0397用时1.8分钟可以给大家参考一下,以及很想知道13900k跑gaussian怎么样,有组13900k的可以提供一下供大家参考,毕竟还是有挺多人在这两个cpu间纠结,我也是看了这个贴子才选择7950x作为cpu的,但是听说最近win和linux对大小核的调度有提高。
作者
Author:
Nike_Tiempo    时间: 2023-2-20 19:36
多谢各位老师分享经验,真的受益匪浅!

不然我差点就要买酷睿12代了,要真那样,大小核调度的问题我根本搞不定。




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3