计算化学公社

 找回密码 Forget password
 注册 Register
Views: 2532|回复 Reply: 10
打印 Print 上一主题 Last thread 下一主题 Next thread

[硬件评测] i9 13900K G16测试

[复制链接 Copy URL]

35

帖子

3

威望

794

eV
积分
889

Level 4 (黑子)

跳转到指定楼层 Go to specific reply
楼主
本帖最后由 Kamistry 于 2023-10-4 21:23 编辑

公社好像对13900K的评测较少,最近正好刚组了一台日常使用的13900K机子,稍微做了一下测试。

配置:
i9 13900K
DDR5内存64GB(32GB*2)
ROG 吹雪 Z790-a主板(默认设置,未开启ai超频)

测试环境:almalinux 9.2,g16 A03 AVX2

采用test0397作为输入进行测试。以下所有测试中,指定%mem=48GB,开启超线程。
首先测试了大小核的调度和性能。结果在图一中。其中cpu8p8ht16e代表用%cpu绑定8大核+8大核超线程+16小核,nproc24代表用%nprocshared设定24个核心,其他依此类推。结果表面用%cpu绑定核心的用时比%nprocshared的用时稍短,但测试时基本没有出现小核拼命算大核在旁观的情况,说明至少最新的Linux已经可以较好的调度大小核。另外公社里 [11/28/21更新]12900KF G16 和 ORCA5 大小核心调度测试(Win11,虚拟机,WSL2 和原生L... 的帖子说12代小核没什么用,但我的测试结果表明,至少对与13900K来说,用上小核能减少计算时间。用上16小核(cpu8p16e)用时比8大核(cpu8p)少24%,用上8小核(cpu8p8e,核数相当于13700K)用时比8大核(cpu8p)少11%,特别地,用上15小核(cpu8p15e)时,用时比8大核(cpu8p)少31%。因此可以推测13900K比13700K在速度上有较大的差距。而超线程则影响不大,cpu8p8ht和cpu8p8e用时相当,cpu8p8ht16e和cpu8p16e用时相当。和上文提到的帖子中表格对比,i9 13900K大约8163 48核的水平。

结论:如果用13900K来计算,建议使用%cpu=0-15/2,16-30。


图一 不同link0用时统计

对不同核数也进行了测试。每个核数测试5次,去掉最长和最短用时,剩下3次数据取平均,结果如图二所示,纵坐标为时间的倒数。8核以下速度几乎线性提升,8核以上会有小核和大核超线程的影响,核数越多时间反而可能更长。另外也发现在8核以上奇数核(2k-1)往往比临近的偶数核(2k)更快,总体上在23核和25核用时最短。


图二 不同核数速度曲线

另外发现一个很有意思的事,almalinux直接测试0397,采用cpu8p16e用时109.2s,在almalinux下用distrobox再创建一个almalinux,相同配置测试用时101.7s,反而更快了。对比同样在distrobox下创建的ubuntu23.04 用时是112.3s。



评分 Rate

参与人数
Participants 4
eV +22 收起 理由
Reason
杨bb + 5 牛!
ysc4004 + 4 赞!
harrisonmo + 5 GJ!
sobereva + 8

查看全部评分 View all ratings

846

帖子

16

威望

4634

eV
积分
5800

Level 6 (一方通行)

小屁孩

2#
发表于 Post on 2023-10-5 03:39:54 | 只看该作者 Only view this author
本帖最后由 Entropy.S.I 于 2023-10-5 04:02 编辑

原版Test0397计算了原子受力(i.e., "force"关键词),怀疑你没有写force关键词。

你的测试结果与我首发时测得的结果差异极大(http://bbs.keinsci.com/thread-36747-1-1.html,6楼)。调出当时的log,8P+16E无HT的数据减去l703耗时后是102秒,和你的101.7秒吻合。

建议注明测试所使用的关键词。

原版Test0397有force关键词,并且网络上绝大多数基于Test0397的测试也有force关键词,如果你的测试没有force关键词,那么其很难与其他的测试对比。

最后,原版Test0397压力太低了,建议改用更大的基组,例如def2-SVP。作为参考,关键词"B3LYP/def2SVP g09default force SCF=novaracc",AMD R9 7950X + 96GB 2-ch DDR5 6000MT/s C30的计算耗时是345秒。

推荐阅读:
AMD EPYC 9754 & 9654基准测试:量子化学和第一性原理计算程序
- 向着虚无前进 -

35

帖子

3

威望

794

eV
积分
889

Level 4 (黑子)

3#
 楼主 Author| 发表于 Post on 2023-10-5 08:19:18 | 只看该作者 Only view this author
@Entropy.S.I 感谢老师回复。
测试文件来自Gaussian安装后的tests目录,除link0 的%mem、%cpu或%nprocshared以外没有任何改动。关键词是 "#p rb3lyp/3-21g force test scf=novaracc "。附件是本次测试的log,link0test对应图一结果,nproc-avg对应图二结果(nprocN-[1-5]对应5次计算,去掉用时最长和最短再取平均) i9 13900K 测试结果.zip (7.23 MB, 下载次数 Times of downloads: 10)

另外用老师的关键词"B3LYP/def2SVP g09default force SCF=novaracc",%cpu=0-15/2,16-30,在ubuntu23.04下耗时是314.9s。 def2svp-test0397-ubuntu.log (168.24 KB, 下载次数 Times of downloads: 5)

339

帖子

0

威望

4999

eV
积分
5338

Level 6 (一方通行)

4#
发表于 Post on 2023-10-5 09:15:05 来自手机 | 只看该作者 Only view this author
第一种情况是怎么发现的,太有意思了,有点反常识反逻辑

35

帖子

3

威望

794

eV
积分
889

Level 4 (黑子)

5#
 楼主 Author| 发表于 Post on 2023-10-5 09:26:51 | 只看该作者 Only view this author
chrinide 发表于 2023-10-5 09:15
第一种情况是怎么发现的,太有意思了,有点反常识反逻辑

本来以为8p16e是最好的,然后跑了第二个测试,结果%nprocshared=23和25的时候5次测试用时差不多都少10秒多(大约10%),所以又回去测试了8p15e。感觉可能是调度的原因。

339

帖子

0

威望

4999

eV
积分
5338

Level 6 (一方通行)

6#
发表于 Post on 2023-10-5 14:11:01 来自手机 | 只看该作者 Only view this author
本帖最后由 chrinide 于 2023-10-5 14:18 编辑
Kamistry 发表于 2023-10-5 09:26
本来以为8p16e是最好的,然后跑了第二个测试,结果%nprocshared=23和25的时候5次测试用时差不多都少10秒 ...

真有意思,我用7950X用15核16核17核分别跑了5次,结果15核和17核相当但都比16核平均快了12秒左右!!!这太有趣了,Gaussian的SMP并行奇数核(P±1核)才是正解?
还是说 跟 test0397 这个计算任务有关?

846

帖子

16

威望

4634

eV
积分
5800

Level 6 (一方通行)

小屁孩

7#
发表于 Post on 2023-10-5 14:54:52 | 只看该作者 Only view this author
本帖最后由 Entropy.S.I 于 2023-10-8 06:37 编辑

目前怀疑网上流传的G16 C.02 AVX2是假的AVX2。用原版关键词测试了几颗不同的CPU,A.03 AVX2加export PGI_FASTMATH_CPU=sandybridge的速度都比C.02 AVX2快20-30%,并且前者运行时CPU功耗远高于后者。

几年前也有人提到过A03比C01快http://bbs.keinsci.com/thread-19630-1-1.html



更新:刚刚用b3lyp def2tzvp force scf=novaracc g09default测试了一轮,结果正常了,A03比C02稍慢。查看资源监控可以发现C02每轮SCF迭代之间有个CPU占用率很低的阶段,问题应该出在这里,如果用比较小的基组(比如原版Test0397或者def2-SVP),这个情况对测试结果的影响就会很大。
- 向着虚无前进 -

202

帖子

0

威望

802

eV
积分
1004

Level 4 (黑子)

8#
发表于 Post on 2023-10-14 10:03:31 | 只看该作者 Only view this author
Platinum 8173M 双路机器跑了一下,B3LYP/def2SVP g09default force SCF=novaracc
为342.1s

看来i9高主频确实是比较强

846

帖子

16

威望

4634

eV
积分
5800

Level 6 (一方通行)

小屁孩

9#
发表于 Post on 2023-10-14 13:53:06 | 只看该作者 Only view this author
qchem 发表于 2023-10-14 10:03
Platinum 8173M 双路机器跑了一下,B3LYP/def2SVP g09default force SCF=novaracc
为342.1s

注明哪个版本的Gaussian,原因看前面
- 向着虚无前进 -

202

帖子

0

威望

802

eV
积分
1004

Level 4 (黑子)

10#
发表于 Post on 2023-10-14 16:38:22 | 只看该作者 Only view this author
本帖最后由 qchem 于 2023-10-14 17:19 编辑

版本g16 A03 AVX2
test0397
关键词
#p B3LYP/def2SVP g09default force SCF=novaracc

Platinum 8173M双路,开启HT
使用slurm 20.02.5提交作业
56核
%cpu=0-55 115.4s
%nproc=56  127.8s
18核
%cpu=4-21 758s
%nproc=18  656.9s
%cpu=0-17  759.1s
%cpu=28-45 759.3s

直接提交作业
%cpu=0-55 115.3s
%nproc=56  126.7s


如果多人使用都用%cpu指定,是不是会出错呢


35

帖子

3

威望

794

eV
积分
889

Level 4 (黑子)

11#
 楼主 Author| 发表于 Post on 2023-10-14 23:23:22 | 只看该作者 Only view this author
qchem 发表于 2023-10-14 16:38
版本g16 A03 AVX2
test0397
关键词

我也考虑过这个问题,感觉可能会有冲突。所以我们组现在的脚本是%cpu直接就占用整个节点。

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 18:26 , Processed in 0.177029 second(s), 25 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list