计算化学公社

 找回密码 Forget password
 注册 Register
Views: 4919|回复 Reply: 14

[硬件评测] g16在8375C和7T83的表现小测评(更正一个错误结论)

[复制链接 Copy URL]

877

帖子

36

威望

4803

eV
积分
6400

Level 6 (一方通行)

发表于 Post on 2022-3-27 13:33:34 | 显示全部楼层 Show all |阅读模式 Reading model
本帖最后由 ggdh 于 2022-4-5 22:23 编辑

测试方法:
使用脚本xbench.sh进行测试, 体系为脚本自带的Gaussian中的test397, 具体测试命令先下面各个部分,使用方法参考:g09/g16速度测试脚本xbench 2.0
测试过程中均考虑了NUMA效应, NUMA策略为分布式(尽可能让两块cpu平均承担任务), NUMA策略的说明见:NUMA策略对Gaussian运算速度影响的小研究

测试环境:
8375C, 7742, 和7T83均为双路
内存: 16*32 3200MHz,
系统: Fedora release 35
内核: 5.15.16-200.fc35.x86_64
G16版本: A03, AVX2版  

算力计算公式:
算力= (1000*同时进行任务数) / 所有任务平均耗时

测试一, 单任务算力测试
说明: 只算一个任务测试命令:
  1. xbench.sh -n 4,4,m -t 1 -r 3 -k "b3lyp 3-21g force test scf=novaracc"
复制代码

222.png
结论:
  • 都用64核的话7T83和8375C速度差不多, 这里8375C的频率是3.5, 而7T83的频率是3.1, 这说明只跑一个任务8375C的高频并不能给他带来更快的速度
  • 并行超过64核后算力提升非常小(所以如果用7T83和7742只跑一个Gaussian任务的话, 血亏)(此结论错误,见后面测试四)


测试二, 多任务算力测试
说明: 同时算多个Gaussian 任务, 每个任务8核
测试命令:
  1. xbench.sh -n 8 -t 1,1,m -r 3 -k "b3lyp 3-21g force test scf=novaracc"
复制代码

111.png
结论:8375C相比8269CY还是打了鸡血的, 估计是intel感觉被amd超的有点猛, 所以决定这次多挤一点牙膏?

测试三, 各种任务的满载性能对比
说明:32核满载是指8375C同时运行2个一样的32核任务, 7T83同时运行4个一样的32核任务
测试命令,以freq任务为例:
  1. xbench.sh -n 32 -t m -r 3 -k "b3lyp 3-21g freq"
复制代码
64核满载是指8375C运行一个64核任务,7T83同时运行2个一样的64核任务
测试命令,以td任务为例:
  1. xbench.sh -n 64 -t m -r 3 -k "b3lyp 3-21g td"
复制代码
333.png
结论:
满载32核或者64核的情况下, 7T83的算力大概是8375C的1.6倍左右.

测试四, 各种大任务的128核vs64核对比
有兄弟想知道大任务用128核相对64核并行是否能显著提升效率, 我也好奇这个, 于是有了这个测试
下面的测试是同时只跑一个任务的结果, 结果如下表:
111.png
结论:
1. 对于大任务,128核比64核有明显的加速,大概可以达到1.4倍算力
2. 1块8375C的满载64核, 基本和1块7T83的半负载(64核)持平或不如

最后,为了方便大家和自己的机器做比较列出几个耗时
体系:test0397
关键词:#p b3lyp 3-21g force test scf=novaracc g09default
并行核数:64
内存:400GB
只跑一个任务
8375C: 31.36秒
7T83:  31.52秒
7742: 36.96秒











g16bench_cpu.xlsx

138.2 KB, 下载次数 Times of downloads: 23

评分 Rate

参与人数
Participants 5
威望 +1 eV +20 收起 理由
Reason
伞阳 + 5 谢谢
Picardo + 5 谢谢分享
丁越 + 5 赞!
gauss98 + 5 期待已久的测试!
sobereva + 1 精品内容

查看全部评分 View all ratings

1853

帖子

1

威望

4104

eV
积分
5977

Level 6 (一方通行)

发表于 Post on 2022-3-27 13:56:20 | 显示全部楼层 Show all
如果考虑到硬件成本因素后,

两者的差异, 是不是没有那么明显了?

或者说, 钱不是问题的情形下, 买贵的?
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
App,  https://gitee.com/hpc4you/linux
hpc4you toolkit,  https://gitee.com/hpc4you/hpc
电邮hpc4you@163.com VX: hpc4you

248

帖子

0

威望

1448

eV
积分
1696

Level 5 (御坂)

发表于 Post on 2022-3-28 11:34:26 | 显示全部楼层 Show all
期待已久的测试!非常感谢!

现在看来,128核并行效率太差了,不知道是不是因为任务太小的原因?
能不能测试一下大任务 64核跟128核的差距?
毕竟一般买单节点高端机主要就是算单个任务的而不是算一堆小任务的

1158

帖子

1

威望

2801

eV
积分
3979

Level 5 (御坂)

发表于 Post on 2022-3-28 14:40:47 | 显示全部楼层 Show all
abin 发表于 2022-3-27 13:56
如果考虑到硬件成本因素后,

两者的差异, 是不是没有那么明显了?

如果不考虑8375带来的供电还有散热问题的话还是划算的,如果考虑这些问题算上去总成本8375不划算,而且8375的板子比7t83的板子贵一大截也是一个问题

1158

帖子

1

威望

2801

eV
积分
3979

Level 5 (御坂)

发表于 Post on 2022-3-28 14:47:25 | 显示全部楼层 Show all
64核跑0397平均要55s左右?这结果不太对吧

877

帖子

36

威望

4803

eV
积分
6400

Level 6 (一方通行)

 楼主 Author| 发表于 Post on 2022-3-28 15:22:38 | 显示全部楼层 Show all
biogon 发表于 2022-3-28 14:47
64核跑0397平均要55s左右?这结果不太对吧

你别吓我啊 我又算了一下,就是55s左右 你是多少啊?

1158

帖子

1

威望

2801

eV
积分
3979

Level 5 (御坂)

发表于 Post on 2022-3-28 15:26:59 | 显示全部楼层 Show all
ggdh 发表于 2022-3-28 15:22
你别吓我啊 我又算了一下,就是55s左右 你是多少啊?

我跑的最快35s

877

帖子

36

威望

4803

eV
积分
6400

Level 6 (一方通行)

 楼主 Author| 发表于 Post on 2022-3-28 15:30:55 | 显示全部楼层 Show all

都没有用g09default
我那个上传的脚本默认好像是开了g09default的

1158

帖子

1

威望

2801

eV
积分
3979

Level 5 (御坂)

发表于 Post on 2022-3-28 15:46:17 | 显示全部楼层 Show all
ggdh 发表于 2022-3-28 15:30
都没有用g09default
我那个上传的脚本默认好像是开了g09default的

用g09default估计会快不少

877

帖子

36

威望

4803

eV
积分
6400

Level 6 (一方通行)

 楼主 Author| 发表于 Post on 2022-3-28 15:55:31 | 显示全部楼层 Show all
biogon 发表于 2022-3-28 15:46
用g09default估计会快不少

我刚试了, 加g09default后7T83是31.52, 8375C是31.36

877

帖子

36

威望

4803

eV
积分
6400

Level 6 (一方通行)

 楼主 Author| 发表于 Post on 2022-3-29 02:05:39 | 显示全部楼层 Show all
gauss98 发表于 2022-3-28 11:34
期待已久的测试!非常感谢!

现在看来,128核并行效率太差了,不知道是不是因为任务太小的原因?

测了,发现大任务128并行的效率提升明显! 多谢提醒

272

帖子

0

威望

3941

eV
积分
4213

Level 6 (一方通行)

发表于 Post on 2022-3-29 10:02:11 | 显示全部楼层 Show all
ggdh 发表于 2022-3-29 02:05
测了,发现大任务128并行的效率提升明显! 多谢提醒

可以测测更高角动量基组,比如def2-QZVPP/cc-PVQZ,从def2svp到def2tzvp, 算法并行效率提升明显,估计高角动量还有提升. 如果测更高的角动量最好换个稍微小一点的体系.

877

帖子

36

威望

4803

eV
积分
6400

Level 6 (一方通行)

 楼主 Author| 发表于 Post on 2022-3-30 09:00:24 | 显示全部楼层 Show all
chrinide 发表于 2022-3-29 10:02
可以测测更高角动量基组,比如def2-QZVPP/cc-PVQZ,从def2svp到def2tzvp, 算法并行效率提升明显,估计高 ...

测了def2-QZVP(已更新在表中), 128核没有进一步的提升了, 看来1.38倍就收敛了

272

帖子

0

威望

3941

eV
积分
4213

Level 6 (一方通行)

发表于 Post on 2022-3-30 14:04:29 | 显示全部楼层 Show all
ggdh 发表于 2022-3-30 09:00
测了def2-QZVP(已更新在表中), 128核没有进一步的提升了, 看来1.38倍就收敛了

看来Gaussian的积分程序一阶导数只优化到f角动量,不过对DFT而言(一阶到f,二阶到d)基本上都算是完全收敛了。Gaussian本质上就是个DFT程序,其他的东西暂时也没有看到它擅长的

248

帖子

0

威望

1448

eV
积分
1696

Level 5 (御坂)

发表于 Post on 2022-4-3 20:36:06 | 显示全部楼层 Show all
大神是否可测测orca的并行效率?
dgt的和dlpno_ccsdt的

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2023-2-5 08:54 , Processed in 0.696800 second(s), 26 queries .

快速回复 返回顶部 返回列表 Return to list