计算化学公社

标题: g16在8375C和7T83的表现小测评(更正一个错误结论) [打印本页]

作者
Author: ggdh 时间: 2022-3-27 13:33
标题: g16在8375C和7T83的表现小测评(更正一个错误结论)
本帖最后由 ggdh 于 2022-4-5 22:23 编辑

测试方法:
使用脚本xbench.sh进行测试, 体系为脚本自带的Gaussian中的test397, 具体测试命令先下面各个部分,使用方法参考:g09/g16速度测试脚本xbench 2.0
测试过程中均考虑了NUMA效应, NUMA策略为分布式(尽可能让两块cpu平均承担任务), NUMA策略的说明见:NUMA策略对Gaussian运算速度影响的小研究

测试环境:
8375C, 7742, 和7T83均为双路
内存: 16*32 3200MHz,
系统: Fedora release 35
内核: 5.15.16-200.fc35.x86_64
G16版本: A03, AVX2版

算力计算公式:
算力= (1000*同时进行任务数) / 所有任务平均耗时

测试一, 单任务算力测试
说明: 只算一个任务测试命令:

xbench.sh -n 4,4,m -t 1 -r 3 -k "b3lyp 3-21g force test scf=novaracc"

复制代码

(, 下载次数 Times of downloads: 223)
结论:

都用64核的话7T83和8375C速度差不多, 这里8375C的频率是3.5, 而7T83的频率是3.1, 这说明只跑一个任务8375C的高频并不能给他带来更快的速度
并行超过64核后算力提升非常小(所以如果用7T83和7742只跑一个Gaussian任务的话, 血亏)(此结论错误,见后面测试四)

测试二, 多任务算力测试
说明: 同时算多个Gaussian 任务, 每个任务8核
测试命令:

xbench.sh -n 8 -t 1,1,m -r 3 -k "b3lyp 3-21g force test scf=novaracc"

复制代码

(, 下载次数 Times of downloads: 208)
结论:8375C相比8269CY还是打了鸡血的, 估计是intel感觉被amd超的有点猛, 所以决定这次多挤一点牙膏?

测试三, 各种任务的满载性能对比
说明:32核满载是指8375C同时运行2个一样的32核任务, 7T83同时运行4个一样的32核任务
测试命令,以freq任务为例:

xbench.sh -n 32 -t m -r 3 -k "b3lyp 3-21g freq"

复制代码

64核满载是指8375C运行一个64核任务,7T83同时运行2个一样的64核任务
测试命令,以td任务为例:

xbench.sh -n 64 -t m -r 3 -k "b3lyp 3-21g td"

复制代码

(, 下载次数 Times of downloads: 193)
结论:
满载32核或者64核的情况下, 7T83的算力大概是8375C的1.6倍左右.

测试四, 各种大任务的128核vs64核对比
有兄弟想知道大任务用128核相对64核并行是否能显著提升效率, 我也好奇这个, 于是有了这个测试
下面的测试是同时只跑一个任务的结果, 结果如下表:
(, 下载次数 Times of downloads: 205)
结论:
1. 对于大任务,128核比64核有明显的加速,大概可以达到1.4倍算力
2. 1块8375C的满载64核, 基本和1块7T83的半负载(64核)持平或不如

最后,为了方便大家和自己的机器做比较列出几个耗时
体系:test0397
关键词:#p b3lyp 3-21g force test scf=novaracc g09default
并行核数:64
内存:400GB
只跑一个任务
8375C: 31.36秒
7T83: 31.52秒
7742: 36.96秒

作者
Author: abin 时间: 2022-3-27 13:56
如果考虑到硬件成本因素后,

两者的差异, 是不是没有那么明显了?

或者说, 钱不是问题的情形下, 买贵的?

作者
Author: gauss98 时间: 2022-3-28 11:34
期待已久的测试！非常感谢！

现在看来，128核并行效率太差了，不知道是不是因为任务太小的原因？
能不能测试一下大任务 64核跟128核的差距？
毕竟一般买单节点高端机主要就是算单个任务的而不是算一堆小任务的

作者
Author: biogon 时间: 2022-3-28 14:40

abin 发表于 2022-3-27 13:56
如果考虑到硬件成本因素后,

两者的差异, 是不是没有那么明显了?

如果不考虑8375带来的供电还有散热问题的话还是划算的，如果考虑这些问题算上去总成本8375不划算，而且8375的板子比7t83的板子贵一大截也是一个问题

作者
Author: biogon 时间: 2022-3-28 14:47
64核跑0397平均要55s左右？这结果不太对吧

作者
Author: ggdh 时间: 2022-3-28 15:22

biogon 发表于 2022-3-28 14:47
64核跑0397平均要55s左右？这结果不太对吧

你别吓我啊我又算了一下,就是55s左右你是多少啊?

作者
Author: biogon 时间: 2022-3-28 15:26

ggdh 发表于 2022-3-28 15:22
你别吓我啊我又算了一下,就是55s左右你是多少啊?

我跑的最快35s

作者
Author: ggdh 时间: 2022-3-28 15:30

biogon 发表于 2022-3-28 15:26
我跑的最快35s

都没有用g09default
我那个上传的脚本默认好像是开了g09default的

作者
Author: biogon 时间: 2022-3-28 15:46

ggdh 发表于 2022-3-28 15:30
都没有用g09default
我那个上传的脚本默认好像是开了g09default的

用g09default估计会快不少

作者
Author: ggdh 时间: 2022-3-28 15:55

biogon 发表于 2022-3-28 15:46
用g09default估计会快不少

我刚试了, 加g09default后7T83是31.52, 8375C是31.36

作者
Author: ggdh 时间: 2022-3-29 02:05

gauss98 发表于 2022-3-28 11:34
期待已久的测试！非常感谢！

现在看来，128核并行效率太差了，不知道是不是因为任务太小的原因？

测了,发现大任务128并行的效率提升明显! 多谢提醒

作者
Author: chrinide 时间: 2022-3-29 10:02

ggdh 发表于 2022-3-29 02:05
测了,发现大任务128并行的效率提升明显! 多谢提醒

可以测测更高角动量基组，比如def2-QZVPP/cc-PVQZ，从def2svp到def2tzvp, 算法并行效率提升明显，估计高角动量还有提升. 如果测更高的角动量最好换个稍微小一点的体系.

作者
Author: ggdh 时间: 2022-3-30 09:00

chrinide 发表于 2022-3-29 10:02
可以测测更高角动量基组，比如def2-QZVPP/cc-PVQZ，从def2svp到def2tzvp, 算法并行效率提升明显，估计高 ...

测了def2-QZVP(已更新在表中), 128核没有进一步的提升了, 看来1.38倍就收敛了

作者
Author: chrinide 时间: 2022-3-30 14:04

ggdh 发表于 2022-3-30 09:00
测了def2-QZVP(已更新在表中), 128核没有进一步的提升了, 看来1.38倍就收敛了

看来Gaussian的积分程序一阶导数只优化到f角动量，不过对DFT而言（一阶到f，二阶到d）基本上都算是完全收敛了。Gaussian本质上就是个DFT程序，其他的东西暂时也没有看到它擅长的

作者
Author: gauss98 时间: 2022-4-3 20:36
大神是否可测测orca的并行效率？
dgt的和dlpno_ccsdt的

欢迎光临计算化学公社 (http://bbs.keinsci.com/)