计算化学公社

 找回密码 Forget password
 注册 Register
Views: 34924|回复 Reply: 44
打印 Print 上一主题 Last thread 下一主题 Next thread

[硬件评测] 【更新8269CY】G16在3990X,8175M,7742等CPU上的表现

[复制链接 Copy URL]

908

帖子

37

威望

5435

eV
积分
7083

Level 6 (一方通行)

本帖最后由 ggdh 于 2020-10-16 21:12 编辑

纸面数据:

3990X:
Cores: 64
Base/Boost:2.9/4.3 GHz
RAM: 4 通道 DDR4-3200
内存带宽:95.37GB/s

8175M X 2:
Cores: 24 X 2 = 48
Base/Boost: 2.5/3.1
RAM: 6 X 2 通道 DDR4-2666
内存带宽:238.42 GB/s

装机内存:
3990X  16G X 4 = 64 G  2400MHz(开启4通路)
8175M 16G X 12 = 192G  2400MHz (开启12通路)

测试任务和脚本:
Gaussian Test397,关键词是:#p rb3lyp/3-21g force test scf=novaracc
用的是
AMD Ryzen 高斯评测(及脚本
中提供的脚本。这个脚本不好用,我过会发个更好用的。

单任务耗时(S)

分析:
1. 对于3990X 使用AVX2版本比SSE版本要快不少(感谢js同学在使用AVX2版本上提供的帮助,加上这个变量才能用:export PGI_FASTMATH_CPU=sandybridge)
2. 低核并行(<=16)情况下,3990X的速度是8175M的1.35倍左右(基本上是频率的比值),高核心并行情况下3990X的并行效率下降更多,最终64核并行反而没有8175M的48核并行快。
可能原因:1,内存带宽不足,2内存总量不足。 1的可能性更大,以为这个体系用不了多少内存。

多任务每任务耗时(S)
对于一个胖节点,实际计算的时候,应该尽量把全部的cpu利用起来才好,这里比较了一下多任务的耗时情况,分别在3990X/8175M上同时运行4/3个16核任务,或者8/6个8核任务。

分析:
比较单任务情况,3990X多任务的耗时大大增加,大约16核/8核任务增加到3倍左右。而8175M的耗时只增加到1.25倍。

多任务算力
为了综合比较3990X核8175M对于多任务的算力,我们采用下面的公式进行计算,这个算力反应了两种cpu马力全开时,运行G16的能力。

分析:
虽然3990X的核心多,但是最终算力不如两块8175M,无论是单任务满载,还是多任务满载。价格是2020/09/06的淘宝价

结论:
根据本次测试,可以发现只用少量的核,3990X是比8175M快的,但是满载的时候3990X的效率下降很明显,最终不如8175M,我怀疑是内存带宽的限制,毕竟一个是4通道,一个是12通道。这个情况也许在使用更高频率的内存后能得到改善。
更新:
有大佬提到EPYC-7742,现在它来了,
双路64核X2=128核,全核睿频大概在2.6GHz,
内存8通道X2,插满16根32G,3200MHz内存。
这里使用了8核算力这个概念,算法是
8核算力=1000/(单个8核任务耗时/同时进行的任务数)
使用这个指标的好处是,能够使得不同核心数的cpu满载,同时消除的单个任务并行效率的影响,从而公平比较不同核心数的cpu的性能。(比如,如果只跑单任务比时间的话,EPYC上是128核并行,耗时70秒,而8175M上是48核并行,耗时90s,这么看,EPYC的算力只有8175M的1.3倍不到,由于单任务并行效率随着核数增多下降,这会导致这种比较中,核心数多的CPU吃亏)根据楼下大佬的提示,Linux内核都更新到5.x,测试文件还是Gaussian的TEST397
结果如下图:


结论:
1. 对于3990X,这里使用了高频3200MHz内存,但是依然出现并行效率严重下降的情况(和2666HMz比没有任何改善)。这说明内存通路的影响可能无法通过提高内存频率来抵消。算力在5任务(40核)时达到最大,满载算力反而下降(这和跑单任务的情况类似,64核并行反而速度变慢)
2. 3970X表现和3990X类似,但是只有32核,所以效率还没开始下降。
3. Intel的几款表现平稳。注意这里E5-2699V4,没有跑满44核,只是用了40核,所以实际算力应该还会稍微高一点(所以其实这里用4核算力来比较更好,但是8175M的平台现在手边没有了,拿不到数据),因此8175M的算力大概是2699V4的1.3~1.4倍,符合牙膏厂的作风。
4. EPYC果然很强,无论是单任务速度,还是并行效率(斜率越大,并行效率下降的越慢),都超过两款Intel。
5. 比较不同的CPU,看它的最大算力就行,根据这个结果:
1个EPYC(平台) = 2.5个 8175M ~ 2.5个 3990X = 3.5个 E5-2699V4 = 8.4个 3970X6. 后面有更多的详细测试,还有测试脚本的介绍:g09/g16速度测试脚本xbench 2.0 【更新2.0,支持numa】
NUMA策略对Gaussian运算速度影响的小研究
http://bbs.keinsci.com/thread-19378-1-1.html 这里biogon大佬也对其他几个cpu做了测试,和这里的输入文件一样,可以做比较。





cpu_bench.xlsx

16.55 KB, 下载次数 Times of downloads: 25

评分 Rate

参与人数
Participants 10
威望 +1 eV +39 收起 理由
Reason
zzy_1234_2001 + 2
ShangChien + 5
silencesola + 2 好物!
Picardo + 5 精品内容
Geyer + 5 谢谢
jimulation + 5 好物!
shalene + 5 赞!
paramecium86 + 5 赞!
sobereva + 1
qinzhong605 + 5 好物!

查看全部评分 View all ratings

65

帖子

0

威望

533

eV
积分
598

Level 4 (黑子)

45#
发表于 Post on 2022-8-23 11:12:10 | 只看该作者 Only view this author
ggdh 发表于 2022-8-22 19:17
http://bbs.keinsci.com/thread-28607-1-1.html
这里面的测试四有大任务的表现
简单的说:大任务对多核 ...

看了,学习了。结果有些意外,大作业更多核还是有些效果的。可能这也就是高斯并行效率的极限了。但还是觉得只测高斯自带的test397太局限了一些,测下那种200个重原子,1800多个基函数,这种实际例子,得出结论可能对大家做计算更有帮助些。

908

帖子

37

威望

5435

eV
积分
7083

Level 6 (一方通行)

44#
 楼主 Author| 发表于 Post on 2022-8-22 19:17:12 | 只看该作者 Only view this author
savorw 发表于 2022-8-18 10:20
测试的作业太小了,换个大些的作业会不会得到不同的结论?

http://bbs.keinsci.com/thread-28607-1-1.html
这里面的测试四有大任务的表现
简单的说:大任务对多核来说更有利

65

帖子

0

威望

533

eV
积分
598

Level 4 (黑子)

43#
发表于 Post on 2022-8-18 10:20:59 | 只看该作者 Only view this author
测试的作业太小了,换个大些的作业会不会得到不同的结论?

25

帖子

0

威望

245

eV
积分
270

Level 3 能力者

42#
发表于 Post on 2022-8-1 16:51:07 | 只看该作者 Only view this author
akber123 发表于 2020-9-6 21:07
一直想不明白,量化计算为什么需要这么高性能,多核,大内存,明明输入文件就几KB。是理论没成熟还是计算程 ...

pople在设计程序的时候已经尽力了

36

帖子

0

威望

583

eV
积分
619

Level 4 (黑子)

41#
发表于 Post on 2021-12-1 16:35:43 | 只看该作者 Only view this author
本帖最后由 Qingming 于 2021-12-1 16:38 编辑

你好,8375C是否有买的价值,内存充足,相比8175M*2,哪个好,能提升多少,性价比大吗?

16

帖子

0

威望

167

eV
积分
183

Level 3 能力者

40#
发表于 Post on 2021-9-28 23:03:24 | 只看该作者 Only view this author
想看3970x和3990x的pro版:3975wx和3995wx的测评,内存开到8通道了.

356

帖子

0

威望

2249

eV
积分
2605

Level 5 (御坂)

39#
发表于 Post on 2020-11-30 20:17:06 | 只看该作者 Only view this author
abin 发表于 2020-9-30 09:30
“G16并行效率40核心左右”,不太严谨。

测试发现, 8168双路, 关闭超线程,

偶看过一个数据图,DFT计算,60核心以下,核心数越多,并行效率就越高。但是到了64核心以上,提升效果是有,但已经没有多大空间了。70核心以上,核心数只能提升5%-10%的效率。128核心以上,并行效率趋平,提升很弱。

上述数据,主要是针对vasp5.4做的测试。

后面vasp6的版本,增加了openmp这个编译选项,核心数越多,并行效率提升也就越明显。针对大体系大计算量的计算,计算时间缩短不少(这只是推测,目前还没有谁专门做大体系计算给出对比数据)。

计算速度,一是看硬件(通道数,缓存,频率,核心数),二看软件优化情况。

组内,有机器用就可以。如果不是靠研究代码、优化计算模块发论文、或者卖硬件,就不必纠结这个。50-60核心,四五个人的一个小组用,差不多足够了。

908

帖子

37

威望

5435

eV
积分
7083

Level 6 (一方通行)

38#
 楼主 Author| 发表于 Post on 2020-11-27 18:47:08 | 只看该作者 Only view this author
gauss98 发表于 2020-11-7 11:45
牛叉,发个你的测试文件,我自己对比下?
谢谢

http://bbs.keinsci.com/thread-19215-1-1.html
测试脚本在这个帖子里面
测试脚本就包括了测试文件,直接用即可

309

帖子

0

威望

2002

eV
积分
2311

Level 5 (御坂)

37#
发表于 Post on 2020-11-7 22:22:55 | 只看该作者 Only view this author
大佬,难得有个7742这么高端的u
用来跑test397测试,或者多任务测试,太对不起这个机器了。买这个高端机不是跑多任务的,是跑大的单任务的
能不能跑个大任务,测试下并行效率?包含优化和频率
谢谢!

309

帖子

0

威望

2002

eV
积分
2311

Level 5 (御坂)

36#
发表于 Post on 2020-11-7 11:45:08 | 只看该作者 Only view this author
abin 发表于 2020-9-30 09:30
“G16并行效率40核心左右”,不太严谨。

测试发现, 8168双路, 关闭超线程,

牛叉,发个你的测试文件,我自己对比下?
谢谢

关注单节点单任务性能

79

帖子

2

威望

719

eV
积分
838

Level 4 (黑子)

35#
发表于 Post on 2020-10-2 15:32:20 | 只看该作者 Only view this author
pyscf 发表于 2020-10-1 05:42
linda并行加速觉得没效果?
只能说明你的集群网络太差
起步必须ib级别的网络互联

没懂,测40核以上需要linda么?
人也不是不能双8280改一下调用核数来测啊
再往上还有2049u一类准系统不是

161

帖子

0

威望

627

eV
积分
788

Level 4 (黑子)

蓝卫兵

34#
发表于 Post on 2020-10-1 05:42:59 | 只看该作者 Only view this author
Geyer 发表于 2020-9-25 15:38
好测评!
顺便谈一个小tip,记得在某处看到过g16的并行核数效率上限大概在40核左右
类似双6254之类的表现 ...

linda并行加速觉得没效果?
只能说明你的集群网络太差
起步必须ib级别的网络互联
完结撒花
B样条插值
个人专栏https://zhuanlan.zhihu.com/p/21936803

339

帖子

0

威望

5049

eV
积分
5388

Level 6 (一方通行)

33#
发表于 Post on 2020-9-30 21:13:58 来自手机 | 只看该作者 Only view this author
abin 发表于 2020-9-30 09:30
“G16并行效率40核心左右”,不太严谨。

测试发现, 8168双路, 关闭超线程,

这个结果超线性了,48核的耗时居然比24核的一半还要少很多,太神奇了

2407

帖子

1

威望

5948

eV
积分
8375

Level 6 (一方通行)

32#
发表于 Post on 2020-9-30 09:30:02 | 只看该作者 Only view this author
Geyer 发表于 2020-9-25 15:38
好测评!
顺便谈一个小tip,记得在某处看到过g16的并行核数效率上限大概在40核左右
类似双6254之类的表现 ...

“G16并行效率40核心左右”,不太严谨。

测试发现, 8168双路, 关闭超线程,
同一个DFT计算,
24 cpu, 18200s
48 cpu, 7152s

效率如何,自己看哦。

其他类型计算不晓得。
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2025-8-12 23:36 , Processed in 0.186089 second(s), 25 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list