计算化学公社

标题: 【更新8269CY】G16在3990X,8175M,7742等CPU上的表现 [打印本页]

作者
Author:
ggdh    时间: 2020-9-6 15:40
标题: 【更新8269CY】G16在3990X,8175M,7742等CPU上的表现
本帖最后由 ggdh 于 2020-10-16 21:12 编辑

纸面数据:

3990X:
Cores: 64
Base/Boost:2.9/4.3 GHz
RAM: 4 通道 DDR4-3200
内存带宽:95.37GB/s

8175M X 2:
Cores: 24 X 2 = 48
Base/Boost: 2.5/3.1
RAM: 6 X 2 通道 DDR4-2666
内存带宽:238.42 GB/s

装机内存:
3990X  16G X 4 = 64 G  2400MHz(开启4通路)
8175M 16G X 12 = 192G  2400MHz (开启12通路)

测试任务和脚本:
Gaussian Test397,关键词是:#p rb3lyp/3-21g force test scf=novaracc
用的是
AMD Ryzen 高斯评测(及脚本
中提供的脚本。这个脚本不好用,我过会发个更好用的。

单任务耗时(S)
(, 下载次数 Times of downloads: 87)
分析:
1. 对于3990X 使用AVX2版本比SSE版本要快不少(感谢js同学在使用AVX2版本上提供的帮助,加上这个变量才能用:export PGI_FASTMATH_CPU=sandybridge)
2. 低核并行(<=16)情况下,3990X的速度是8175M的1.35倍左右(基本上是频率的比值),高核心并行情况下3990X的并行效率下降更多,最终64核并行反而没有8175M的48核并行快。
可能原因:1,内存带宽不足,2内存总量不足。 1的可能性更大,以为这个体系用不了多少内存。

多任务每任务耗时(S)
对于一个胖节点,实际计算的时候,应该尽量把全部的cpu利用起来才好,这里比较了一下多任务的耗时情况,分别在3990X/8175M上同时运行4/3个16核任务,或者8/6个8核任务。
(, 下载次数 Times of downloads: 83)
分析:
比较单任务情况,3990X多任务的耗时大大增加,大约16核/8核任务增加到3倍左右。而8175M的耗时只增加到1.25倍。

多任务算力
为了综合比较3990X核8175M对于多任务的算力,我们采用下面的公式进行计算,这个算力反应了两种cpu马力全开时,运行G16的能力。
(, 下载次数 Times of downloads: 94)
分析:
虽然3990X的核心多,但是最终算力不如两块8175M,无论是单任务满载,还是多任务满载。价格是2020/09/06的淘宝价

结论:
根据本次测试,可以发现只用少量的核,3990X是比8175M快的,但是满载的时候3990X的效率下降很明显,最终不如8175M,我怀疑是内存带宽的限制,毕竟一个是4通道,一个是12通道。这个情况也许在使用更高频率的内存后能得到改善。
更新:
有大佬提到EPYC-7742,现在它来了,
双路64核X2=128核,全核睿频大概在2.6GHz,
内存8通道X2,插满16根32G,3200MHz内存。
这里使用了8核算力这个概念,算法是
8核算力=1000/(单个8核任务耗时/同时进行的任务数)
使用这个指标的好处是,能够使得不同核心数的cpu满载,同时消除的单个任务并行效率的影响,从而公平比较不同核心数的cpu的性能。(比如,如果只跑单任务比时间的话,EPYC上是128核并行,耗时70秒,而8175M上是48核并行,耗时90s,这么看,EPYC的算力只有8175M的1.3倍不到,由于单任务并行效率随着核数增多下降,这会导致这种比较中,核心数多的CPU吃亏)根据楼下大佬的提示,Linux内核都更新到5.x,测试文件还是Gaussian的TEST397
结果如下图:

(, 下载次数 Times of downloads: 94)
结论:
1. 对于3990X,这里使用了高频3200MHz内存,但是依然出现并行效率严重下降的情况(和2666HMz比没有任何改善)。这说明内存通路的影响可能无法通过提高内存频率来抵消。算力在5任务(40核)时达到最大,满载算力反而下降(这和跑单任务的情况类似,64核并行反而速度变慢)
2. 3970X表现和3990X类似,但是只有32核,所以效率还没开始下降。
3. Intel的几款表现平稳。注意这里E5-2699V4,没有跑满44核,只是用了40核,所以实际算力应该还会稍微高一点(所以其实这里用4核算力来比较更好,但是8175M的平台现在手边没有了,拿不到数据),因此8175M的算力大概是2699V4的1.3~1.4倍,符合牙膏厂的作风。
4. EPYC果然很强,无论是单任务速度,还是并行效率(斜率越大,并行效率下降的越慢),都超过两款Intel。
5. 比较不同的CPU,看它的最大算力就行,根据这个结果:
1个EPYC(平台) = 2.5个 8175M ~ 2.5个 3990X = 3.5个 E5-2699V4 = 8.4个 3970X6. 后面有更多的详细测试,还有测试脚本的介绍:g09/g16速度测试脚本xbench 2.0 【更新2.0,支持numa】
NUMA策略对Gaussian运算速度影响的小研究
http://bbs.keinsci.com/thread-19378-1-1.html 这里biogon大佬也对其他几个cpu做了测试,和这里的输入文件一样,可以做比较。






作者
Author:
llzz0309    时间: 2020-9-6 16:39
这个测试无法下结论。首先3900x的内存带宽限制了,这是明显的。第二,要清楚使用linux系统的内核,低版本的linux内核不支持amd zen2的睿频(5.x以上的内核很好支持睿频)。
作者
Author:
ggdh    时间: 2020-9-6 19:12
本帖最后由 ggdh 于 2020-9-6 19:20 编辑
llzz0309 发表于 2020-9-6 16:39
这个测试无法下结论。首先3900x的内存带宽限制了,这是明显的。第二,要清楚使用linux系统的内核,低版本的 ...

因为目前已经开启四通道了,所以当前的结论就是如果不用高频内存,3990X的内存带宽应该是不够的
另外 用的ubuntu 18 ,系统的内核版本应该够了把?
作者
Author:
llzz0309    时间: 2020-9-6 20:52
ggdh 发表于 2020-9-6 19:12
因为目前已经开启四通道了,所以当前的结论就是如果不用高频内存,3990X的内存带宽应该是不够的
另外 用 ...

18是不够的,zen2是19年下半年发布的,内核肯定没有针对zen2优化。你可以在计算时通过cat /proc/cpuinfo |grep MHz 查看下主频,能在4GHz左右,基本就代表顺利睿频了。目前来,说很多ZEN2架构的cpu做计算性能不好的原因都是没考虑linux系统下的睿频。
作者
Author:
akber123    时间: 2020-9-6 21:07
一直想不明白,量化计算为什么需要这么高性能,多核,大内存,明明输入文件就几KB。是理论没成熟还是计算程序做的还不够好,,,
作者
Author:
ggdh    时间: 2020-9-6 21:10
本帖最后由 ggdh 于 2020-9-6 21:14 编辑
llzz0309 发表于 2020-9-6 20:52
18是不够的,zen2是19年下半年发布的,内核肯定没有针对zen2优化。你可以在计算时通过cat /proc/cpuinfo  ...

谢谢!我下次测的时候注意这个问题。换成ubuntu 20,这个kernal 5.4 应该够了吧


作者
Author:
ggdh    时间: 2020-9-6 21:11
akber123 发表于 2020-9-6 21:07
一直想不明白,量化计算为什么需要这么高性能,多核,大内存,明明输入文件就几KB。是理论没成熟还是计算程 ...

你想想,你的输入文件也是一个单细胞而已。最后还不是需要吃那么多东西,花那么多钱。。
作者
Author:
sobereva    时间: 2020-9-6 21:21
非常有价值的测试,这是很多人关注的焦点。
一开始的8176M X 2应该是8175M X 2
作者
Author:
sobereva    时间: 2020-9-6 21:25
akber123 发表于 2020-9-6 21:07
一直想不明白,量化计算为什么需要这么高性能,多核,大内存,明明输入文件就几KB。是理论没成熟还是计算程 ...

搞清楚算法自然就明白了
作者
Author:
ggdh    时间: 2020-9-6 21:53
sobereva 发表于 2020-9-6 21:21
非常有价值的测试,这是很多人关注的焦点。
一开始的8176M X 2应该是8175M X 2

谢谢,已更正,下周更新 3990X在ubuntu 20 下加高频内存的测试结果
作者
Author:
啦啦黑还黑    时间: 2020-9-6 22:40
本帖最后由 啦啦黑还黑 于 2020-9-6 22:45 编辑

为啥用3990x,这个本来就不是为服务器准备的。双路epyc 7452 比 8175M要快。
同样64核,用AMD 7742 比 3990X在 vasp Gaussian等程序的表现都好多的。价格还更便宜。

作者
Author:
ggdh    时间: 2020-9-6 23:31
啦啦黑还黑 发表于 2020-9-6 22:40
为啥用3990x,这个本来就不是为服务器准备的。双路epyc 7452 比 8175M要快。
同样64核,用AMD 7742 比 399 ...

大神来啦!
7452好像价格是8175M的两倍多。可惜我弄不到啊!不然一定测一下,我更想测的是7542。这个铁定快。。
用AMD平台的时候编译VASP的话,可以用intel数学库么?vasp编译好像必须要MKL才能快起来吧?

作者
Author:
k64_cc    时间: 2020-9-7 08:40
ggdh 发表于 2020-9-6 23:31
大神来啦!
7452好像价格是8175M的两倍多。可惜我弄不到啊!不然一定测一下,我更想测的是7542。这个铁 ...

Intel数学库随便用。就算不是intel CPU也能用intel编译器的。
作者
Author:
biogon    时间: 2020-9-7 09:14
看样子64核配上四通道内存还是不够用,等再过些日子我用7742做个测试
作者
Author:
啦啦黑还黑    时间: 2020-9-7 09:24
biogon 发表于 2020-9-7 09:14
看样子64核配上四通道内存还是不够用,等再过些日子我用7742做个测试

是的,通道数很重要,eypc2系列都是8通道cpu,双路16通道3200mhz,这方面优势很大。
作者
Author:
kay    时间: 2020-9-7 09:46
请教一下,G16用8175M,内存条16G*12够用么?扩到32G*12满载跑任务性能会有一定的提升么?
作者
Author:
ggdh    时间: 2020-9-7 11:12
kay 发表于 2020-9-7 09:46
请教一下,G16用8175M,内存条16G*12够用么?扩到32G*12满载跑任务性能会有一定的提升么?

跑DFT估计是没有提升了,但是postHF就不好说,看体系大小了
作者
Author:
fineren    时间: 2020-9-7 12:46
3990X是全新的价格,8175M是拆机的价格吧?这样对比价格意义不大
作者
Author:
ggdh    时间: 2020-9-7 15:47
fineren 发表于 2020-9-7 12:46
3990X是全新的价格,8175M是拆机的价格吧?这样对比价格意义不大

这是站在消费者角度比较嘛。。。话说AMD有没有拆机的cpu啊?
作者
Author:
biogon    时间: 2020-9-7 19:06
ggdh 发表于 2020-9-7 15:47
这是站在消费者角度比较嘛。。。话说AMD有没有拆机的cpu啊?

epyc有,县城撕裂者没有
作者
Author:
ggdh    时间: 2020-9-13 23:33
biogon 发表于 2020-9-7 09:14
看样子64核配上四通道内存还是不够用,等再过些日子我用7742做个测试

大佬,你要的7742来了。。
作者
Author:
biogon    时间: 2020-9-14 09:35
ggdh 发表于 2020-9-13 23:33
大佬,你要的7742来了。。

我们这动作太慢了,等我们的机器装好了我也发个7742的测试
作者
Author:
chrinide    时间: 2020-9-15 13:52
看来宵龙一如既往的并行效率高,看来要开始捡按摩店的垃圾了
作者
Author:
biogon    时间: 2020-9-16 19:26
chrinide 发表于 2020-9-15 13:52
看来宵龙一如既往的并行效率高,看来要开始捡按摩店的垃圾了

估计zen3的上来以后会有很多2代的船了
作者
Author:
ggdh    时间: 2020-9-16 19:52
biogon 发表于 2020-9-16 19:26
估计zen3的上来以后会有很多2代的船了

船是什么梗啊 不懂。。
作者
Author:
biogon    时间: 2020-9-16 20:00
ggdh 发表于 2020-9-16 19:52
船是什么梗啊 不懂。。

搜索大船CPU就懂了
作者
Author:
pyscf    时间: 2020-9-19 05:35
这个测试本身的定位就不对
ryzen是消费级CPU xeon是专业服务器端CPU 两者平台就不一样
xeon对标的只能是amd的epyc

amd的制程牛x YES
作者
Author:
ggdh    时间: 2020-9-19 17:28
pyscf 发表于 2020-9-19 05:35
这个测试本身的定位就不对
ryzen是消费级CPU xeon是专业服务器端CPU 两者平台就不一样
xeon对标的只能是 ...

虽说不具可比性,3990X的纸面数据确实比8175M X 2 强啊(除了内存通道数)。
做这个测试之前 我也没底到底哪个会更强一些。
作者
Author:
pyscf    时间: 2020-9-20 06:41
ggdh 发表于 2020-9-19 17:28
虽说不具可比性,3990X的纸面数据确实比8175M X 2 强啊(除了内存通道数)。
做这个测试之前 我也没底到 ...

简单做乘法的做法很可笑
n卡几千个cuda core乘以频率 呵呵
现在的很多arm架构的cpu也是几十个核心...
作者
Author:
Geyer    时间: 2020-9-25 15:38
好测评!
顺便谈一个小tip,记得在某处看到过g16的并行核数效率上限大概在40核左右
类似双6254之类的表现应该会好一些?
以及3970x这种u是不锁的,如果超上去表现应该还会有改善(比如全核4.2应该会是一个比较容易达到的水平)
毕竟买双7742跑一堆8核任务比较效率也不会是一般使用场景,更多时候购买昂贵的server还是追求单节点单任务算力最大化的
作者
Author:
biogon    时间: 2020-9-29 19:01
Geyer 发表于 2020-9-25 15:38
好测评!
顺便谈一个小tip,记得在某处看到过g16的并行核数效率上限大概在40核左右
类似双6254之类的表现 ...

6254实测性能也就那样,单核多核对上7742都是毫无胜算
作者
Author:
abin    时间: 2020-9-30 09:30
Geyer 发表于 2020-9-25 15:38
好测评!
顺便谈一个小tip,记得在某处看到过g16的并行核数效率上限大概在40核左右
类似双6254之类的表现 ...

“G16并行效率40核心左右”,不太严谨。

测试发现, 8168双路, 关闭超线程,
同一个DFT计算,
24 cpu, 18200s
48 cpu, 7152s

效率如何,自己看哦。

其他类型计算不晓得。
作者
Author:
chrinide    时间: 2020-9-30 21:13
abin 发表于 2020-9-30 09:30
“G16并行效率40核心左右”,不太严谨。

测试发现, 8168双路, 关闭超线程,

这个结果超线性了,48核的耗时居然比24核的一半还要少很多,太神奇了
作者
Author:
pyscf    时间: 2020-10-1 05:42
Geyer 发表于 2020-9-25 15:38
好测评!
顺便谈一个小tip,记得在某处看到过g16的并行核数效率上限大概在40核左右
类似双6254之类的表现 ...

linda并行加速觉得没效果?
只能说明你的集群网络太差
起步必须ib级别的网络互联
完结撒花
作者
Author:
Geyer    时间: 2020-10-2 15:32
pyscf 发表于 2020-10-1 05:42
linda并行加速觉得没效果?
只能说明你的集群网络太差
起步必须ib级别的网络互联

没懂,测40核以上需要linda么?
人也不是不能双8280改一下调用核数来测啊
再往上还有2049u一类准系统不是
作者
Author:
gauss98    时间: 2020-11-7 11:45
abin 发表于 2020-9-30 09:30
“G16并行效率40核心左右”,不太严谨。

测试发现, 8168双路, 关闭超线程,

牛叉,发个你的测试文件,我自己对比下?
谢谢

关注单节点单任务性能

作者
Author:
gauss98    时间: 2020-11-7 22:22
大佬,难得有个7742这么高端的u
用来跑test397测试,或者多任务测试,太对不起这个机器了。买这个高端机不是跑多任务的,是跑大的单任务的
能不能跑个大任务,测试下并行效率?包含优化和频率
谢谢!

作者
Author:
ggdh    时间: 2020-11-27 18:47
gauss98 发表于 2020-11-7 11:45
牛叉,发个你的测试文件,我自己对比下?
谢谢

http://bbs.keinsci.com/thread-19215-1-1.html
测试脚本在这个帖子里面
测试脚本就包括了测试文件,直接用即可
作者
Author:
gog    时间: 2020-11-30 20:17
abin 发表于 2020-9-30 09:30
“G16并行效率40核心左右”,不太严谨。

测试发现, 8168双路, 关闭超线程,

偶看过一个数据图,DFT计算,60核心以下,核心数越多,并行效率就越高。但是到了64核心以上,提升效果是有,但已经没有多大空间了。70核心以上,核心数只能提升5%-10%的效率。128核心以上,并行效率趋平,提升很弱。

上述数据,主要是针对vasp5.4做的测试。

后面vasp6的版本,增加了openmp这个编译选项,核心数越多,并行效率提升也就越明显。针对大体系大计算量的计算,计算时间缩短不少(这只是推测,目前还没有谁专门做大体系计算给出对比数据)。

计算速度,一是看硬件(通道数,缓存,频率,核心数),二看软件优化情况。

组内,有机器用就可以。如果不是靠研究代码、优化计算模块发论文、或者卖硬件,就不必纠结这个。50-60核心,四五个人的一个小组用,差不多足够了。
作者
Author:
OIrH    时间: 2021-9-28 23:03
想看3970x和3990x的pro版:3975wx和3995wx的测评,内存开到8通道了.
作者
Author:
Qingming    时间: 2021-12-1 16:35
本帖最后由 Qingming 于 2021-12-1 16:38 编辑

你好,8375C是否有买的价值,内存充足,相比8175M*2,哪个好,能提升多少,性价比大吗?
作者
Author:
树独Comche    时间: 2022-8-1 16:51
akber123 发表于 2020-9-6 21:07
一直想不明白,量化计算为什么需要这么高性能,多核,大内存,明明输入文件就几KB。是理论没成熟还是计算程 ...

pople在设计程序的时候已经尽力了
作者
Author:
savorw    时间: 2022-8-18 10:20
测试的作业太小了,换个大些的作业会不会得到不同的结论?
作者
Author:
ggdh    时间: 2022-8-22 19:17
savorw 发表于 2022-8-18 10:20
测试的作业太小了,换个大些的作业会不会得到不同的结论?

http://bbs.keinsci.com/thread-28607-1-1.html
这里面的测试四有大任务的表现
简单的说:大任务对多核来说更有利
作者
Author:
savorw    时间: 2022-8-23 11:12
ggdh 发表于 2022-8-22 19:17
http://bbs.keinsci.com/thread-28607-1-1.html
这里面的测试四有大任务的表现
简单的说:大任务对多核 ...

看了,学习了。结果有些意外,大作业更多核还是有些效果的。可能这也就是高斯并行效率的极限了。但还是觉得只测高斯自带的test397太局限了一些,测下那种200个重原子,1800多个基函数,这种实际例子,得出结论可能对大家做计算更有帮助些。




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3