第10届北京科音分子动力学与GROMACS培训班将于11月11~14日于北京举行,是系统、正确、迅速上手分子动力学计算、掌握GROMACS使用的最好机会!报名已经开始,详情见此链接,欢迎参加

计算化学公社

 找回密码
 现在注册!
查看: 14297|回复: 39

[硬件评测] 【更新8269CY】G16在3990X,8175M,7742等CPU上的表现

[复制链接]

744

帖子

29

威望

3810

eV
积分
5134

Level 6 (一方通行)

发表于 2020-9-6 15:40:33 | 显示全部楼层 |阅读模式
本帖最后由 ggdh 于 2020-10-16 21:12 编辑

纸面数据:

3990X:
Cores: 64
Base/Boost:2.9/4.3 GHz
RAM: 4 通道 DDR4-3200
内存带宽:95.37GB/s

8175M X 2:
Cores: 24 X 2 = 48
Base/Boost: 2.5/3.1
RAM: 6 X 2 通道 DDR4-2666
内存带宽:238.42 GB/s

装机内存:
3990X  16G X 4 = 64 G  2400MHz(开启4通路)
8175M 16G X 12 = 192G  2400MHz (开启12通路)

测试任务和脚本:
Gaussian Test397,关键词是:#p rb3lyp/3-21g force test scf=novaracc
用的是
AMD Ryzen 高斯评测(及脚本
中提供的脚本。这个脚本不好用,我过会发个更好用的。

单任务耗时(S)
sjob.png
分析:
1. 对于3990X 使用AVX2版本比SSE版本要快不少(感谢js同学在使用AVX2版本上提供的帮助,加上这个变量才能用:export PGI_FASTMATH_CPU=sandybridge)
2. 低核并行(<=16)情况下,3990X的速度是8175M的1.35倍左右(基本上是频率的比值),高核心并行情况下3990X的并行效率下降更多,最终64核并行反而没有8175M的48核并行快。
可能原因:1,内存带宽不足,2内存总量不足。 1的可能性更大,以为这个体系用不了多少内存。

多任务每任务耗时(S)
对于一个胖节点,实际计算的时候,应该尽量把全部的cpu利用起来才好,这里比较了一下多任务的耗时情况,分别在3990X/8175M上同时运行4/3个16核任务,或者8/6个8核任务。
mjob.png
分析:
比较单任务情况,3990X多任务的耗时大大增加,大约16核/8核任务增加到3倍左右。而8175M的耗时只增加到1.25倍。

多任务算力
为了综合比较3990X核8175M对于多任务的算力,我们采用下面的公式进行计算,这个算力反应了两种cpu马力全开时,运行G16的能力。
mjobp.png
分析:
虽然3990X的核心多,但是最终算力不如两块8175M,无论是单任务满载,还是多任务满载。价格是2020/09/06的淘宝价

结论:
根据本次测试,可以发现只用少量的核,3990X是比8175M快的,但是满载的时候3990X的效率下降很明显,最终不如8175M,我怀疑是内存带宽的限制,毕竟一个是4通道,一个是12通道。这个情况也许在使用更高频率的内存后能得到改善。
更新:
有大佬提到EPYC-7742,现在它来了,
双路64核X2=128核,全核睿频大概在2.6GHz,
内存8通道X2,插满16根32G,3200MHz内存。
这里使用了8核算力这个概念,算法是
8核算力=1000/(单个8核任务耗时/同时进行的任务数)
使用这个指标的好处是,能够使得不同核心数的cpu满载,同时消除的单个任务并行效率的影响,从而公平比较不同核心数的cpu的性能。(比如,如果只跑单任务比时间的话,EPYC上是128核并行,耗时70秒,而8175M上是48核并行,耗时90s,这么看,EPYC的算力只有8175M的1.3倍不到,由于单任务并行效率随着核数增多下降,这会导致这种比较中,核心数多的CPU吃亏)根据楼下大佬的提示,Linux内核都更新到5.x,测试文件还是Gaussian的TEST397
结果如下图:

fight.png
结论:
1. 对于3990X,这里使用了高频3200MHz内存,但是依然出现并行效率严重下降的情况(和2666HMz比没有任何改善)。这说明内存通路的影响可能无法通过提高内存频率来抵消。算力在5任务(40核)时达到最大,满载算力反而下降(这和跑单任务的情况类似,64核并行反而速度变慢)
2. 3970X表现和3990X类似,但是只有32核,所以效率还没开始下降。
3. Intel的几款表现平稳。注意这里E5-2699V4,没有跑满44核,只是用了40核,所以实际算力应该还会稍微高一点(所以其实这里用4核算力来比较更好,但是8175M的平台现在手边没有了,拿不到数据),因此8175M的算力大概是2699V4的1.3~1.4倍,符合牙膏厂的作风。
4. EPYC果然很强,无论是单任务速度,还是并行效率(斜率越大,并行效率下降的越慢),都超过两款Intel。
5. 比较不同的CPU,看它的最大算力就行,根据这个结果:
1个EPYC(平台) = 2.5个 8175M ~ 2.5个 3990X = 3.5个 E5-2699V4 = 8.4个 3970X6. 后面有更多的详细测试,还有测试脚本的介绍:g09/g16速度测试脚本xbench 2.0 【更新2.0,支持numa】
NUMA策略对Gaussian运算速度影响的小研究
http://bbs.keinsci.com/thread-19378-1-1.html 这里biogon大佬也对其他几个cpu做了测试,和这里的输入文件一样,可以做比较。





cpu_bench.xlsx

16.55 KB, 下载次数: 10

评分

参与人数 8威望 +1 eV +32 收起 理由
silencesola + 2 好物!
Picardo + 5 精品内容
Geyer + 5 谢谢
jimulation + 5 好物!
shalene + 5 赞!
paramecium86 + 5 赞!
sobereva + 1
qinzhong605 + 5 好物!

查看全部评分

17

帖子

0

威望

95

eV
积分
112

Level 2 能力者

发表于 2020-9-6 16:39:25 | 显示全部楼层
这个测试无法下结论。首先3900x的内存带宽限制了,这是明显的。第二,要清楚使用linux系统的内核,低版本的linux内核不支持amd zen2的睿频(5.x以上的内核很好支持睿频)。

744

帖子

29

威望

3810

eV
积分
5134

Level 6 (一方通行)

 楼主| 发表于 2020-9-6 19:12:12 | 显示全部楼层
本帖最后由 ggdh 于 2020-9-6 19:20 编辑
llzz0309 发表于 2020-9-6 16:39
这个测试无法下结论。首先3900x的内存带宽限制了,这是明显的。第二,要清楚使用linux系统的内核,低版本的 ...

因为目前已经开启四通道了,所以当前的结论就是如果不用高频内存,3990X的内存带宽应该是不够的
另外 用的ubuntu 18 ,系统的内核版本应该够了把?

17

帖子

0

威望

95

eV
积分
112

Level 2 能力者

发表于 2020-9-6 20:52:44 | 显示全部楼层
ggdh 发表于 2020-9-6 19:12
因为目前已经开启四通道了,所以当前的结论就是如果不用高频内存,3990X的内存带宽应该是不够的
另外 用 ...

18是不够的,zen2是19年下半年发布的,内核肯定没有针对zen2优化。你可以在计算时通过cat /proc/cpuinfo |grep MHz 查看下主频,能在4GHz左右,基本就代表顺利睿频了。目前来,说很多ZEN2架构的cpu做计算性能不好的原因都是没考虑linux系统下的睿频。

34

帖子

0

威望

466

eV
积分
500

Level 4 (黑子)

发表于 2020-9-6 21:07:08 | 显示全部楼层
一直想不明白,量化计算为什么需要这么高性能,多核,大内存,明明输入文件就几KB。是理论没成熟还是计算程序做的还不够好,,,

744

帖子

29

威望

3810

eV
积分
5134

Level 6 (一方通行)

 楼主| 发表于 2020-9-6 21:10:14 | 显示全部楼层
本帖最后由 ggdh 于 2020-9-6 21:14 编辑
llzz0309 发表于 2020-9-6 20:52
18是不够的,zen2是19年下半年发布的,内核肯定没有针对zen2优化。你可以在计算时通过cat /proc/cpuinfo  ...

谢谢!我下次测的时候注意这个问题。换成ubuntu 20,这个kernal 5.4 应该够了吧

744

帖子

29

威望

3810

eV
积分
5134

Level 6 (一方通行)

 楼主| 发表于 2020-9-6 21:11:52 | 显示全部楼层
akber123 发表于 2020-9-6 21:07
一直想不明白,量化计算为什么需要这么高性能,多核,大内存,明明输入文件就几KB。是理论没成熟还是计算程 ...

你想想,你的输入文件也是一个单细胞而已。最后还不是需要吃那么多东西,花那么多钱。。

3万

帖子

99

威望

3万

eV
积分
73559

管理员

公社社长+计算化学玩家

发表于 2020-9-6 21:21:24 | 显示全部楼层
非常有价值的测试,这是很多人关注的焦点。
一开始的8176M X 2应该是8175M X 2
北京科音自然科学研究中心http://www.keinsci.com)致力于计算化学的发展和传播,长期开办最高质量的各种计算化学类培训:初级量子化学培训班基础(中级)量子化学培训班分子动力学与GROMACS培训班量子化学波函数分析与Multiwfn程序培训班。这些培训是计算化学快速入门以及全面系统性提升研究水平的最佳途径,培训各种相关信息见《北京科音办的培训班FAQ》
欢迎加入“北京科音”微信公众号获取培训最新消息、避免错过网上最有价值的计算化学文章!
欢迎加入人气最高、水准最高的综合性理论与计算化学交流QQ群“思想家公社QQ群”:1号:18616395(已满),2号:466017436(已满),3号:764390338(可加)。合计8000人,讨论范畴相同
思想家公社的门口Blog:http://sobereva.com(发布大量原创计算化学相关博文)
Multiwfn主页:http://sobereva.com/multiwfn(最强大的量子化学波函数分析程序)
ResearchGate:https://www.researchgate.net/profile/Tian_Lu
Money and papers are rubbish, get a real life!

3万

帖子

99

威望

3万

eV
积分
73559

管理员

公社社长+计算化学玩家

发表于 2020-9-6 21:25:51 | 显示全部楼层
akber123 发表于 2020-9-6 21:07
一直想不明白,量化计算为什么需要这么高性能,多核,大内存,明明输入文件就几KB。是理论没成熟还是计算程 ...

搞清楚算法自然就明白了
北京科音自然科学研究中心http://www.keinsci.com)致力于计算化学的发展和传播,长期开办最高质量的各种计算化学类培训:初级量子化学培训班基础(中级)量子化学培训班分子动力学与GROMACS培训班量子化学波函数分析与Multiwfn程序培训班。这些培训是计算化学快速入门以及全面系统性提升研究水平的最佳途径,培训各种相关信息见《北京科音办的培训班FAQ》
欢迎加入“北京科音”微信公众号获取培训最新消息、避免错过网上最有价值的计算化学文章!
欢迎加入人气最高、水准最高的综合性理论与计算化学交流QQ群“思想家公社QQ群”:1号:18616395(已满),2号:466017436(已满),3号:764390338(可加)。合计8000人,讨论范畴相同
思想家公社的门口Blog:http://sobereva.com(发布大量原创计算化学相关博文)
Multiwfn主页:http://sobereva.com/multiwfn(最强大的量子化学波函数分析程序)
ResearchGate:https://www.researchgate.net/profile/Tian_Lu
Money and papers are rubbish, get a real life!

744

帖子

29

威望

3810

eV
积分
5134

Level 6 (一方通行)

 楼主| 发表于 2020-9-6 21:53:15 | 显示全部楼层
sobereva 发表于 2020-9-6 21:21
非常有价值的测试,这是很多人关注的焦点。
一开始的8176M X 2应该是8175M X 2

谢谢,已更正,下周更新 3990X在ubuntu 20 下加高频内存的测试结果

116

帖子

2

威望

1612

eV
积分
1768

Level 5 (御坂)

发表于 2020-9-6 22:40:42 | 显示全部楼层
本帖最后由 啦啦黑还黑 于 2020-9-6 22:45 编辑

为啥用3990x,这个本来就不是为服务器准备的。双路epyc 7452 比 8175M要快。
同样64核,用AMD 7742 比 3990X在 vasp Gaussian等程序的表现都好多的。价格还更便宜。

744

帖子

29

威望

3810

eV
积分
5134

Level 6 (一方通行)

 楼主| 发表于 2020-9-6 23:31:54 | 显示全部楼层
啦啦黑还黑 发表于 2020-9-6 22:40
为啥用3990x,这个本来就不是为服务器准备的。双路epyc 7452 比 8175M要快。
同样64核,用AMD 7742 比 399 ...

大神来啦!
7452好像价格是8175M的两倍多。可惜我弄不到啊!不然一定测一下,我更想测的是7542。这个铁定快。。
用AMD平台的时候编译VASP的话,可以用intel数学库么?vasp编译好像必须要MKL才能快起来吧?

433

帖子

0

威望

1758

eV
积分
2191

Level 5 (御坂)

发表于 2020-9-7 08:40:41 | 显示全部楼层
ggdh 发表于 2020-9-6 23:31
大神来啦!
7452好像价格是8175M的两倍多。可惜我弄不到啊!不然一定测一下,我更想测的是7542。这个铁 ...

Intel数学库随便用。就算不是intel CPU也能用intel编译器的。

评分

参与人数 1eV +5 收起 理由
ggdh + 5 谢谢

查看全部评分

922

帖子

1

威望

1992

eV
积分
2934

Level 5 (御坂)

发表于 2020-9-7 09:14:40 | 显示全部楼层
看样子64核配上四通道内存还是不够用,等再过些日子我用7742做个测试

116

帖子

2

威望

1612

eV
积分
1768

Level 5 (御坂)

发表于 2020-9-7 09:24:54 | 显示全部楼层
biogon 发表于 2020-9-7 09:14
看样子64核配上四通道内存还是不够用,等再过些日子我用7742做个测试

是的,通道数很重要,eypc2系列都是8通道cpu,双路16通道3200mhz,这方面优势很大。
您需要登录后才可以回帖 登录 | 现在注册!

本版积分规则

手机版|小黑屋|北京科音自然科学研究中心|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )

GMT+8, 2021-10-18 09:38 , Processed in 0.259447 second(s), 28 queries .

快速回复 返回顶部 返回列表