请选择 进入手机版 | 继续访问电脑版
第13届北京科音初级量子化学培训班将于10月5~8日于北京举办,请点击此链接查看详情。这是新人一次性正确、完整学习量子化学计算的最好、最快机会,能少走无数弯路,欢迎参加并相互转告!(已报满)

计算化学公社

 找回密码
 现在注册!
查看: 1435|回复: 28

[硬件评测] G16 在 RYZEN3990X 和 XEON8175M 上对比测试(EPYC7742, E5-2699V4加入战斗!)

[复制链接]

668

帖子

19

威望

2797

eV
积分
3845

Level 5 (御坂)

发表于 2020-9-6 15:40:33 | 显示全部楼层 |阅读模式
本帖最后由 ggdh 于 2020-9-16 20:50 编辑

纸面数据:

3990X:
Cores: 64
Base/Boost:2.9/4.3 GHz
RAM: 4 通道 DDR4-3200
内存带宽:95.37GB/s

8175M X 2:
Cores: 24 X 2 = 48
Base/Boost: 2.5/3.1
RAM: 6 X 2 通道 DDR4-2666
内存带宽:238.42 GB/s

装机内存:
3990X  16G X 4 = 64 G  2400MHz(开启4通路)
8175M 16G X 12 = 192G  2400MHz (开启12通路)

测试任务和脚本:
Gaussian Test397,关键词是:#p rb3lyp/3-21g force test scf=novaracc
用的是
AMD Ryzen 高斯评测(及脚本
中提供的脚本。这个脚本不好用,我过会发个更好用的。

单任务耗时(S)
sjob.png
分析:
1. 对于3990X 使用AVX2版本比SSE版本要快不少(感谢js同学在使用AVX2版本上提供的帮助,加上这个变量才能用:export PGI_FASTMATH_CPU=sandybridge)
2. 低核并行(<=16)情况下,3990X的速度是8175M的1.35倍左右(基本上是频率的比值),高核心并行情况下3990X的并行效率下降更多,最终64核并行反而没有8175M的48核并行快。
可能原因:1,内存带宽不足,2内存总量不足。 1的可能性更大,以为这个体系用不了多少内存。

多任务每任务耗时(S)
对于一个胖节点,实际计算的时候,应该尽量把全部的cpu利用起来才好,这里比较了一下多任务的耗时情况,分别在3990X/8175M上同时运行4/3个16核任务,或者8/6个8核任务。
mjob.png
分析:
比较单任务情况,3990X多任务的耗时大大增加,大约16核/8核任务增加到3倍左右。而8175M的耗时只增加到1.25倍。

多任务算力
为了综合比较3990X核8175M对于多任务的算力,我们采用下面的公式进行计算,这个算力反应了两种cpu马力全开时,运行G16的能力。
mjobp.png
分析:
虽然3990X的核心多,但是最终算力不如两块8175M,无论是单任务满载,还是多任务满载。价格是2020/09/06的淘宝价

结论:
根据本次测试,可以发现只用少量的核,3990X是比8175M快的,但是满载的时候3990X的效率下降很明显,最终不如8175M,我怀疑是内存带宽的限制,毕竟一个是4通道,一个是12通道。这个情况也许在使用更高频率的内存后能得到改善。
更新:
有大佬提到EPYC-7742,现在它来了,
双路64核X2=128核,全核睿频大概在2.6GHz,
内存8通道X2,插满16根32G,3200MHz内存。
这里使用了8核算力这个概念,算法是
8核算力=1000/(单个8核任务耗时/同时进行的任务数)
使用这个指标的好处是,能够使得不同核心数的cpu满载,同时消除的单个任务并行效率的影响,从而公平比较不同核心数的cpu的性能。(比如,如果只跑单任务比时间的话,EPYC上是128核并行,耗时70秒,而8175M上是48核并行,耗时90s,这么看,EPYC的算力只有8175M的1.3倍不到,由于单任务并行效率随着核数增多下降,这会导致这种比较中,核心数多的CPU吃亏)根据楼下大佬的提示,Linux内核都更新到5.x,测试文件还是Gaussian的TEST397
结果如下图:

7742.png
结论:
1. 对于3990X,这里使用了高频3200MHz内存,但是依然出现并行效率严重下降的情况(和2666HMz比没有任何改善)。这说明内存通路的影响可能无法通过提高内存频率来抵消。算力在5任务(40核)时达到最大,满载算力反而下降(这和跑单任务的情况类似,64核并行反而速度变慢)
2. 3970X也是4通道内存,但是表现更差,满载4任务(32核)算力甚至不如单任务(8核)算力,不知道是什么原因。
3. Intel的两款表现平稳。注意这里E5-2699V4,没有跑满44核,只是用了40核,所以实际算力应该还会稍微高一点(所以其实这里用4核算力来比较更好,但是8175M的平台现在手边没有了,拿不到数据),因此8175M的算力大概是2699V4的1.3~1.4倍,符合牙膏厂的作风。
4. EPYC果然很强,无论是单任务速度,还是并行效率(斜率越大,并行效率下降的越慢),都超过两款Intel。
5. 比较不同的CPU,看它的最大算力就行,根据这个结果:
1个EPYC(平台) = 2.5个 8175M ~ 2.5个 3990X = 3.5个 E5-2699V4 = 8.4个 3970X6. 后面有更多的详细测试,还有测试脚本的介绍,下个帖子弄。。。http://bbs.keinsci.com/thread-19378-1-1.html 这里biogon大佬也对其他几个cpu做了测试,和这里的输入文件一样,可以做比较。




评分

参与人数 5威望 +1 eV +20 收起 理由
jimulation + 5 好物!
shalene + 5 赞!
paramecium86 + 5 赞!
sobereva + 1
qinzhong605 + 5 好物!

查看全部评分

13

帖子

0

威望

53

eV
积分
66

Level 2 能力者

发表于 2020-9-6 16:39:25 | 显示全部楼层
这个测试无法下结论。首先3900x的内存带宽限制了,这是明显的。第二,要清楚使用linux系统的内核,低版本的linux内核不支持amd zen2的睿频(5.x以上的内核很好支持睿频)。

668

帖子

19

威望

2797

eV
积分
3845

Level 5 (御坂)

 楼主| 发表于 2020-9-6 19:12:12 | 显示全部楼层
本帖最后由 ggdh 于 2020-9-6 19:20 编辑
llzz0309 发表于 2020-9-6 16:39
这个测试无法下结论。首先3900x的内存带宽限制了,这是明显的。第二,要清楚使用linux系统的内核,低版本的 ...

因为目前已经开启四通道了,所以当前的结论就是如果不用高频内存,3990X的内存带宽应该是不够的
另外 用的ubuntu 18 ,系统的内核版本应该够了把?

13

帖子

0

威望

53

eV
积分
66

Level 2 能力者

发表于 2020-9-6 20:52:44 | 显示全部楼层
ggdh 发表于 2020-9-6 19:12
因为目前已经开启四通道了,所以当前的结论就是如果不用高频内存,3990X的内存带宽应该是不够的
另外 用 ...

18是不够的,zen2是19年下半年发布的,内核肯定没有针对zen2优化。你可以在计算时通过cat /proc/cpuinfo |grep MHz 查看下主频,能在4GHz左右,基本就代表顺利睿频了。目前来,说很多ZEN2架构的cpu做计算性能不好的原因都是没考虑linux系统下的睿频。

27

帖子

0

威望

260

eV
积分
287

Level 3 能力者

发表于 2020-9-6 21:07:08 | 显示全部楼层
一直想不明白,量化计算为什么需要这么高性能,多核,大内存,明明输入文件就几KB。是理论没成熟还是计算程序做的还不够好,,,

668

帖子

19

威望

2797

eV
积分
3845

Level 5 (御坂)

 楼主| 发表于 2020-9-6 21:10:14 | 显示全部楼层
本帖最后由 ggdh 于 2020-9-6 21:14 编辑
llzz0309 发表于 2020-9-6 20:52
18是不够的,zen2是19年下半年发布的,内核肯定没有针对zen2优化。你可以在计算时通过cat /proc/cpuinfo  ...

谢谢!我下次测的时候注意这个问题。换成ubuntu 20,这个kernal 5.4 应该够了吧

668

帖子

19

威望

2797

eV
积分
3845

Level 5 (御坂)

 楼主| 发表于 2020-9-6 21:11:52 | 显示全部楼层
akber123 发表于 2020-9-6 21:07
一直想不明白,量化计算为什么需要这么高性能,多核,大内存,明明输入文件就几KB。是理论没成熟还是计算程 ...

你想想,你的输入文件也是一个单细胞而已。最后还不是需要吃那么多东西,花那么多钱。。

2万

帖子

25

威望

3万

eV
积分
58547

管理员

公社社长

发表于 2020-9-6 21:21:24 | 显示全部楼层
非常有价值的测试,这是很多人关注的焦点。
一开始的8176M X 2应该是8175M X 2
北京科音自然科学研究中心http://www.keinsci.com  致力于计算化学的发展和传播,长期开办最高水准的各种量子化学、分子动力学、波函数分析与Multiwfn程序等主题的培训,是提升计算化学研究水平的最佳选择。欢迎加入“北京科音”公众号获取培训最新消息和计算化学资讯!培训相关信息见《北京科音办的培训班FAQ》(http://bbs.keinsci.com/thread-5098-1-1.html)。
欢迎加入人气最高、水准最高的综合性理论与计算化学交流QQ群:思想家公社QQ群1号:18616395,2号:466017436。合计6000人。两个群讨论范畴相同,可加入任意其一但不可都加入,申请信息必须注明具体研究方向,否则一定会被拒绝加入。
思想家公社的门口Blog:http://sobereva.com(发布大量原创计算化学相关博文)
Multiwfn主页:http://sobereva.com/multiwfn(最强大的量子化学波函数分析程序)
ResearchGate:https://www.researchgate.net/profile/Tian_Lu
Money and papers are rubbish, get a real life!

2万

帖子

25

威望

3万

eV
积分
58547

管理员

公社社长

发表于 2020-9-6 21:25:51 | 显示全部楼层
akber123 发表于 2020-9-6 21:07
一直想不明白,量化计算为什么需要这么高性能,多核,大内存,明明输入文件就几KB。是理论没成熟还是计算程 ...

搞清楚算法自然就明白了
北京科音自然科学研究中心http://www.keinsci.com  致力于计算化学的发展和传播,长期开办最高水准的各种量子化学、分子动力学、波函数分析与Multiwfn程序等主题的培训,是提升计算化学研究水平的最佳选择。欢迎加入“北京科音”公众号获取培训最新消息和计算化学资讯!培训相关信息见《北京科音办的培训班FAQ》(http://bbs.keinsci.com/thread-5098-1-1.html)。
欢迎加入人气最高、水准最高的综合性理论与计算化学交流QQ群:思想家公社QQ群1号:18616395,2号:466017436。合计6000人。两个群讨论范畴相同,可加入任意其一但不可都加入,申请信息必须注明具体研究方向,否则一定会被拒绝加入。
思想家公社的门口Blog:http://sobereva.com(发布大量原创计算化学相关博文)
Multiwfn主页:http://sobereva.com/multiwfn(最强大的量子化学波函数分析程序)
ResearchGate:https://www.researchgate.net/profile/Tian_Lu
Money and papers are rubbish, get a real life!

668

帖子

19

威望

2797

eV
积分
3845

Level 5 (御坂)

 楼主| 发表于 2020-9-6 21:53:15 | 显示全部楼层
sobereva 发表于 2020-9-6 21:21
非常有价值的测试,这是很多人关注的焦点。
一开始的8176M X 2应该是8175M X 2

谢谢,已更正,下周更新 3990X在ubuntu 20 下加高频内存的测试结果

101

帖子

2

威望

1132

eV
积分
1273

Level 4 (黑子)

发表于 2020-9-6 22:40:42 | 显示全部楼层
本帖最后由 啦啦黑还黑 于 2020-9-6 22:45 编辑

为啥用3990x,这个本来就不是为服务器准备的。双路epyc 7452 比 8175M要快。
同样64核,用AMD 7742 比 3990X在 vasp Gaussian等程序的表现都好多的。价格还更便宜。

668

帖子

19

威望

2797

eV
积分
3845

Level 5 (御坂)

 楼主| 发表于 2020-9-6 23:31:54 | 显示全部楼层
啦啦黑还黑 发表于 2020-9-6 22:40
为啥用3990x,这个本来就不是为服务器准备的。双路epyc 7452 比 8175M要快。
同样64核,用AMD 7742 比 399 ...

大神来啦!
7452好像价格是8175M的两倍多。可惜我弄不到啊!不然一定测一下,我更想测的是7542。这个铁定快。。
用AMD平台的时候编译VASP的话,可以用intel数学库么?vasp编译好像必须要MKL才能快起来吧?

184

帖子

0

威望

1017

eV
积分
1201

Level 4 (黑子)

发表于 2020-9-7 08:40:41 | 显示全部楼层
ggdh 发表于 2020-9-6 23:31
大神来啦!
7452好像价格是8175M的两倍多。可惜我弄不到啊!不然一定测一下,我更想测的是7542。这个铁 ...

Intel数学库随便用。就算不是intel CPU也能用intel编译器的。

评分

参与人数 1eV +5 收起 理由
ggdh + 5 谢谢

查看全部评分

426

帖子

0

威望

1153

eV
积分
1579

Level 5 (御坂)

发表于 2020-9-7 09:14:40 | 显示全部楼层
看样子64核配上四通道内存还是不够用,等再过些日子我用7742做个测试

101

帖子

2

威望

1132

eV
积分
1273

Level 4 (黑子)

发表于 2020-9-7 09:24:54 | 显示全部楼层
biogon 发表于 2020-9-7 09:14
看样子64核配上四通道内存还是不够用,等再过些日子我用7742做个测试

是的,通道数很重要,eypc2系列都是8通道cpu,双路16通道3200mhz,这方面优势很大。
您需要登录后才可以回帖 登录 | 现在注册!

本版积分规则

手机版|北京科音自然科学研究中心|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949-1号 )

GMT+8, 2020-9-20 22:20 , Processed in 0.168359 second(s), 29 queries .

快速回复 返回顶部 返回列表