计算化学公社

 找回密码 Forget password
 注册 Register
Views: 21906|回复 Reply: 28
打印 Print 上一主题 Last thread 下一主题 Next thread

[硬件评测] 高斯软件并行效率再测(2017.1)

[复制链接 Copy URL]

903

帖子

37

威望

5324

eV
积分
6967

Level 6 (一方通行)

本帖最后由 ggdh 于 2017-1-3 09:33 编辑

之前小卒兄在2015年初发表了经典的高斯软件并行效率实测,时间如白驹过隙,匆匆而过,转眼两年过去了。cpu已经从E5-2600v2 系列升级到E5-2600v4 系列,单节点cpu数量也从当时的20多核升级到了40多核。是时候更新一波评测了。

主要内容:
1)计算速度和频率的关系
2)计算速度和核数的关系
3)巅峰对决高频vs多核
4)td和freq的并行效率

测试环境:
硬件:E5-2699 V4 *2; 内存:64GB,2400MHz; 硬盘:三星950Pro 三星(SAMSUNG) 950 PRO 512G M.2;  主板:超微X10dai
软件:CentOs7 x64, Gaussian 09 E.01
系统:Gaussview自带C60分子,不优化,关键词为:# b3lyp/6-311g(d) int=ultrafine nosymmetry
system: 1080 basis functions,  1920 primitive gaussians,  1140 cartesian basis functions

1)计算速度和频率的关系
E5-2699 V4,22核,2.2G主频率,单核睿频3.6G,全核睿频2.6G。不懂睿频的可以先看看百度百科
本次测试中,限制cpu最大频率。从1.2G到3.6G,每隔0.2G测一次。在2核并行和20核并行的条件下分别测试。结果如下


重要结论:
1.计算速度和频率是线性关系。而且这种线性关系和并行核数多少没有关系。
2.2核并行时,频率上限设到3.4G以后,速度达到平台。20核并行时,频率上限设到2.6G以后,速度达到平台。说明2核下睿频可到3.4G,20核下睿频可到2.6G。


2)计算速度和核数的关系
由于睿频的存在,如果单纯考察cpu数和计算速度的关系,由于cpu数越少,频率越高,这样无法“单纯的”考察并行效率,因此在这次测试中,我还做了一组数据,就是限制cpu最大频率为全核睿频频率。从而保证cpu频率不会随并行核数多少发生变化。最后结果如下。

重要结论:
1.考虑睿频的影响后,Gaussian的实际并行效率提高了不少。并行效率跟核的数量有较好的线性关系,随着并行核数的增多效率线性下降,线性公式为:q=1.015-n*0.0067, 其中q为相对于2核的并行效率,n为并行核数。可以看到44核并行后,并行效率相当于2核的0.7倍,理解为44核并行后每核相当于2核并行时的0.7个核
2. 根据并行效率同核数的线性关系,以及之前的频率同计算速度的线性关系,可以推算出某个cpu的计算速度的公式为s=n*(1.015-n*0.0067)*f;其中s为计算速度,n为cpu核数,f为cpu的全核睿频的频率,另外,根据这个公式推断单节点并行核数大概在75的时候达到最大速度。双路在E5-2600V5还达不到这个并行核数。


3)E5-2600V4巅峰对决高频vs多核
买机器的时候,老板还拿出E5-2689V4,10核,频率3.1GHz 全核睿频3.7GHz给我测试。这是2600V4系列中频率最高的cpu。而2699V4,22核,频率2.2GHz,全核睿频2.6GHz,这是2600V4系列中核心最多的cpu。
各位看官猜一猜,2699 vs 2689,最多核 vs 最高频,到底时谁获胜呢?(当然这里不考虑隐藏boss 2679V4,200的TDP无疑是2600V4系列中的最强U!)

首先根据我们上面提出的公式进行cpu速度估算
E5-2699V4 双路:S=44*(1.015-44*0.0067)*2.6=82.39
E5-2689V4 双路:S=20*(1.015-20*0.0067)*3.7=65.19
看来是E5-2699获胜。

下面看看实际测试结果。(这里在购机的地方测的,不能详细测,只能用一个比较小的系统做简单测试)
E5-2689V4:
40 X Intel(R) Xeon(R) CPU E5-2689 v4 @ 3.10GHz detected
system: 620 basis functions,  1002 primitive gaussians,   710 cartesian basis functions
Number of cores     execution time      number of SCF cycles
10                  338.85              11                  
20                  186.16              11           

E5-2699V4:
88 X Intel(R) Xeon(R) CPU E5-2699 v4 @ 2.20GHz detected
system: 620 basis functions,  1002 primitive gaussians,   710 cartesian basis functions
Number of cores     execution time      number of SCF cycles
10                  386.38              11                  
20                  221.86              11                  
30                  160.60              11                  
40                  133.31              11                  
44                  129.61              11   

可以看到实际的测试结果差距比用公式预估的还要大

4)td和freq的并行效率
gaussian中除了scf以外,常见的耗时任务是td和freq。这里也一并做了测试,不过这里没有考虑睿频,所以就和没有考虑睿频效应的scf效率做对比。这里td和freq的耗时都减去了scf的耗时。
td关键词:# b3lyp/6-311g(d) td(nstates=10) int=ultrafine nosymmetry

freq关键词:# b3lyp/6-311g(d) freq int=ultrafine nosymmetry
体系和上面的scf保持一致

测试做的比较粗糙,可以看到曲线不是很平滑,毕竟td和freq算的慢,没有精力反复测试。这里放个粗糙的结果仅供参考。
重要结论:
td的并行效率比scf低,freq的并行效率比td低,基本上到了30核以上freq和td的运算速度就不怎么增长了。

最后的话:
1.买u时要看全核睿频的大小。
2.根据本文中的公式s=n*(1.01-n*0.0067)*f估算单个cpu的运算能力。
3.体系越大,并行效率越高。(本文没有做测试,是之前某个测试的结论)
4.td以及freq的并行效率低于scf



评分 Rate

参与人数
Participants 18
威望 +2 eV +63 收起 理由
Reason
snljty + 5 谢谢分享
Senses_Y + 2 好物!
TYUTCT + 2 赞!
orcarookie + 2 谢谢分享
klklklzzd + 2 谢谢分享
3107654521 + 5 谢谢
Mikasa + 10 GJ!
元江1994 + 4 好物!
Graphite + 4 好物!
heroooo + 2 赞!
captain + 5 谢谢
Mirror + 1 GJ!
qczgzly + 2 GJ!
ZCSco + 3 GJ!
PhoenixYeti + 4 赞!
978142355 + 5 GJ!
dreamyeye + 5 GJ!
sobereva + 2 GJ!

查看全部评分 View all ratings

5万

帖子

99

威望

5万

eV
积分
112353

管理员

公社社长

2#
发表于 Post on 2017-1-3 00:21:55 | 只看该作者 Only view this author
很好的测试。下面这句话里面的MHz应为GHz
“买机器的时候,老板还拿出E5-2689V4,10核,频率3.1MHz 全核睿频3.7MHz给我测试。这是2600V4系列中频率最高的cpu。
而2699V4,22核,频率2.2MHz,全核睿频2.6MHz,这是2600V4系列中核心最多的cpu。”
北京科音自然科学研究中心http://www.keinsci.com)致力于计算化学的发展和传播,长期开办高质量的各种计算化学类培训:初级量子化学培训班中级量子化学培训班高级量子化学培训班量子化学波函数分析与Multiwfn程序培训班分子动力学与GROMACS培训班CP2K第一性原理计算培训班,内容介绍以及往届资料购买请点击相应链接查看。这些培训是计算化学从零快速入门以及进一步全面系统性提升研究水平的高速路!培训各种常见问题见《北京科音办的培训班FAQ》
欢迎加入“北京科音”微信公众号获取北京科音培训的最新消息、避免错过网上有价值的计算化学文章!
欢迎加入人气非常高、专业性特别强的综合性理论与计算化学交流QQ群“思想家公社QQ群”:1号:18616395,2号:466017436,3号:764390338,搜索群号能搜到哪个说明目前哪个能加,合计9000人。北京科音培训班的学员在群中可申请VIP头衔,提问将得到群主Sobereva的最优先解答。
思想家公社的门口Blog:http://sobereva.com(发布大量原创计算化学相关博文)
Multiwfn主页:http://sobereva.com/multiwfn(十分强大的量子化学波函数分析程序)
ResearchGate:https://www.researchgate.net/profile/Tian_Lu
Money and papers are rubbish, get a real life!

274

帖子

0

威望

4278

eV
积分
4552

Level 6 (一方通行)

3#
发表于 Post on 2017-1-3 08:15:09 | 只看该作者 Only view this author
如果用windows系统下的linux虚拟机,没有对睿频进行特殊设置,能自动睿频上去吗?

903

帖子

37

威望

5324

eV
积分
6967

Level 6 (一方通行)

4#
 楼主 Author| 发表于 Post on 2017-1-3 08:46:09 | 只看该作者 Only view this author
sob 大侠看的真仔细。已改正。
我认为睿频是‘按需提升’。所以即使是虚拟机,也能够睿上去。

1552

帖子

2

威望

6241

eV
积分
7833

Level 6 (一方通行)

给dalao们倒茶

5#
发表于 Post on 2017-1-3 09:25:29 | 只看该作者 Only view this author
这个测试做的太漂亮了,顶顶顶。PS:请问一下,这个作图是用什么软件做的,感觉很漂亮。
淡泊以明志,宁静以致远。

3098

帖子

28

威望

1万

eV
积分
16892

Level 6 (一方通行)

6#
发表于 Post on 2017-1-3 14:30:22 | 只看该作者 Only view this author
978142355 发表于 2017-1-3 09:25
这个测试做的太漂亮了,顶顶顶。PS:请问一下,这个作图是用什么软件做的,感觉很漂亮。

Excel

430

帖子

0

威望

783

eV
积分
1213

Level 4 (黑子)

7#
发表于 Post on 2017-1-3 15:10:16 | 只看该作者 Only view this author
这个测试简直完美,非常喜欢,感谢无私分享

135

帖子

0

威望

703

eV
积分
839

Level 4 (黑子)

8#
发表于 Post on 2017-1-3 15:14:04 | 只看该作者 Only view this author
这个测试做的真好,赞赞赞

1552

帖子

2

威望

6241

eV
积分
7833

Level 6 (一方通行)

给dalao们倒茶

9#
发表于 Post on 2017-1-3 18:29:38 | 只看该作者 Only view this author

excel能做的这么好啊,涨知识了,谢谢Li老师。
淡泊以明志,宁静以致远。

3098

帖子

28

威望

1万

eV
积分
16892

Level 6 (一方通行)

10#
发表于 Post on 2017-1-3 18:46:52 | 只看该作者 Only view this author
978142355 发表于 2017-1-3 18:29
excel能做的这么好啊,涨知识了,谢谢Li老师。

默认的几乎就这样

1552

帖子

2

威望

6241

eV
积分
7833

Level 6 (一方通行)

给dalao们倒茶

11#
发表于 Post on 2017-1-3 18:57:50 | 只看该作者 Only view this author
liyuanhe211 发表于 2017-1-3 18:46
默认的几乎就这样

Li老师我的excel是2003版的,默认的和这个并不一样。是不是版本有影响呢?

2017-01-03_185652.png (4.3 KB, 下载次数 Times of downloads: 136)

2017-01-03_185652.png
淡泊以明志,宁静以致远。

3098

帖子

28

威望

1万

eV
积分
16892

Level 6 (一方通行)

12#
发表于 Post on 2017-1-3 19:07:34 | 只看该作者 Only view this author
978142355 发表于 2017-1-3 18:57
Li老师我的excel是2003版的,默认的和这个并不一样。是不是版本有影响呢?

Toooooooo old...


1552

帖子

2

威望

6241

eV
积分
7833

Level 6 (一方通行)

给dalao们倒茶

13#
发表于 Post on 2017-1-3 20:05:47 | 只看该作者 Only view this author

额。。。。。。。。。。。。我懂了,谢谢Li老师的解答。
淡泊以明志,宁静以致远。

274

帖子

0

威望

4278

eV
积分
4552

Level 6 (一方通行)

14#
发表于 Post on 2017-1-3 20:56:58 | 只看该作者 Only view this author
本帖最后由 dreamyeye 于 2017-1-3 21:03 编辑
ggdh 发表于 2017-1-3 08:46
sob 大侠看的真仔细。已改正。
我认为睿频是‘按需提升’。所以即使是虚拟机,也能够睿上去。

谢谢。这帖子写的像一篇论文,前面写了已有工作的局限,中间写了实验条件和方法,后面是实验结果,最后给出了拟合的经验公式。

299

帖子

0

威望

1922

eV
积分
2221

Level 5 (御坂)

15#
发表于 Post on 2017-1-13 21:40:43 | 只看该作者 Only view this author
好文要顶!d=====( ̄▽ ̄*)b

是不是算gaussian的时候CPU实际运行都是在全核睿频?
这样主频和全核睿频到底看哪个?
谢谢

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 16:22 , Processed in 0.591279 second(s), 25 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list