请选择 进入手机版 | 继续访问电脑版
第14届北京科音初级量子化学培训班将于2021年3月20~23日于北京举办,报名现已开始,请点击此链接查看详情和报名。量子化学初学者切勿错过这个最好、最快、最正确上手量子化学计算的难得的机会!

计算化学公社

 找回密码
 现在注册!
查看: 9392|回复: 26

[硬件评测] 高斯软件并行效率再测(2017.1)

[复制链接]

697

帖子

23

威望

3162

eV
积分
4319

Level 6 (一方通行)

发表于 2017-1-2 23:52:41 | 显示全部楼层 |阅读模式
本帖最后由 ggdh 于 2017-1-3 09:33 编辑

之前小卒兄在2015年初发表了经典的高斯软件并行效率实测,时间如白驹过隙,匆匆而过,转眼两年过去了。cpu已经从E5-2600v2 系列升级到E5-2600v4 系列,单节点cpu数量也从当时的20多核升级到了40多核。是时候更新一波评测了。

主要内容:
1)计算速度和频率的关系
2)计算速度和核数的关系
3)巅峰对决高频vs多核
4)td和freq的并行效率

测试环境:
硬件:E5-2699 V4 *2; 内存:64GB,2400MHz; 硬盘:三星950Pro 三星(SAMSUNG) 950 PRO 512G M.2;  主板:超微X10dai
软件:CentOs7 x64, Gaussian 09 E.01
系统:Gaussview自带C60分子,不优化,关键词为:# b3lyp/6-311g(d) int=ultrafine nosymmetry
system: 1080 basis functions,  1920 primitive gaussians,  1140 cartesian basis functions

1)计算速度和频率的关系
E5-2699 V4,22核,2.2G主频率,单核睿频3.6G,全核睿频2.6G。不懂睿频的可以先看看百度百科
本次测试中,限制cpu最大频率。从1.2G到3.6G,每隔0.2G测一次。在2核并行和20核并行的条件下分别测试。结果如下
1.png

重要结论:
1.计算速度和频率是线性关系。而且这种线性关系和并行核数多少没有关系。
2.2核并行时,频率上限设到3.4G以后,速度达到平台。20核并行时,频率上限设到2.6G以后,速度达到平台。说明2核下睿频可到3.4G,20核下睿频可到2.6G。


2)计算速度和核数的关系
由于睿频的存在,如果单纯考察cpu数和计算速度的关系,由于cpu数越少,频率越高,这样无法“单纯的”考察并行效率,因此在这次测试中,我还做了一组数据,就是限制cpu最大频率为全核睿频频率。从而保证cpu频率不会随并行核数多少发生变化。最后结果如下。
2.png
重要结论:
1.考虑睿频的影响后,Gaussian的实际并行效率提高了不少。并行效率跟核的数量有较好的线性关系,随着并行核数的增多效率线性下降,线性公式为:q=1.015-n*0.0067, 其中q为相对于2核的并行效率,n为并行核数。可以看到44核并行后,并行效率相当于2核的0.7倍,理解为44核并行后每核相当于2核并行时的0.7个核
2. 根据并行效率同核数的线性关系,以及之前的频率同计算速度的线性关系,可以推算出某个cpu的计算速度的公式为s=n*(1.015-n*0.0067)*f;其中s为计算速度,n为cpu核数,f为cpu的全核睿频的频率,另外,根据这个公式推断单节点并行核数大概在75的时候达到最大速度。双路在E5-2600V5还达不到这个并行核数。


3)E5-2600V4巅峰对决高频vs多核
买机器的时候,老板还拿出E5-2689V4,10核,频率3.1GHz 全核睿频3.7GHz给我测试。这是2600V4系列中频率最高的cpu。而2699V4,22核,频率2.2GHz,全核睿频2.6GHz,这是2600V4系列中核心最多的cpu。
各位看官猜一猜,2699 vs 2689,最多核 vs 最高频,到底时谁获胜呢?(当然这里不考虑隐藏boss 2679V4,200的TDP无疑是2600V4系列中的最强U!)

首先根据我们上面提出的公式进行cpu速度估算
E5-2699V4 双路:S=44*(1.015-44*0.0067)*2.6=82.39
E5-2689V4 双路:S=20*(1.015-20*0.0067)*3.7=65.19
看来是E5-2699获胜。

下面看看实际测试结果。(这里在购机的地方测的,不能详细测,只能用一个比较小的系统做简单测试)
E5-2689V4:
40 X Intel(R) Xeon(R) CPU E5-2689 v4 @ 3.10GHz detected
system: 620 basis functions,  1002 primitive gaussians,   710 cartesian basis functions
Number of cores     execution time      number of SCF cycles
10                  338.85              11                  
20                  186.16              11           

E5-2699V4:
88 X Intel(R) Xeon(R) CPU E5-2699 v4 @ 2.20GHz detected
system: 620 basis functions,  1002 primitive gaussians,   710 cartesian basis functions
Number of cores     execution time      number of SCF cycles
10                  386.38              11                  
20                  221.86              11                  
30                  160.60              11                  
40                  133.31              11                  
44                  129.61              11   

可以看到实际的测试结果差距比用公式预估的还要大

4)td和freq的并行效率
gaussian中除了scf以外,常见的耗时任务是td和freq。这里也一并做了测试,不过这里没有考虑睿频,所以就和没有考虑睿频效应的scf效率做对比。这里td和freq的耗时都减去了scf的耗时。
td关键词:# b3lyp/6-311g(d) td(nstates=10) int=ultrafine nosymmetry

freq关键词:# b3lyp/6-311g(d) freq int=ultrafine nosymmetry
体系和上面的scf保持一致
3.png
测试做的比较粗糙,可以看到曲线不是很平滑,毕竟td和freq算的慢,没有精力反复测试。这里放个粗糙的结果仅供参考。
重要结论:
td的并行效率比scf低,freq的并行效率比td低,基本上到了30核以上freq和td的运算速度就不怎么增长了。

最后的话:
1.买u时要看全核睿频的大小。
2.根据本文中的公式s=n*(1.01-n*0.0067)*f估算单个cpu的运算能力。
3.体系越大,并行效率越高。(本文没有做测试,是之前某个测试的结论)
4.td以及freq的并行效率低于scf



评分

参与人数 15威望 +2 eV +54 收起 理由
orcarookie + 2 谢谢分享
klklklzzd + 2 谢谢分享
3107654521 + 5 谢谢
Mikasa + 10 GJ!
元江1994 + 4 好物!
Graphite + 4 好物!
heroooo + 2 赞!
captain + 5 谢谢
Mirror + 1 GJ!
qczgzly + 2 GJ!
ZCSco + 3 GJ!
PhoenixYeti + 4 赞!
978142355 + 5 GJ!
dreamyeye + 5 GJ!
sobereva + 2 GJ!

查看全部评分

2万

帖子

25

威望

3万

eV
积分
63685

管理员

公社社长+计算化学玩家

发表于 2017-1-3 00:21:55 | 显示全部楼层
很好的测试。下面这句话里面的MHz应为GHz
“买机器的时候,老板还拿出E5-2689V4,10核,频率3.1MHz 全核睿频3.7MHz给我测试。这是2600V4系列中频率最高的cpu。
而2699V4,22核,频率2.2MHz,全核睿频2.6MHz,这是2600V4系列中核心最多的cpu。”
北京科音自然科学研究中心http://www.keinsci.com)致力于计算化学的发展和传播,长期开办最高质量的各种计算化学类培训:初级量子化学培训班基础(中级)量子化学培训班分子动力学与GROMACS培训班量子化学波函数分析与Multiwfn程序培训班。这些培训是计算化学快速入门以及全面系统性提升研究水平的最佳途径,培训各种相关信息见《北京科音办的培训班FAQ》
欢迎加入“北京科音”微信公众号获取培训最新消息、避免错过网上最有价值的计算化学文章!
欢迎加入人气最高、水准最高的综合性理论与计算化学交流QQ群:思想家公社QQ群1号:18616395,2号:466017436。合计6000人。两个群讨论范畴相同,可加入任意其一但不可都加入。
思想家公社的门口Blog:http://sobereva.com(发布大量原创计算化学相关博文)
Multiwfn主页:http://sobereva.com/multiwfn(最强大的量子化学波函数分析程序)
ResearchGate:https://www.researchgate.net/profile/Tian_Lu
Money and papers are rubbish, get a real life!

244

帖子

0

威望

3332

eV
积分
3576

Level 5 (御坂)

发表于 2017-1-3 08:15:09 | 显示全部楼层
如果用windows系统下的linux虚拟机,没有对睿频进行特殊设置,能自动睿频上去吗?

697

帖子

23

威望

3162

eV
积分
4319

Level 6 (一方通行)

 楼主| 发表于 2017-1-3 08:46:09 | 显示全部楼层
sob 大侠看的真仔细。已改正。
我认为睿频是‘按需提升’。所以即使是虚拟机,也能够睿上去。

1560

帖子

2

威望

4367

eV
积分
5967

Level 6 (一方通行)

给dalao们倒茶

发表于 2017-1-3 09:25:29 | 显示全部楼层
这个测试做的太漂亮了,顶顶顶。PS:请问一下,这个作图是用什么软件做的,感觉很漂亮。
淡泊以明志,宁静以致远。

2953

帖子

27

威望

1万

eV
积分
14090

Level 6 (一方通行)

发表于 2017-1-3 14:30:22 | 显示全部楼层
978142355 发表于 2017-1-3 09:25
这个测试做的太漂亮了,顶顶顶。PS:请问一下,这个作图是用什么软件做的,感觉很漂亮。

Excel

428

帖子

0

威望

743

eV
积分
1171

Level 4 (黑子)

发表于 2017-1-3 15:10:16 | 显示全部楼层
这个测试简直完美,非常喜欢,感谢无私分享

136

帖子

0

威望

703

eV
积分
839

Level 4 (黑子)

发表于 2017-1-3 15:14:04 | 显示全部楼层
这个测试做的真好,赞赞赞

1560

帖子

2

威望

4367

eV
积分
5967

Level 6 (一方通行)

给dalao们倒茶

发表于 2017-1-3 18:29:38 | 显示全部楼层

excel能做的这么好啊,涨知识了,谢谢Li老师。
淡泊以明志,宁静以致远。

2953

帖子

27

威望

1万

eV
积分
14090

Level 6 (一方通行)

发表于 2017-1-3 18:46:52 | 显示全部楼层
978142355 发表于 2017-1-3 18:29
excel能做的这么好啊,涨知识了,谢谢Li老师。

默认的几乎就这样

1560

帖子

2

威望

4367

eV
积分
5967

Level 6 (一方通行)

给dalao们倒茶

发表于 2017-1-3 18:57:50 | 显示全部楼层
liyuanhe211 发表于 2017-1-3 18:46
默认的几乎就这样

Li老师我的excel是2003版的,默认的和这个并不一样。是不是版本有影响呢?
2017-01-03_185652.png
淡泊以明志,宁静以致远。

2953

帖子

27

威望

1万

eV
积分
14090

Level 6 (一方通行)

发表于 2017-1-3 19:07:34 | 显示全部楼层
978142355 发表于 2017-1-3 18:57
Li老师我的excel是2003版的,默认的和这个并不一样。是不是版本有影响呢?

Toooooooo old...
snap0130.png

1560

帖子

2

威望

4367

eV
积分
5967

Level 6 (一方通行)

给dalao们倒茶

发表于 2017-1-3 20:05:47 | 显示全部楼层

额。。。。。。。。。。。。我懂了,谢谢Li老师的解答。
淡泊以明志,宁静以致远。

244

帖子

0

威望

3332

eV
积分
3576

Level 5 (御坂)

发表于 2017-1-3 20:56:58 | 显示全部楼层
本帖最后由 dreamyeye 于 2017-1-3 21:03 编辑
ggdh 发表于 2017-1-3 08:46
sob 大侠看的真仔细。已改正。
我认为睿频是‘按需提升’。所以即使是虚拟机,也能够睿上去。

谢谢。这帖子写的像一篇论文,前面写了已有工作的局限,中间写了实验条件和方法,后面是实验结果,最后给出了拟合的经验公式。

142

帖子

0

威望

851

eV
积分
993

Level 4 (黑子)

发表于 2017-1-13 21:40:43 | 显示全部楼层
好文要顶!d=====( ̄▽ ̄*)b

是不是算gaussian的时候CPU实际运行都是在全核睿频?
这样主频和全核睿频到底看哪个?
谢谢
您需要登录后才可以回帖 登录 | 现在注册!

本版积分规则

手机版|北京科音自然科学研究中心|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )

GMT+8, 2021-2-27 14:25 , Processed in 0.306578 second(s), 28 queries .

快速回复 返回顶部 返回列表