计算化学公社

 找回密码 Forget password
 注册 Register
Views: 21901|回复 Reply: 28
打印 Print 上一主题 Last thread 下一主题 Next thread

[硬件评测] 高斯软件并行效率再测(2017.1)

[复制链接 Copy URL]

903

帖子

37

威望

5324

eV
积分
6967

Level 6 (一方通行)

本帖最后由 ggdh 于 2017-1-3 09:33 编辑

之前小卒兄在2015年初发表了经典的高斯软件并行效率实测,时间如白驹过隙,匆匆而过,转眼两年过去了。cpu已经从E5-2600v2 系列升级到E5-2600v4 系列,单节点cpu数量也从当时的20多核升级到了40多核。是时候更新一波评测了。

主要内容:
1)计算速度和频率的关系
2)计算速度和核数的关系
3)巅峰对决高频vs多核
4)td和freq的并行效率

测试环境:
硬件:E5-2699 V4 *2; 内存:64GB,2400MHz; 硬盘:三星950Pro 三星(SAMSUNG) 950 PRO 512G M.2;  主板:超微X10dai
软件:CentOs7 x64, Gaussian 09 E.01
系统:Gaussview自带C60分子,不优化,关键词为:# b3lyp/6-311g(d) int=ultrafine nosymmetry
system: 1080 basis functions,  1920 primitive gaussians,  1140 cartesian basis functions

1)计算速度和频率的关系
E5-2699 V4,22核,2.2G主频率,单核睿频3.6G,全核睿频2.6G。不懂睿频的可以先看看百度百科
本次测试中,限制cpu最大频率。从1.2G到3.6G,每隔0.2G测一次。在2核并行和20核并行的条件下分别测试。结果如下


重要结论:
1.计算速度和频率是线性关系。而且这种线性关系和并行核数多少没有关系。
2.2核并行时,频率上限设到3.4G以后,速度达到平台。20核并行时,频率上限设到2.6G以后,速度达到平台。说明2核下睿频可到3.4G,20核下睿频可到2.6G。


2)计算速度和核数的关系
由于睿频的存在,如果单纯考察cpu数和计算速度的关系,由于cpu数越少,频率越高,这样无法“单纯的”考察并行效率,因此在这次测试中,我还做了一组数据,就是限制cpu最大频率为全核睿频频率。从而保证cpu频率不会随并行核数多少发生变化。最后结果如下。

重要结论:
1.考虑睿频的影响后,Gaussian的实际并行效率提高了不少。并行效率跟核的数量有较好的线性关系,随着并行核数的增多效率线性下降,线性公式为:q=1.015-n*0.0067, 其中q为相对于2核的并行效率,n为并行核数。可以看到44核并行后,并行效率相当于2核的0.7倍,理解为44核并行后每核相当于2核并行时的0.7个核
2. 根据并行效率同核数的线性关系,以及之前的频率同计算速度的线性关系,可以推算出某个cpu的计算速度的公式为s=n*(1.015-n*0.0067)*f;其中s为计算速度,n为cpu核数,f为cpu的全核睿频的频率,另外,根据这个公式推断单节点并行核数大概在75的时候达到最大速度。双路在E5-2600V5还达不到这个并行核数。


3)E5-2600V4巅峰对决高频vs多核
买机器的时候,老板还拿出E5-2689V4,10核,频率3.1GHz 全核睿频3.7GHz给我测试。这是2600V4系列中频率最高的cpu。而2699V4,22核,频率2.2GHz,全核睿频2.6GHz,这是2600V4系列中核心最多的cpu。
各位看官猜一猜,2699 vs 2689,最多核 vs 最高频,到底时谁获胜呢?(当然这里不考虑隐藏boss 2679V4,200的TDP无疑是2600V4系列中的最强U!)

首先根据我们上面提出的公式进行cpu速度估算
E5-2699V4 双路:S=44*(1.015-44*0.0067)*2.6=82.39
E5-2689V4 双路:S=20*(1.015-20*0.0067)*3.7=65.19
看来是E5-2699获胜。

下面看看实际测试结果。(这里在购机的地方测的,不能详细测,只能用一个比较小的系统做简单测试)
E5-2689V4:
40 X Intel(R) Xeon(R) CPU E5-2689 v4 @ 3.10GHz detected
system: 620 basis functions,  1002 primitive gaussians,   710 cartesian basis functions
Number of cores     execution time      number of SCF cycles
10                  338.85              11                  
20                  186.16              11           

E5-2699V4:
88 X Intel(R) Xeon(R) CPU E5-2699 v4 @ 2.20GHz detected
system: 620 basis functions,  1002 primitive gaussians,   710 cartesian basis functions
Number of cores     execution time      number of SCF cycles
10                  386.38              11                  
20                  221.86              11                  
30                  160.60              11                  
40                  133.31              11                  
44                  129.61              11   

可以看到实际的测试结果差距比用公式预估的还要大

4)td和freq的并行效率
gaussian中除了scf以外,常见的耗时任务是td和freq。这里也一并做了测试,不过这里没有考虑睿频,所以就和没有考虑睿频效应的scf效率做对比。这里td和freq的耗时都减去了scf的耗时。
td关键词:# b3lyp/6-311g(d) td(nstates=10) int=ultrafine nosymmetry

freq关键词:# b3lyp/6-311g(d) freq int=ultrafine nosymmetry
体系和上面的scf保持一致

测试做的比较粗糙,可以看到曲线不是很平滑,毕竟td和freq算的慢,没有精力反复测试。这里放个粗糙的结果仅供参考。
重要结论:
td的并行效率比scf低,freq的并行效率比td低,基本上到了30核以上freq和td的运算速度就不怎么增长了。

最后的话:
1.买u时要看全核睿频的大小。
2.根据本文中的公式s=n*(1.01-n*0.0067)*f估算单个cpu的运算能力。
3.体系越大,并行效率越高。(本文没有做测试,是之前某个测试的结论)
4.td以及freq的并行效率低于scf



评分 Rate

参与人数
Participants 18
威望 +2 eV +63 收起 理由
Reason
snljty + 5 谢谢分享
Senses_Y + 2 好物!
TYUTCT + 2 赞!
orcarookie + 2 谢谢分享
klklklzzd + 2 谢谢分享
3107654521 + 5 谢谢
Mikasa + 10 GJ!
元江1994 + 4 好物!
Graphite + 4 好物!
heroooo + 2 赞!
captain + 5 谢谢
Mirror + 1 GJ!
qczgzly + 2 GJ!
ZCSco + 3 GJ!
PhoenixYeti + 4 赞!
978142355 + 5 GJ!
dreamyeye + 5 GJ!
sobereva + 2 GJ!

查看全部评分 View all ratings

126

帖子

3

威望

774

eV
积分
960

Level 4 (黑子)

29#
发表于 Post on 2024-10-26 05:57:24 | 只看该作者 Only view this author
我个人认为其实还差了一个比较core number和atom number之间的线性关系。个人猜测对于某些小体系,16 core是上限,但是大体系上限可能更高?

9

帖子

0

威望

227

eV
积分
236

Level 3 能力者

28#
发表于 Post on 2024-10-26 00:21:20 | 只看该作者 Only view this author
"这里td和freq的耗时都减去了scf的耗时",请问为什么不能直接用td和freq的耗时计算并行效率?

5万

帖子

99

威望

5万

eV
积分
112351

管理员

公社社长

27#
发表于 Post on 2017-4-15 05:34:32 | 只看该作者 Only view this author
lzy0702 发表于 2017-4-15 05:33
内存带宽不同会产生很大影响吗?比如DDR4 2133和DDR4 2400或者更高到DDR4 3000

不会
瓶颈不再内存
北京科音自然科学研究中心http://www.keinsci.com)致力于计算化学的发展和传播,长期开办高质量的各种计算化学类培训:初级量子化学培训班中级量子化学培训班高级量子化学培训班量子化学波函数分析与Multiwfn程序培训班分子动力学与GROMACS培训班CP2K第一性原理计算培训班,内容介绍以及往届资料购买请点击相应链接查看。这些培训是计算化学从零快速入门以及进一步全面系统性提升研究水平的高速路!培训各种常见问题见《北京科音办的培训班FAQ》
欢迎加入“北京科音”微信公众号获取北京科音培训的最新消息、避免错过网上有价值的计算化学文章!
欢迎加入人气非常高、专业性特别强的综合性理论与计算化学交流QQ群“思想家公社QQ群”:1号:18616395,2号:466017436,3号:764390338,搜索群号能搜到哪个说明目前哪个能加,合计9000人。北京科音培训班的学员在群中可申请VIP头衔,提问将得到群主Sobereva的最优先解答。
思想家公社的门口Blog:http://sobereva.com(发布大量原创计算化学相关博文)
Multiwfn主页:http://sobereva.com/multiwfn(十分强大的量子化学波函数分析程序)
ResearchGate:https://www.researchgate.net/profile/Tian_Lu
Money and papers are rubbish, get a real life!

26

帖子

0

威望

93

eV
积分
119

Level 2 能力者

26#
发表于 Post on 2017-4-15 05:33:03 | 只看该作者 Only view this author
内存带宽不同会产生很大影响吗?比如DDR4 2133和DDR4 2400或者更高到DDR4 3000

299

帖子

0

威望

1922

eV
积分
2221

Level 5 (御坂)

25#
发表于 Post on 2017-3-26 21:05:46 | 只看该作者 Only view this author
本帖最后由 gauss98 于 2017-3-26 21:08 编辑

test397 是很多厂商用来测试高斯性能的标准算例

以前是作为大体系来测试的,现在计算机性能增加了,也有直接对该分子扩大基组到631g**或者用该分子进行优化和频率计算了

1552

帖子

2

威望

6241

eV
积分
7833

Level 6 (一方通行)

给dalao们倒茶

24#
发表于 Post on 2017-3-26 20:34:38 | 只看该作者 Only view this author
rtransformation 发表于 2017-3-26 19:22
看起来跟wps似的。哈哈哈哈哈哈

真的是office2003………………………………
淡泊以明志,宁静以致远。

106

帖子

1

威望

2048

eV
积分
2174

Level 5 (御坂)

23#
发表于 Post on 2017-3-26 19:22:26 | 只看该作者 Only view this author
978142355 发表于 2017-1-3 18:57
Li老师我的excel是2003版的,默认的和这个并不一样。是不是版本有影响呢?

看起来跟wps似的。哈哈哈哈哈哈

903

帖子

37

威望

5324

eV
积分
6967

Level 6 (一方通行)

22#
 楼主 Author| 发表于 Post on 2017-3-26 13:23:02 | 只看该作者 Only view this author
gauss98 发表于 2017-3-25 12:18
很好很好的测试
很好很好的测试了相对并行效率
但是。。。。。。。。

受教了。请问测试test397分子是通用的做法么。为啥会取这个分子呢。这个分子有啥来头?我看好像是个多肽。。。

299

帖子

0

威望

1922

eV
积分
2221

Level 5 (御坂)

21#
发表于 Post on 2017-3-25 12:18:09 | 只看该作者 Only view this author
很好很好的测试
很好很好的测试了相对并行效率
但是。。。。。。。。
为什么不顺便把绝对时间给出来呢? 不是每个人都有机会测试 2699v4的
大家可以拿绝对时间跟其它的CPU相比较

或者测试通用的test397分子,跟其它网站相比较

测2689的时候,给出了绝对时间,但是没有给出具体分子和计算条件
别的人也没法跟自己的机器比较

230

帖子

0

威望

919

eV
积分
1149

Level 4 (黑子)

20#
发表于 Post on 2017-3-25 07:25:08 | 只看该作者 Only view this author
sobereva 发表于 2017-1-14 05:32
全核睿频
主频标的是不开TB的时候的基准频率。

那既然全核可以睿频,这个基准频率又是什么意思呢?难道说睿频不能长时间运行,时间一长,温度一高,就降到基准频率上了?

903

帖子

37

威望

5324

eV
积分
6967

Level 6 (一方通行)

19#
 楼主 Author| 发表于 Post on 2017-2-7 16:22:07 | 只看该作者 Only view this author
yjcmwgk 发表于 2017-2-7 14:49
用2699的土豪~抱大腿

小卒。等你上E5-26XX V5 拉

593

帖子

12

威望

4720

eV
积分
5553

Level 6 (一方通行)

密度泛函·小卒

18#
发表于 Post on 2017-2-7 14:49:16 | 只看该作者 Only view this author
用2699的土豪~抱大腿
一出生响亮登场,十几岁快乐成长,
二十岁天天向上,三十岁基本定向,
四十岁拼命打创,五十岁回首一望,
六十岁告老还乡,七十岁搓搓麻将,
八十岁躺在床上,九十岁挂在墙上,
人生一世,匆匆忙忙,生得嘹亮,走得凄凉!
生活就像五味瓶,酸甜苦辣难消停!
该吃吃,该喝喝,遇事别去心里搁,
想哭哭,想笑笑,烦恼就往云外抛,
记住甜,忘掉苦,亲人朋友好相处,
心情好,最重要,自我麻痹乐逍遥!

17

帖子

0

威望

188

eV
积分
205

Level 3 能力者

17#
发表于 Post on 2017-2-7 13:13:33 | 只看该作者 Only view this author
谢谢分享~!!

5万

帖子

99

威望

5万

eV
积分
112351

管理员

公社社长

16#
发表于 Post on 2017-1-14 05:32:53 | 只看该作者 Only view this author
gauss98 发表于 2017-1-13 21:40
好文要顶!d=====( ̄▽ ̄*)b

是不是算gaussian的时候CPU实际运行都是在全核睿频?


全核睿频
主频标的是不开TB的时候的基准频率。
北京科音自然科学研究中心http://www.keinsci.com)致力于计算化学的发展和传播,长期开办高质量的各种计算化学类培训:初级量子化学培训班中级量子化学培训班高级量子化学培训班量子化学波函数分析与Multiwfn程序培训班分子动力学与GROMACS培训班CP2K第一性原理计算培训班,内容介绍以及往届资料购买请点击相应链接查看。这些培训是计算化学从零快速入门以及进一步全面系统性提升研究水平的高速路!培训各种常见问题见《北京科音办的培训班FAQ》
欢迎加入“北京科音”微信公众号获取北京科音培训的最新消息、避免错过网上有价值的计算化学文章!
欢迎加入人气非常高、专业性特别强的综合性理论与计算化学交流QQ群“思想家公社QQ群”:1号:18616395,2号:466017436,3号:764390338,搜索群号能搜到哪个说明目前哪个能加,合计9000人。北京科音培训班的学员在群中可申请VIP头衔,提问将得到群主Sobereva的最优先解答。
思想家公社的门口Blog:http://sobereva.com(发布大量原创计算化学相关博文)
Multiwfn主页:http://sobereva.com/multiwfn(十分强大的量子化学波函数分析程序)
ResearchGate:https://www.researchgate.net/profile/Tian_Lu
Money and papers are rubbish, get a real life!

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 09:33 , Processed in 0.258341 second(s), 28 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list