计算化学公社

 找回密码 Forget password
 注册 Register
Views: 7462|回复 Reply: 8
打印 Print 上一主题 Last thread 下一主题 Next thread

[硬件评测] G16在4*Tesla V100上的GPU加速表现实测

[复制链接 Copy URL]

4

帖子

1

威望

421

eV
积分
445

Level 3 能力者

跳转到指定楼层 Go to specific reply
#
本帖最后由 wenqilab 于 2020-9-10 11:18 编辑

本人日常使用超算进行量化计算,在优化激发态、做频率分析,甚至做激发态频率分析时经常嫌在普通的16核节点上耗时较长,于是申请了32核节点和GPU节点的权限,我能使用的节点配置如下:1. 2*Intel Xeon E5-2630 v3 x86_64,2.4GHz,16核心,内存96GB DDR4 2133MHz ECC
2. 2*Intel(R) Xeon(R) E5-2682 v4 x86_64,2.5GHz,32核心,内存128GB DDR4 2133MHz ECC
3. 2*Intel(R) Xeon(R) E5-2640 v4 x86_64,2.4GHz,20核心,4*Nvidia Tesla V100,内存128GB DDR4 2133MHz ECC
由于G16 C.01支持了Tesla V100显卡的GPU加速,虽然社长说GPU加速性价比很低,但还是好奇4*Nvidia Tesla V100实际的加速效果的,毕竟此显卡纸面数据很强,且在超算上使用没有购置成本。同时也测试了在16核及32核节点上的运行速度,以资比较。

首先参考了@ggdh的http://bbs.keinsci.com/thread-4841-1-1.html,对gview默认的C60结构做TDDFT计算,关键词为#p b3lyp/6-311g(d) td(nstates=10) nosymmetry,结果如下(时间是任务总耗时):
C60 TDDFT
16核2.4GHz节点
94.75
min
32核2.5GHz节点
56.04
min
20核2.5GHz节点(不使用GPU)
72.43
min
20核2.5GHz+4*Tesla V100节点
38.38
min
可以看到对于当前任务,GPU加速还是有一定效果的,和同节点不开GPU时相比加速比为1.89倍,比32核节点也快46%。


之后又看到了http://bbs.keinsci.com/thread-19256-1-1.html这一篇,我也进行了模仿测试,体系是Gaussian Test397,关键词是:#p rb3lyp/3-21g force test scf=novaracc,结果如下:
Test 397 单点
16核2.4GHz节点
4.4
min
32核2.5GHz节点(只使用16核)
4.09
min
32核2.5GHz节点
2.48
min
20核2.5GHz节点(不使用GPU)
3.46
min
20核2.5GHz+4*Tesla V100节点
3
min
这一次为了获得16核→32核加速比,在32核节点上只使用了16核进行了一次计算(节点上只有我一个任务在跑),发现加速比为1.65,和官方宣传基本对得上。但GPU加速效果甚微,可能是体系较小的缘故。
最后对频率计算也进行了一下测试,还是Test397,关键词是:#p freq rb3lyp/3-21g scf=novaracc
Test 397 FREQ
16核2.4GHz节点
106.77
min
32核2.5GHz节点(只使用16核)
91.69
min
32核2.5GHz节点
58.18
min
20核2.5GHz节点(不使用GPU)
83.78
min
20核2.5GHz+4*Tesla V100节点
51.88
min
GPU加速比为1.61,但和32核节点相比速度差距不大,GPU加速比较鸡肋。16核→32核加速比为1.58。


总结:GPU在量化计算上确实发挥不出实际的算力,购买Tesla显卡跑高斯绝对是划不来的,但在超算上,如果偶尔有长耗时的任务想尽快拿到结果,花点机时费用GPU节点算一下,也未尝不可。

评分 Rate

参与人数
Participants 4
威望 +1 eV +15 收起 理由
Reason
zyniso + 5 GJ!
biogon + 5
sobereva + 1
dreamyeye + 5 赞!

查看全部评分 View all ratings

5万

帖子

99

威望

5万

eV
积分
112353

管理员

公社社长

8#
发表于 Post on 2020-9-12 05:46:27 | 只看该作者 Only view this author
wangxubo 发表于 2020-9-12 05:27
我不觉得这是一个科学的态度。我们都乐于承认RI近似很有用,加入RI近似之后算法本身降了一个标度。但即便 ...

你把我的一句话过度解读并进一步做文章
我不想在花时间用于应对在无意义的抬杠上

一个搞计算的人算个大体系TDDFT算不动,是花十几万买四块V100来得到可怜的GPU加速效果,还是不花钱用RIJCOSX来在不怎么牺牲精度的前提下加速得到甚至更好的速度,而且这两种做法还都是被学术界充分认可的,这种对比有没有意义不言自明。

况且我前面已经用黑色粗体字明确强调是“实际意义”,把话题往“科学态度”上带真是无聊。

北京科音自然科学研究中心http://www.keinsci.com)致力于计算化学的发展和传播,长期开办高质量的各种计算化学类培训:初级量子化学培训班中级量子化学培训班高级量子化学培训班量子化学波函数分析与Multiwfn程序培训班分子动力学与GROMACS培训班CP2K第一性原理计算培训班,内容介绍以及往届资料购买请点击相应链接查看。这些培训是计算化学从零快速入门以及进一步全面系统性提升研究水平的高速路!培训各种常见问题见《北京科音办的培训班FAQ》
欢迎加入“北京科音”微信公众号获取北京科音培训的最新消息、避免错过网上有价值的计算化学文章!
欢迎加入人气非常高、专业性特别强的综合性理论与计算化学交流QQ群“思想家公社QQ群”:1号:18616395,2号:466017436,3号:764390338,搜索群号能搜到哪个说明目前哪个能加,合计9000人。北京科音培训班的学员在群中可申请VIP头衔,提问将得到群主Sobereva的最优先解答。
思想家公社的门口Blog:http://sobereva.com(发布大量原创计算化学相关博文)
Multiwfn主页:http://sobereva.com/multiwfn(十分强大的量子化学波函数分析程序)
ResearchGate:https://www.researchgate.net/profile/Tian_Lu
Money and papers are rubbish, get a real life!

92

帖子

0

威望

2186

eV
积分
2278

Level 5 (御坂)

7#
发表于 Post on 2020-9-12 05:27:09 | 只看该作者 Only view this author
sobereva 发表于 2020-9-12 04:38
对于一般搞应用性研究的普通用户,有非常显著的实际意义
如果无视这种几乎ORCA用户必用的、误差可控、做 ...

我不觉得这是一个科学的态度。我们都乐于承认RI近似很有用,加入RI近似之后算法本身降了一个标度。但即便是对应用性研究者,大家也应该有最基本的常识,诸如RI是一个本身就是一个更低标度的算法,所以拿RI和不带RI的方法比本身有失公允,但是密度拟合本身是一种非常有效的而且误差可接受的方法,所以用起来是很好的,这些都是即便搞应用性研究的普通用户需要知道的,而不是说RI天下无敌,有RI的ORCA牛逼这样片面的观点。我相信,这些原理你肯定都是懂的,但是您作为希望传播更多计算化学知识的一个传道者,向大家传递RI就是好,ORCA开RI吊打高斯这种观点就是相当有失公允的,因为听您发言的小白可能很多都不知道RI到底是什么,只知道RI牛逼就完事了,对于知识的正确传播有着负面的作用。

5万

帖子

99

威望

5万

eV
积分
112353

管理员

公社社长

6#
发表于 Post on 2020-9-12 04:38:18 | 只看该作者 Only view this author
wangxubo 发表于 2020-9-11 15:00
虽然高斯的gpu加速没什么用,但是拿dft的速度和加入各种近似(rijcosx)后的dft来比较速度也是一件没有意 ...

对于一般搞应用性研究的普通用户,有非常显著的实际意义
如果无视这种几乎ORCA用户必用的、误差可控、做法恰当时误差可忽略不计、完全普适的加速技术,甚至会得到ORCA比Gaussian的DFT还慢这种没实际意义的结论。
一般用户看的是性价比,在保证精度、通用性的基础上,以具体什么途径实现速度最大化,不是用户关心的。

北京科音自然科学研究中心http://www.keinsci.com)致力于计算化学的发展和传播,长期开办高质量的各种计算化学类培训:初级量子化学培训班中级量子化学培训班高级量子化学培训班量子化学波函数分析与Multiwfn程序培训班分子动力学与GROMACS培训班CP2K第一性原理计算培训班,内容介绍以及往届资料购买请点击相应链接查看。这些培训是计算化学从零快速入门以及进一步全面系统性提升研究水平的高速路!培训各种常见问题见《北京科音办的培训班FAQ》
欢迎加入“北京科音”微信公众号获取北京科音培训的最新消息、避免错过网上有价值的计算化学文章!
欢迎加入人气非常高、专业性特别强的综合性理论与计算化学交流QQ群“思想家公社QQ群”:1号:18616395,2号:466017436,3号:764390338,搜索群号能搜到哪个说明目前哪个能加,合计9000人。北京科音培训班的学员在群中可申请VIP头衔,提问将得到群主Sobereva的最优先解答。
思想家公社的门口Blog:http://sobereva.com(发布大量原创计算化学相关博文)
Multiwfn主页:http://sobereva.com/multiwfn(十分强大的量子化学波函数分析程序)
ResearchGate:https://www.researchgate.net/profile/Tian_Lu
Money and papers are rubbish, get a real life!

92

帖子

0

威望

2186

eV
积分
2278

Level 5 (御坂)

5#
发表于 Post on 2020-9-11 15:00:47 | 只看该作者 Only view this author
sobereva 发表于 2020-9-10 15:39
进一步体现了g16的GPU加速纯摆设。ORCA开个RIJCOSX速度都能将之充分比下去

虽然高斯的gpu加速没什么用,但是拿dft的速度和加入各种近似(rijcosx)后的dft来比较速度也是一件没有意义的事情。

230

帖子

0

威望

2653

eV
积分
2883

Level 5 (御坂)

4#
发表于 Post on 2020-9-11 06:28:22 | 只看该作者 Only view this author
瓜丝官方有测试,八路泰坦速度实在是垃圾

59

帖子

0

威望

3655

eV
积分
3714

Level 5 (御坂)

3#
发表于 Post on 2020-9-10 20:54:16 | 只看该作者 Only view this author
平时购机还在纠结是否应该考虑GPU,看来不用烦恼了。

1236

帖子

1

威望

3495

eV
积分
4751

Level 6 (一方通行)

2#
发表于 Post on 2020-9-10 16:37:58 | 只看该作者 Only view this author
4*V100就这速度,鸡肋都算不上了

5万

帖子

99

威望

5万

eV
积分
112353

管理员

公社社长

楼主
发表于 Post on 2020-9-10 15:39:48 | 只看该作者 Only view this author
进一步体现了g16的GPU加速纯摆设。ORCA开个RIJCOSX速度都能将之充分比下去
北京科音自然科学研究中心http://www.keinsci.com)致力于计算化学的发展和传播,长期开办高质量的各种计算化学类培训:初级量子化学培训班中级量子化学培训班高级量子化学培训班量子化学波函数分析与Multiwfn程序培训班分子动力学与GROMACS培训班CP2K第一性原理计算培训班,内容介绍以及往届资料购买请点击相应链接查看。这些培训是计算化学从零快速入门以及进一步全面系统性提升研究水平的高速路!培训各种常见问题见《北京科音办的培训班FAQ》
欢迎加入“北京科音”微信公众号获取北京科音培训的最新消息、避免错过网上有价值的计算化学文章!
欢迎加入人气非常高、专业性特别强的综合性理论与计算化学交流QQ群“思想家公社QQ群”:1号:18616395,2号:466017436,3号:764390338,搜索群号能搜到哪个说明目前哪个能加,合计9000人。北京科音培训班的学员在群中可申请VIP头衔,提问将得到群主Sobereva的最优先解答。
思想家公社的门口Blog:http://sobereva.com(发布大量原创计算化学相关博文)
Multiwfn主页:http://sobereva.com/multiwfn(十分强大的量子化学波函数分析程序)
ResearchGate:https://www.researchgate.net/profile/Tian_Lu
Money and papers are rubbish, get a real life!

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 19:18 , Processed in 0.189033 second(s), 23 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list