请选择 进入手机版 | 继续访问电脑版
第13届北京科音初级量子化学培训班将于10月5~8日于北京举办,请点击此链接查看详情。这是新人一次性正确、完整学习量子化学计算的最好、最快机会,能少走无数弯路,欢迎参加并相互转告!(已报满)

计算化学公社

 找回密码
 现在注册!
查看: 521|回复: 8

[硬件评测] G16在4*Tesla V100上的GPU加速表现实测

[复制链接]

3

帖子

1

威望

161

eV
积分
184

Level 3 能力者

发表于 2020-9-10 11:18:35 | 显示全部楼层 |阅读模式
本帖最后由 wenqilab 于 2020-9-10 11:18 编辑

本人日常使用超算进行量化计算,在优化激发态、做频率分析,甚至做激发态频率分析时经常嫌在普通的16核节点上耗时较长,于是申请了32核节点和GPU节点的权限,我能使用的节点配置如下:1. 2*Intel Xeon E5-2630 v3 x86_64,2.4GHz,16核心,内存96GB DDR4 2133MHz ECC
2. 2*Intel(R) Xeon(R) E5-2682 v4 x86_64,2.5GHz,32核心,内存128GB DDR4 2133MHz ECC
3. 2*Intel(R) Xeon(R) E5-2640 v4 x86_64,2.4GHz,20核心,4*Nvidia Tesla V100,内存128GB DDR4 2133MHz ECC
由于G16 C.01支持了Tesla V100显卡的GPU加速,虽然社长说GPU加速性价比很低,但还是好奇4*Nvidia Tesla V100实际的加速效果的,毕竟此显卡纸面数据很强,且在超算上使用没有购置成本。同时也测试了在16核及32核节点上的运行速度,以资比较。

首先参考了@ggdh的http://bbs.keinsci.com/thread-4841-1-1.html,对gview默认的C60结构做TDDFT计算,关键词为#p b3lyp/6-311g(d) td(nstates=10) nosymmetry,结果如下(时间是任务总耗时):
C60 TDDFT
16核2.4GHz节点
94.75
min
32核2.5GHz节点
56.04
min
20核2.5GHz节点(不使用GPU)
72.43
min
20核2.5GHz+4*Tesla V100节点
38.38
min
可以看到对于当前任务,GPU加速还是有一定效果的,和同节点不开GPU时相比加速比为1.89倍,比32核节点也快46%。


之后又看到了http://bbs.keinsci.com/thread-19256-1-1.html这一篇,我也进行了模仿测试,体系是Gaussian Test397,关键词是:#p rb3lyp/3-21g force test scf=novaracc,结果如下:
Test 397 单点
16核2.4GHz节点
4.4
min
32核2.5GHz节点(只使用16核)
4.09
min
32核2.5GHz节点
2.48
min
20核2.5GHz节点(不使用GPU)
3.46
min
20核2.5GHz+4*Tesla V100节点
3
min
这一次为了获得16核→32核加速比,在32核节点上只使用了16核进行了一次计算(节点上只有我一个任务在跑),发现加速比为1.65,和官方宣传基本对得上。但GPU加速效果甚微,可能是体系较小的缘故。
最后对频率计算也进行了一下测试,还是Test397,关键词是:#p freq rb3lyp/3-21g scf=novaracc
Test 397 FREQ
16核2.4GHz节点
106.77
min
32核2.5GHz节点(只使用16核)
91.69
min
32核2.5GHz节点
58.18
min
20核2.5GHz节点(不使用GPU)
83.78
min
20核2.5GHz+4*Tesla V100节点
51.88
min
GPU加速比为1.61,但和32核节点相比速度差距不大,GPU加速比较鸡肋。16核→32核加速比为1.58。


总结:GPU在量化计算上确实发挥不出实际的算力,购买Tesla显卡跑高斯绝对是划不来的,但在超算上,如果偶尔有长耗时的任务想尽快拿到结果,花点机时费用GPU节点算一下,也未尝不可。

评分

参与人数 4威望 +1 eV +15 收起 理由
zyniso + 5 GJ!
biogon + 5
sobereva + 1
dreamyeye + 5 赞!

查看全部评分

2万

帖子

25

威望

3万

eV
积分
58543

管理员

公社社长

发表于 2020-9-10 15:39:48 | 显示全部楼层
进一步体现了g16的GPU加速纯摆设。ORCA开个RIJCOSX速度都能将之充分比下去
北京科音自然科学研究中心http://www.keinsci.com  致力于计算化学的发展和传播,长期开办最高水准的各种量子化学、分子动力学、波函数分析与Multiwfn程序等主题的培训,是提升计算化学研究水平的最佳选择。欢迎加入“北京科音”公众号获取培训最新消息和计算化学资讯!培训相关信息见《北京科音办的培训班FAQ》(http://bbs.keinsci.com/thread-5098-1-1.html)。
欢迎加入人气最高、水准最高的综合性理论与计算化学交流QQ群:思想家公社QQ群1号:18616395,2号:466017436。合计6000人。两个群讨论范畴相同,可加入任意其一但不可都加入,申请信息必须注明具体研究方向,否则一定会被拒绝加入。
思想家公社的门口Blog:http://sobereva.com(发布大量原创计算化学相关博文)
Multiwfn主页:http://sobereva.com/multiwfn(最强大的量子化学波函数分析程序)
ResearchGate:https://www.researchgate.net/profile/Tian_Lu
Money and papers are rubbish, get a real life!

426

帖子

0

威望

1153

eV
积分
1579

Level 5 (御坂)

发表于 2020-9-10 16:37:58 | 显示全部楼层
4*V100就这速度,鸡肋都算不上了

57

帖子

0

威望

3148

eV
积分
3205

Level 5 (御坂)

发表于 2020-9-10 20:54:16 | 显示全部楼层
平时购机还在纠结是否应该考虑GPU,看来不用烦恼了。

193

帖子

0

威望

1865

eV
积分
2058

Level 5 (御坂)

发表于 2020-9-11 06:28:22 | 显示全部楼层
瓜丝官方有测试,八路泰坦速度实在是垃圾

60

帖子

0

威望

1210

eV
积分
1270

Level 4 (黑子)

发表于 2020-9-11 15:00:47 | 显示全部楼层
sobereva 发表于 2020-9-10 15:39
进一步体现了g16的GPU加速纯摆设。ORCA开个RIJCOSX速度都能将之充分比下去

虽然高斯的gpu加速没什么用,但是拿dft的速度和加入各种近似(rijcosx)后的dft来比较速度也是一件没有意义的事情。

2万

帖子

25

威望

3万

eV
积分
58543

管理员

公社社长

发表于 2020-9-12 04:38:18 | 显示全部楼层
wangxubo 发表于 2020-9-11 15:00
虽然高斯的gpu加速没什么用,但是拿dft的速度和加入各种近似(rijcosx)后的dft来比较速度也是一件没有意 ...

对于一般搞应用性研究的普通用户,有非常显著的实际意义
如果无视这种几乎ORCA用户必用的、误差可控、做法恰当时误差可忽略不计、完全普适的加速技术,甚至会得到ORCA比Gaussian的DFT还慢这种没实际意义的结论。
一般用户看的是性价比,在保证精度、通用性的基础上,以具体什么途径实现速度最大化,不是用户关心的。

北京科音自然科学研究中心http://www.keinsci.com  致力于计算化学的发展和传播,长期开办最高水准的各种量子化学、分子动力学、波函数分析与Multiwfn程序等主题的培训,是提升计算化学研究水平的最佳选择。欢迎加入“北京科音”公众号获取培训最新消息和计算化学资讯!培训相关信息见《北京科音办的培训班FAQ》(http://bbs.keinsci.com/thread-5098-1-1.html)。
欢迎加入人气最高、水准最高的综合性理论与计算化学交流QQ群:思想家公社QQ群1号:18616395,2号:466017436。合计6000人。两个群讨论范畴相同,可加入任意其一但不可都加入,申请信息必须注明具体研究方向,否则一定会被拒绝加入。
思想家公社的门口Blog:http://sobereva.com(发布大量原创计算化学相关博文)
Multiwfn主页:http://sobereva.com/multiwfn(最强大的量子化学波函数分析程序)
ResearchGate:https://www.researchgate.net/profile/Tian_Lu
Money and papers are rubbish, get a real life!

60

帖子

0

威望

1210

eV
积分
1270

Level 4 (黑子)

发表于 2020-9-12 05:27:09 | 显示全部楼层
sobereva 发表于 2020-9-12 04:38
对于一般搞应用性研究的普通用户,有非常显著的实际意义
如果无视这种几乎ORCA用户必用的、误差可控、做 ...

我不觉得这是一个科学的态度。我们都乐于承认RI近似很有用,加入RI近似之后算法本身降了一个标度。但即便是对应用性研究者,大家也应该有最基本的常识,诸如RI是一个本身就是一个更低标度的算法,所以拿RI和不带RI的方法比本身有失公允,但是密度拟合本身是一种非常有效的而且误差可接受的方法,所以用起来是很好的,这些都是即便搞应用性研究的普通用户需要知道的,而不是说RI天下无敌,有RI的ORCA牛逼这样片面的观点。我相信,这些原理你肯定都是懂的,但是您作为希望传播更多计算化学知识的一个传道者,向大家传递RI就是好,ORCA开RI吊打高斯这种观点就是相当有失公允的,因为听您发言的小白可能很多都不知道RI到底是什么,只知道RI牛逼就完事了,对于知识的正确传播有着负面的作用。

2万

帖子

25

威望

3万

eV
积分
58543

管理员

公社社长

发表于 2020-9-12 05:46:27 | 显示全部楼层
wangxubo 发表于 2020-9-12 05:27
我不觉得这是一个科学的态度。我们都乐于承认RI近似很有用,加入RI近似之后算法本身降了一个标度。但即便 ...

你把我的一句话过度解读并进一步做文章
我不想在花时间用于应对在无意义的抬杠上

一个搞计算的人算个大体系TDDFT算不动,是花十几万买四块V100来得到可怜的GPU加速效果,还是不花钱用RIJCOSX来在不怎么牺牲精度的前提下加速得到甚至更好的速度,而且这两种做法还都是被学术界充分认可的,这种对比有没有意义不言自明。

况且我前面已经用黑色粗体字明确强调是“实际意义”,把话题往“科学态度”上带真是无聊。

北京科音自然科学研究中心http://www.keinsci.com  致力于计算化学的发展和传播,长期开办最高水准的各种量子化学、分子动力学、波函数分析与Multiwfn程序等主题的培训,是提升计算化学研究水平的最佳选择。欢迎加入“北京科音”公众号获取培训最新消息和计算化学资讯!培训相关信息见《北京科音办的培训班FAQ》(http://bbs.keinsci.com/thread-5098-1-1.html)。
欢迎加入人气最高、水准最高的综合性理论与计算化学交流QQ群:思想家公社QQ群1号:18616395,2号:466017436。合计6000人。两个群讨论范畴相同,可加入任意其一但不可都加入,申请信息必须注明具体研究方向,否则一定会被拒绝加入。
思想家公社的门口Blog:http://sobereva.com(发布大量原创计算化学相关博文)
Multiwfn主页:http://sobereva.com/multiwfn(最强大的量子化学波函数分析程序)
ResearchGate:https://www.researchgate.net/profile/Tian_Lu
Money and papers are rubbish, get a real life!
您需要登录后才可以回帖 登录 | 现在注册!

本版积分规则

手机版|北京科音自然科学研究中心|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949-1号 )

GMT+8, 2020-9-20 15:35 , Processed in 0.206942 second(s), 26 queries .

快速回复 返回顶部 返回列表