计算化学公社

标题: G16在4*Tesla V100上的GPU加速表现实测 [打印本页]

作者
Author:
wenqilab    时间: 2020-9-10 11:18
标题: G16在4*Tesla V100上的GPU加速表现实测
本帖最后由 wenqilab 于 2020-9-10 11:18 编辑

本人日常使用超算进行量化计算,在优化激发态、做频率分析,甚至做激发态频率分析时经常嫌在普通的16核节点上耗时较长,于是申请了32核节点和GPU节点的权限,我能使用的节点配置如下:1. 2*Intel Xeon E5-2630 v3 x86_64,2.4GHz,16核心,内存96GB DDR4 2133MHz ECC
2. 2*Intel(R) Xeon(R) E5-2682 v4 x86_64,2.5GHz,32核心,内存128GB DDR4 2133MHz ECC
3. 2*Intel(R) Xeon(R) E5-2640 v4 x86_64,2.4GHz,20核心,4*Nvidia Tesla V100,内存128GB DDR4 2133MHz ECC
由于G16 C.01支持了Tesla V100显卡的GPU加速,虽然社长说GPU加速性价比很低,但还是好奇4*Nvidia Tesla V100实际的加速效果的,毕竟此显卡纸面数据很强,且在超算上使用没有购置成本。同时也测试了在16核及32核节点上的运行速度,以资比较。

首先参考了@ggdh的http://bbs.keinsci.com/thread-4841-1-1.html,对gview默认的C60结构做TDDFT计算,关键词为#p b3lyp/6-311g(d) td(nstates=10) nosymmetry,结果如下(时间是任务总耗时):
C60 TDDFT
16核2.4GHz节点
94.75
min
32核2.5GHz节点
56.04
min
20核2.5GHz节点(不使用GPU)
72.43
min
20核2.5GHz+4*Tesla V100节点
38.38
min
可以看到对于当前任务,GPU加速还是有一定效果的,和同节点不开GPU时相比加速比为1.89倍,比32核节点也快46%。


之后又看到了http://bbs.keinsci.com/thread-19256-1-1.html这一篇,我也进行了模仿测试,体系是Gaussian Test397,关键词是:#p rb3lyp/3-21g force test scf=novaracc,结果如下:
Test 397 单点
16核2.4GHz节点
4.4
min
32核2.5GHz节点(只使用16核)
4.09
min
32核2.5GHz节点
2.48
min
20核2.5GHz节点(不使用GPU)
3.46
min
20核2.5GHz+4*Tesla V100节点
3
min
这一次为了获得16核→32核加速比,在32核节点上只使用了16核进行了一次计算(节点上只有我一个任务在跑),发现加速比为1.65,和官方宣传基本对得上。但GPU加速效果甚微,可能是体系较小的缘故。
最后对频率计算也进行了一下测试,还是Test397,关键词是:#p freq rb3lyp/3-21g scf=novaracc
Test 397 FREQ
16核2.4GHz节点
106.77
min
32核2.5GHz节点(只使用16核)
91.69
min
32核2.5GHz节点
58.18
min
20核2.5GHz节点(不使用GPU)
83.78
min
20核2.5GHz+4*Tesla V100节点
51.88
min
GPU加速比为1.61,但和32核节点相比速度差距不大,GPU加速比较鸡肋。16核→32核加速比为1.58。


总结:GPU在量化计算上确实发挥不出实际的算力,购买Tesla显卡跑高斯绝对是划不来的,但在超算上,如果偶尔有长耗时的任务想尽快拿到结果,花点机时费用GPU节点算一下,也未尝不可。

作者
Author:
sobereva    时间: 2020-9-10 15:39
进一步体现了g16的GPU加速纯摆设。ORCA开个RIJCOSX速度都能将之充分比下去
作者
Author:
biogon    时间: 2020-9-10 16:37
4*V100就这速度,鸡肋都算不上了
作者
Author:
ntrip    时间: 2020-9-10 20:54
平时购机还在纠结是否应该考虑GPU,看来不用烦恼了。
作者
Author:
一颗赛艇    时间: 2020-9-11 06:28
瓜丝官方有测试,八路泰坦速度实在是垃圾
作者
Author:
wangxubo    时间: 2020-9-11 15:00
sobereva 发表于 2020-9-10 15:39
进一步体现了g16的GPU加速纯摆设。ORCA开个RIJCOSX速度都能将之充分比下去

虽然高斯的gpu加速没什么用,但是拿dft的速度和加入各种近似(rijcosx)后的dft来比较速度也是一件没有意义的事情。
作者
Author:
sobereva    时间: 2020-9-12 04:38
wangxubo 发表于 2020-9-11 15:00
虽然高斯的gpu加速没什么用,但是拿dft的速度和加入各种近似(rijcosx)后的dft来比较速度也是一件没有意 ...

对于一般搞应用性研究的普通用户,有非常显著的实际意义
如果无视这种几乎ORCA用户必用的、误差可控、做法恰当时误差可忽略不计、完全普适的加速技术,甚至会得到ORCA比Gaussian的DFT还慢这种没实际意义的结论。
一般用户看的是性价比,在保证精度、通用性的基础上,以具体什么途径实现速度最大化,不是用户关心的。


作者
Author:
wangxubo    时间: 2020-9-12 05:27
sobereva 发表于 2020-9-12 04:38
对于一般搞应用性研究的普通用户,有非常显著的实际意义
如果无视这种几乎ORCA用户必用的、误差可控、做 ...

我不觉得这是一个科学的态度。我们都乐于承认RI近似很有用,加入RI近似之后算法本身降了一个标度。但即便是对应用性研究者,大家也应该有最基本的常识,诸如RI是一个本身就是一个更低标度的算法,所以拿RI和不带RI的方法比本身有失公允,但是密度拟合本身是一种非常有效的而且误差可接受的方法,所以用起来是很好的,这些都是即便搞应用性研究的普通用户需要知道的,而不是说RI天下无敌,有RI的ORCA牛逼这样片面的观点。我相信,这些原理你肯定都是懂的,但是您作为希望传播更多计算化学知识的一个传道者,向大家传递RI就是好,ORCA开RI吊打高斯这种观点就是相当有失公允的,因为听您发言的小白可能很多都不知道RI到底是什么,只知道RI牛逼就完事了,对于知识的正确传播有着负面的作用。
作者
Author:
sobereva    时间: 2020-9-12 05:46
wangxubo 发表于 2020-9-12 05:27
我不觉得这是一个科学的态度。我们都乐于承认RI近似很有用,加入RI近似之后算法本身降了一个标度。但即便 ...

你把我的一句话过度解读并进一步做文章
我不想在花时间用于应对在无意义的抬杠上

一个搞计算的人算个大体系TDDFT算不动,是花十几万买四块V100来得到可怜的GPU加速效果,还是不花钱用RIJCOSX来在不怎么牺牲精度的前提下加速得到甚至更好的速度,而且这两种做法还都是被学术界充分认可的,这种对比有没有意义不言自明。

况且我前面已经用黑色粗体字明确强调是“实际意义”,把话题往“科学态度”上带真是无聊。






欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3