计算化学公社

标题: Gaussian 16 能否使用P106显卡的GPU吗? [打印本页]

作者
Author:
tjchkj    时间: 2019-3-1 15:55
标题: Gaussian 16 能否使用P106显卡的GPU吗?
看到只有Tesla K80 能支持gpu运算。但这个显卡比较贵,能否使用P106 这种6G显存GPU来做运算呢?

作者
Author:
tjchkj    时间: 2019-3-1 16:21
标题: 求教:Gaussian 16 能否利用P106 GPU来计算?
如题,看到官网上只是提了用tesla 80k显卡可以,本论坛里有大神用1080Ti组装了机器。但我这里银子少,所以没有那么好的显卡,希望能用P106 显卡来做计算。P106显卡是6G显存的,可以用多卡,因为价格比较合适,如果用8卡的话,可以顶上2块1080ti的计算性能了。

作者
Author:
biogon    时间: 2019-3-1 17:10
g16的GPU加速效果相当有限,不如加多核数
作者
Author:
sobereva    时间: 2019-3-1 18:11
G16的GPU加速纯属鸡肋,有钱还不如再添个GPU服务器
作者
Author:
tjchkj    时间: 2019-3-1 18:48
哦,看来想用gpu做计算用在Gaussian 16里没什么用了。那就只好等下一个版本了,因为说起计算能力,显卡的处理器数量多,很多区块链里的数字货币,都是可以使用cpu和GPU的,明显的GPU要比CPU算力高的不是一点半点,都是完虐CPU
作者
Author:
sobereva    时间: 2019-3-1 18:49
tjchkj 发表于 2019-3-1 18:48
哦,看来想用gpu做计算用在Gaussian 16里没什么用了。那就只好等下一个版本了,因为说起计算能力,显卡的处 ...

关键看算什么问题
量化算法复杂度相当高,而且基本都是基于双精度的,GPU加速起不到显著效果,这和算法简单粗暴而且单精度一般就够用的分子动力学的GPU加速效果天差地别。所以十年前就有文章鼓吹GPU加速会带来量化计算的革命,结果现在这种说法已经沦为笑柄了。

之前写过一个现在来看有点过时的文章,可以看看
首个完全基于GPU的量化软件-TeraChem杂谈及真实性能测试
http://sobereva.com/137

G16应该肯定用不了P106


作者
Author:
Daniel_Arndt    时间: 2019-3-2 09:09
想起来我导师曾经看上了TeraChem的那个nano-reactor的功能,想买的。因为种种原因,最终没买。现在两年过去了,xtb有这个功能了,还免费的,不需要GPU
作者
Author:
k64_cc    时间: 2019-3-2 16:14
sobereva 发表于 2019-3-1 18:49
关键看算什么问题
量化算法复杂度相当高,而且基本都是基于双精度的,GPU加速起不到显著效果,这和算法 ...

现在GPU算力比您落笔那会都翻了好几番了,TeraChem目前的速度还是能比一众qm engine快个两三倍的。

当然他支持的计算方法也着实有限,令人头秃。
作者
Author:
sobereva    时间: 2019-3-3 00:35
k64_cc 发表于 2019-3-2 16:14
现在GPU算力比您落笔那会都翻了好几番了,TeraChem目前的速度还是能比一众qm engine快个两三倍的。

当 ...

CPU计算能力也番N番了。如果想证明GPU加速在量化上有价值的话,不妨对比同样投资下现阶段版本Terachem和ORCA开RI时的速度。

找了个目前版本terachem结合K80算110原子体系的测试数据,单点+受力耗时79s。我用2*2696v3(这一台机子现在也就2万)用ORCA跑RI-BLYP/6-31G*算同样任务,才花了61s;用Gaussian跑BLYP/6-31G*,101s。terachem本身还得每台机子授权一万RMB左右,再加上功能局限性极大(诸如才区区支持到d角动量、解析Hessian都没有、明尼苏达系列泛函和双杂化一个都不支持),没看出terachem有多大使用价值。

作者
Author:
k64_cc    时间: 2019-3-3 10:41
本帖最后由 k64_cc 于 2019-3-3 10:43 编辑
sobereva 发表于 2019-3-3 00:35
CPU计算能力也番N番了。如果想证明GPU加速在量化上有价值的话,不妨对比同样投资下现阶段版本Terachem和O ...

您要是说的是他们官网上的benchmark,那他们还给了1080Ti的数据呢。1080Ti跑Taxol才48s,完胜ORCA,全场最佳,还比K80便宜。现在这年头买Tesla,钱多,采购商限制,脑子有坑,三者必居其一。
(, 下载次数 Times of downloads: 58)

1080/1080Ti现在也才三四千,换个散热就能进服务器,硬件投资至少比一个CPU便宜。港真这里面最大的投资其实是买license,不过我一直觉得这里面其实可以做点手脚,花一份钱就够。或者就用试用版,试用版只能用单核,还限制了显存,但是跑三五十个原子的体系还是够的。
至于功能少,人家软件做出来就是为了跑AIMD的,有BLYP有PBE有wB97x基本上就够用了。单用CPU只能跑纯泛函还得加赝势,用了Terachem就能跑全电子运算,甚至还能用杂化泛函。起码在这个层面,Terachem的实用性是真实存在的。



作者
Author:
sobereva    时间: 2019-3-3 15:57
k64_cc 发表于 2019-3-3 10:41Gaussian 16 能否使用P106显卡的 ...
您要是说的是他们官网上的benchmark,那他们还给了1080Ti的数据呢。1080Ti跑Taxol才48s,完胜ORCA,全场 ...

全新的1080Ti三四千买得来?一块新的1080Ti 7000块钱,其它东西加起来总共一台机子一万多,一个terachem授权费一万块钱,总共两万多,双路2696v3整机也就两万块钱就能搞下来,性价比上terachem有啥优势?(更何况还不可能用盗版,据我所知是和Mac绑定的) 如果用那些三四千的二手、拆机、矿卡1080Ti说事,那也应该对比用QS的XEON的机子的性价比。
就三五十个原子体系,ORCA跑得飞快,用terachem试用版也完全毫无意义。
48s就算完胜ORCA 61s了?本来不同程序积分截断阈值、格点积分精度设置、SCF迭代算法就存在差异,区区20%程度的差异完全可以忽略不计。

基于CPU的量化程序跑纯泛函必须得加赝势这是谁的高论?量化程序和基于平面波的第一性原理程序的情况能是一回事么?“单用CPU只能跑纯泛函”这是啥情况?是指Dmol3这种量化界的小儿科程序?
如今大多数主流量化程序全都起码支持BOMD形式的AIMD,ORCA 4.1在AIMD的功能性上面更是有了极大的提升,已经做得相当好,terachem如今在跑AIMD这点上也完全不吃香。我完全意识不到用terachem在任何一个方面有任何好处。

作者
Author:
k64_cc    时间: 2019-3-3 22:03
本帖最后由 k64_cc 于 2019-3-3 22:05 编辑
sobereva 发表于 2019-3-3 15:57
全新的1080Ti三四千买得来?一块新的1080Ti 7000块钱,其它东西加起来总共一台机子一万多,一个terachem ...

三四千……还真买得来。我现在机箱里的1080,北美货,ebay车,全新,没税,三千块。当时要不是手头紧,就真买1080Ti了。要非按高校采购价走,那可以买2070嘛,算力上也没差太多,统统秒杀K80,感谢黄老板。盗版的事咱不谈,我也只是觉得有辙,毕竟还没试过。还没毕业,不敢作死。

杂化泛函AIMD没法跑这话没毛病吧。随便一个中等体系,B3LYP跑一步一两分钟,拿10ps轨迹都得下个月见,任务结束的时候都忘了一开始要算啥。不然为啥他们成天BLYP成天PBE,还不是因为再贵就算不起。这种时候20%-30%的加速可以说几近救命。至于“量化程序跑纯泛函必须加赝势”……要不您考虑一下CP2K。它是目前跑纯泛函AIMD最快的解决方案之一,不算TeraChem的话。港真TeraChem不吃香大概只是因为贵。
最后,“量化程序”和“第一性原理程序”好像在大多数情况下都是一回事的,尤其是不谈晶体只谈AIMD的时候——要不您再想想CP2K。
作者
Author:
sobereva    时间: 2019-3-3 23:06
k64_cc 发表于 2019-3-3 22:03
三四千……还真买得来。我现在机箱里的1080,北美货,ebay车,全新,没税,三千块。当时要不是手头紧,就 ...

量化程序和第一性原理程序有着截然的不同,前者处理对象是孤立体系,后者是周期性体系,程序设计思想、功能侧重点、适合研究的问题、支持的理论方法、基函数形式等方面都上有极其显著的不同,不具备显著可替代性,明显不是“大多数情况下都是一回事的”。

terachem不支持PBC下的AIMD,属于典型的量化程序范畴,最恰当的直接对比对象显然是流行、免费、快速的量化程序ORCA,跑题去跟侧重PBC体系的CP2K对比属于拿苹果跟梨去对比。去和非同类对象对比来试图体现terachem具有的优点并无意义,没有哪个主流的量化程序做纯泛函计算必须用赝势。论功能性、支持的特征,大多数主流量化程序都显著超过需要为PBC做专门考虑的第一性原理程序。倘若terachem支持PBC下的AIMD,那跟第一性原理程序CP2K去比AIMD倒是有意义。当只谈AIMD不谈PBC,并且注重AIMD的功能性和速度的时候,目前最优先考虑的选择无疑是ORCA。

我在ebay转了一圈,没见着标着brand new还卖三四千的1080Ti(工包、开过盒子缺件之类的不属于考虑范围)。


作者
Author:
tjchkj    时间: 2019-3-4 23:02
不过二手的1080和1080ti 成色都还比较好,还真能买到的。可别说用不住,一般只要风扇转动特别好的话,都能用的住。
作者
Author:
sobereva    时间: 2019-3-5 01:00
tjchkj 发表于 2019-3-4 23:02
不过二手的1080和1080ti 成色都还比较好,还真能买到的。可别说用不住,一般只要风扇转动特别好的话,都能 ...

主要是来源比较杂,卖二手的卖家给的质保时间也很有限,而且不排除里面混入返修货。如果是一般玩家自己平时私用的,买来一般没啥问题,关键难说在这卡经历了什么。以前我经常买卖二手硬件,花屏的显卡也没少碰到
作者
Author:
biogon    时间: 2019-3-5 17:11
sobereva 发表于 2019-3-5 01:00
主要是来源比较杂,卖二手的卖家给的质保时间也很有限,而且不排除里面混入返修货。如果是一般玩家自己平 ...

现在买二手显卡来路不明的都是一律按矿卡对待的,要是稍不注意就会翻车
作者
Author:
etoac    时间: 2019-3-5 23:48
量化算法复杂度相当高,而且基本都是基于双精度的,GPU加速起不到显著效果,


关于双精度这一点,插一句,根据https://pubs.acs.org.ccindex.cn/doi/abs/10.1021/ct100533u以及本人一些测试,单精度不失为减小计算量的一个奇招

GPU加速量化计算我觉得现在这个框架下基本没戏
作者
Author:
fhh2626    时间: 2019-4-2 14:56
sobereva 发表于 2019-3-3 15:57
全新的1080Ti三四千买得来?一块新的1080Ti 7000块钱,其它东西加起来总共一台机子一万多,一个terachem ...

前一阵子搞了个terachem的测试版,在我们自己的机器上效率也就Orca(开RI)的一半呃。。。




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3