计算化学公社

标题: Gaussian 16 能否使用P106显卡的GPU吗？ [打印本页]

作者
Author: tjchkj 时间: 2019-3-1 15:55
标题: Gaussian 16 能否使用P106显卡的GPU吗？
看到只有Tesla K80 能支持gpu运算。但这个显卡比较贵，能否使用P106 这种6G显存GPU来做运算呢？

作者
Author: tjchkj 时间: 2019-3-1 16:21
标题: 求教：Gaussian 16 能否利用P106 GPU来计算？
如题，看到官网上只是提了用tesla 80k显卡可以，本论坛里有大神用1080Ti组装了机器。但我这里银子少，所以没有那么好的显卡，希望能用P106 显卡来做计算。P106显卡是6G显存的，可以用多卡，因为价格比较合适，如果用8卡的话，可以顶上2块1080ti的计算性能了。

作者
Author: biogon 时间: 2019-3-1 17:10
g16的GPU加速效果相当有限，不如加多核数

作者
Author: sobereva 时间: 2019-3-1 18:11
G16的GPU加速纯属鸡肋，有钱还不如再添个GPU服务器

作者
Author: tjchkj 时间: 2019-3-1 18:48
哦，看来想用gpu做计算用在Gaussian 16里没什么用了。那就只好等下一个版本了，因为说起计算能力，显卡的处理器数量多，很多区块链里的数字货币，都是可以使用cpu和GPU的，明显的GPU要比CPU算力高的不是一点半点，都是完虐CPU

作者
Author: sobereva 时间: 2019-3-1 18:49

tjchkj 发表于 2019-3-1 18:48
哦，看来想用gpu做计算用在Gaussian 16里没什么用了。那就只好等下一个版本了，因为说起计算能力，显卡的处 ...

关键看算什么问题
量化算法复杂度相当高，而且基本都是基于双精度的，GPU加速起不到显著效果，这和算法简单粗暴而且单精度一般就够用的分子动力学的GPU加速效果天差地别。所以十年前就有文章鼓吹GPU加速会带来量化计算的革命，结果现在这种说法已经沦为笑柄了。

之前写过一个现在来看有点过时的文章，可以看看
首个完全基于GPU的量化软件-TeraChem杂谈及真实性能测试
http://sobereva.com/137

G16应该肯定用不了P106

作者
Author: Daniel_Arndt 时间: 2019-3-2 09:09
想起来我导师曾经看上了TeraChem的那个nano-reactor的功能，想买的。因为种种原因，最终没买。现在两年过去了，xtb有这个功能了，还免费的，不需要GPU

。

作者
Author: k64_cc 时间: 2019-3-2 16:14

sobereva 发表于 2019-3-1 18:49
关键看算什么问题
量化算法复杂度相当高，而且基本都是基于双精度的，GPU加速起不到显著效果，这和算法 ...

现在GPU算力比您落笔那会都翻了好几番了，TeraChem目前的速度还是能比一众qm engine快个两三倍的。

当然他支持的计算方法也着实有限，令人头秃。

作者
Author: sobereva 时间: 2019-3-3 00:35

k64_cc 发表于 2019-3-2 16:14
现在GPU算力比您落笔那会都翻了好几番了，TeraChem目前的速度还是能比一众qm engine快个两三倍的。

当 ...

CPU计算能力也番N番了。如果想证明GPU加速在量化上有价值的话，不妨对比同样投资下现阶段版本Terachem和ORCA开RI时的速度。

找了个目前版本terachem结合K80算110原子体系的测试数据，单点+受力耗时79s。我用2*2696v3（这一台机子现在也就2万）用ORCA跑RI-BLYP/6-31G*算同样任务，才花了61s；用Gaussian跑BLYP/6-31G*，101s。terachem本身还得每台机子授权一万RMB左右，再加上功能局限性极大（诸如才区区支持到d角动量、解析Hessian都没有、明尼苏达系列泛函和双杂化一个都不支持），没看出terachem有多大使用价值。

作者
Author: k64_cc 时间: 2019-3-3 10:41
本帖最后由 k64_cc 于 2019-3-3 10:43 编辑

sobereva 发表于 2019-3-3 00:35
CPU计算能力也番N番了。如果想证明GPU加速在量化上有价值的话，不妨对比同样投资下现阶段版本Terachem和O ...

您要是说的是他们官网上的benchmark，那他们还给了1080Ti的数据呢。1080Ti跑Taxol才48s，完胜ORCA，全场最佳，还比K80便宜。现在这年头买Tesla，钱多，采购商限制，脑子有坑，三者必居其一。
(, 下载次数 Times of downloads: 217)

1080/1080Ti现在也才三四千，换个散热就能进服务器，硬件投资至少比一个CPU便宜。港真这里面最大的投资其实是买license，不过我一直觉得这里面其实可以做点手脚，花一份钱就够。或者就用试用版，试用版只能用单核，还限制了显存，但是跑三五十个原子的体系还是够的。
至于功能少，人家软件做出来就是为了跑AIMD的，有BLYP有PBE有wB97x基本上就够用了。单用CPU只能跑纯泛函还得加赝势，用了Terachem就能跑全电子运算，甚至还能用杂化泛函。起码在这个层面，Terachem的实用性是真实存在的。

作者
Author: sobereva 时间: 2019-3-3 15:57

k64_cc 发表于 2019-3-3 10:41 Gaussian 16 能否使用P106显卡的 ...
您要是说的是他们官网上的benchmark，那他们还给了1080Ti的数据呢。1080Ti跑Taxol才48s，完胜ORCA，全场 ...

全新的1080Ti三四千买得来？一块新的1080Ti 7000块钱，其它东西加起来总共一台机子一万多，一个terachem授权费一万块钱，总共两万多，双路2696v3整机也就两万块钱就能搞下来，性价比上terachem有啥优势？（更何况还不可能用盗版，据我所知是和Mac绑定的）如果用那些三四千的二手、拆机、矿卡1080Ti说事，那也应该对比用QS的XEON的机子的性价比。
就三五十个原子体系，ORCA跑得飞快，用terachem试用版也完全毫无意义。
48s就算完胜ORCA 61s了？本来不同程序积分截断阈值、格点积分精度设置、SCF迭代算法就存在差异，区区20%程度的差异完全可以忽略不计。

基于CPU的量化程序跑纯泛函必须得加赝势这是谁的高论？量化程序和基于平面波的第一性原理程序的情况能是一回事么？“单用CPU只能跑纯泛函”这是啥情况？是指Dmol3这种量化界的小儿科程序？
如今大多数主流量化程序全都起码支持BOMD形式的AIMD，ORCA 4.1在AIMD的功能性上面更是有了极大的提升，已经做得相当好，terachem如今在跑AIMD这点上也完全不吃香。我完全意识不到用terachem在任何一个方面有任何好处。

作者
Author: k64_cc 时间: 2019-3-3 22:03
本帖最后由 k64_cc 于 2019-3-3 22:05 编辑

sobereva 发表于 2019-3-3 15:57
全新的1080Ti三四千买得来？一块新的1080Ti 7000块钱，其它东西加起来总共一台机子一万多，一个terachem ...

三四千……还真买得来。我现在机箱里的1080，北美货，ebay车，全新，没税，三千块。当时要不是手头紧，就真买1080Ti了。要非按高校采购价走，那可以买2070嘛，算力上也没差太多，统统秒杀K80，感谢黄老板。盗版的事咱不谈，我也只是觉得有辙，毕竟还没试过。还没毕业，不敢作死。

杂化泛函AIMD没法跑这话没毛病吧。随便一个中等体系，B3LYP跑一步一两分钟，拿10ps轨迹都得下个月见，任务结束的时候都忘了一开始要算啥。不然为啥他们成天BLYP成天PBE，还不是因为再贵就算不起。这种时候20%-30%的加速可以说几近救命。至于“量化程序跑纯泛函必须加赝势”……要不您考虑一下CP2K。它是目前跑纯泛函AIMD最快的解决方案之一，不算TeraChem的话。港真TeraChem不吃香大概只是因为贵。
最后，“量化程序”和“第一性原理程序”好像在大多数情况下都是一回事的，尤其是不谈晶体只谈AIMD的时候——要不您再想想CP2K。

作者
Author: sobereva 时间: 2019-3-3 23:06

k64_cc 发表于 2019-3-3 22:03
三四千……还真买得来。我现在机箱里的1080，北美货，ebay车，全新，没税，三千块。当时要不是手头紧，就 ...

量化程序和第一性原理程序有着截然的不同，前者处理对象是孤立体系，后者是周期性体系，程序设计思想、功能侧重点、适合研究的问题、支持的理论方法、基函数形式等方面都上有极其显著的不同，不具备显著可替代性，明显不是“大多数情况下都是一回事的”。

terachem不支持PBC下的AIMD，属于典型的量化程序范畴，最恰当的直接对比对象显然是流行、免费、快速的量化程序ORCA，跑题去跟侧重PBC体系的CP2K对比属于拿苹果跟梨去对比。去和非同类对象对比来试图体现terachem具有的优点并无意义，没有哪个主流的量化程序做纯泛函计算必须用赝势。论功能性、支持的特征，大多数主流量化程序都显著超过需要为PBC做专门考虑的第一性原理程序。倘若terachem支持PBC下的AIMD，那跟第一性原理程序CP2K去比AIMD倒是有意义。当只谈AIMD不谈PBC，并且注重AIMD的功能性和速度的时候，目前最优先考虑的选择无疑是ORCA。

我在ebay转了一圈，没见着标着brand new还卖三四千的1080Ti（工包、开过盒子缺件之类的不属于考虑范围）。

作者
Author: tjchkj 时间: 2019-3-4 23:02
不过二手的1080和1080ti 成色都还比较好，还真能买到的。可别说用不住，一般只要风扇转动特别好的话，都能用的住。

作者
Author: sobereva 时间: 2019-3-5 01:00

tjchkj 发表于 2019-3-4 23:02
不过二手的1080和1080ti 成色都还比较好，还真能买到的。可别说用不住，一般只要风扇转动特别好的话，都能 ...

主要是来源比较杂，卖二手的卖家给的质保时间也很有限，而且不排除里面混入返修货。如果是一般玩家自己平时私用的，买来一般没啥问题，关键难说在这卡经历了什么。以前我经常买卖二手硬件，花屏的显卡也没少碰到

作者
Author: biogon 时间: 2019-3-5 17:11

sobereva 发表于 2019-3-5 01:00
主要是来源比较杂，卖二手的卖家给的质保时间也很有限，而且不排除里面混入返修货。如果是一般玩家自己平 ...

现在买二手显卡来路不明的都是一律按矿卡对待的，要是稍不注意就会翻车

作者
Author: etoac 时间: 2019-3-5 23:48

量化算法复杂度相当高，而且基本都是基于双精度的，GPU加速起不到显著效果，

关于双精度这一点，插一句，根据https://pubs.acs.org.ccindex.cn/doi/abs/10.1021/ct100533u以及本人一些测试，单精度不失为减小计算量的一个奇招

GPU加速量化计算我觉得现在这个框架下基本没戏

作者
Author: fhh2626 时间: 2019-4-2 14:56

sobereva 发表于 2019-3-3 15:57
全新的1080Ti三四千买得来？一块新的1080Ti 7000块钱，其它东西加起来总共一台机子一万多，一个terachem ...

前一阵子搞了个terachem的测试版，在我们自己的机器上效率也就Orca（开RI）的一半呃。。。

欢迎光临计算化学公社 (http://bbs.keinsci.com/)