计算化学公社

标题: 高斯官方的G16 GPU加速测试 [打印本页]

作者
Author: liyuanhe211 时间: 2017-6-28 12:53
标题: 高斯官方的G16 GPU加速测试
本帖最后由 liyuanhe211 于 2017-6-28 12:54 编辑

高斯官网出现了一个GPU加速的测速结果。原数据链接：http://gaussian.com/g16/gpus.pdf

硬件：
加速基数：2 * E5-2698 v3 （共32核*2.6 GHz）
加速配置：2 * E5-2698 v3 + 4 * Tesla K80 dual GPU ([8*GPU + 8 CPU core for GPU control] + 24 CPU cores)
内存256GB

加速效果：
加速效果如下（加速 1.34 指使用GPU后耗时降低约25%（1-1/1.34））：

(, 下载次数 Times of downloads: 63)

硬件价格：

加速前：2 * E5-2698 v3：两颗共￥33000~38000 的样子 （P.S. E5-2696 v3 两颗约￥10000，共36核*2.3GHz，性能接近、实惠极多）

加速后：没买过高端显卡，淘宝报价Tesla K80 每颗大概在￥27000~32000 之间，四块 Tesla K80 价格约￥10W~13W，加之前的CPU在￥12.5~15W的量级

总结：

从约 ￥3.5W（2*E5-2698 v3）或约￥1W（2*E5-2696 v3）的 CPU；提升至总价约￥12.5~15W 的 CPU+GPU，算 Freq 平均降低了约 40% 的耗时 →_→

作者
Author: sobereva 时间: 2017-6-28 18:05
高湿简直自己打自己脸。比比Amber官网上华丽丽的GPU加速数据，简直了

作者
Author: hakuna 时间: 2017-6-28 18:27

sobereva 发表于 2017-6-28 18:05
高湿简直自己打自己脸。比比Amber官网上华丽丽的GPU加速数据，简直了

搞死嘛，诚实值得肯定

不过拿搞死比琥珀，可比性值得商榷

作者
Author: sobereva 时间: 2017-6-28 18:29

hakuna 发表于 2017-6-28 18:27
搞死嘛，诚实值得肯定
不过拿搞死比琥珀，可比性值得商榷

虽然肯定比不上amber，量化和MD的GPU加速性能没得比，但至少花费的投入比例和GPU加速性能应当有线性关系。像VASP的GPU加速起码还能看到实效。
这么惨的数据令人怀疑高湿的人这些年都干嘛了。
ORCA现在也在搞GPU，估计超过高湿的GPU加速性能是轻而易举的事

作者
Author: hakuna 时间: 2017-6-28 18:41

sobereva 发表于 2017-6-28 18:29
虽然肯定比不上amber，量化和MD的GPU加速性能没得比，但至少花费的投入比例和GPU加速性能应当有线性关 ...

搞死的GPU性价比的确惨了点，VASP稍好点，只能说还能接受

作者
Author: 杨小狗 时间: 2017-6-28 20:37
搞死和高湿都是搞事

作者
Author: liyuanhe211 时间: 2017-6-28 21:44

hakuna 发表于 2017-6-28 18:27
搞死嘛，诚实值得肯定
不过拿搞死比琥珀，可比性值得商榷

起码加速效率要使得买GPU是经济上值得的，现在这样傻子才这么配置。如此，除非有人本来就因为其他应用、有K40或K80（只支持这两种）；而现成有注重双精度浮点的、这么高端显卡的机器很少见。所以G16的GPU加速就几乎没用了→_→

作者
Author: jjjspring 时间: 2017-6-29 02:26
说实在的，高端的显卡不是给个人用户设计。这几年Nvidia，Intel都在鼓励支持科学计算领域GPU或co-processor的应用，大规模的计算中心都上了GPU节点。我使用过的一个计算中心马上要上Nvidia P100节点，这是这些量化程序的用武之地，虽然目前还不成熟，未来是个趋势。

作者
Author: liyuanhe211 时间: 2017-6-29 03:19

jjjspring 发表于 2017-6-29 02:26
说实在的，高端的显卡不是给个人用户设计。这几年Nvidia，Intel都在鼓励支持科学计算领域GPU或co-processo ...

不论从功耗还是硬件成本角度考虑，如果超算收费模式合理，我个人认为在现有加速比的情况下，G16 GPU加速的“鸡肋性”在超算上比在个人机器上还要明显。因为容易的租更多的CPU还解决了峰值性能的问题、削弱了GPU加速优势。

当然未来Gaussian能把GPU加速改进的不鸡肋、亦或是停滞不前乃至死掉都是有可能的，不过现在还看不清楚。

作者
Author: Warm_Cloud 时间: 2017-6-29 09:39
搞事的高湿要搞死自己。

作者
Author: stecue 时间: 2017-6-30 01:12
AMBER不需要双精度，MD的轨迹也只是sampling的方案，出点小偏差没关系。跟量化非要算到高精度没法比吧？

其实我一直没看明白AMBER的单精度/双精度混合计算的算法到底是啥原理，有没有同仁科普一下啊

？

作者
Author: hanshan 时间: 2017-7-1 09:35

sobereva 发表于 2017-6-28 18:05
高湿简直自己打自己脸。比比Amber官网上华丽丽的GPU加速数据，简直了

Gaussian的优化真是烂
都什么年代了跨节点还用linda也是醉了
但是现在大学里用Gaussian的实在太多，不能不买

作者
Author: sobereva 时间: 2017-7-1 10:49

hanshan 发表于 2017-7-1 09:35
Gaussian的优化真是烂
都什么年代了跨节点还用linda也是醉了
但是现在大学里用Gaussian的实在太多，不 ...

关键是高斯是基于OpenMP的，直接用linda跨节点的话不需要改太多代码，如果改写成MPI的会花费巨大精力
linda也没那么不济，论坛里有人在IB下测过高斯linda跨节点效率，还可以接受。

作者
Author: hanshan 时间: 2017-7-1 11:38

sobereva 发表于 2017-7-1 10:49
关键是高斯是基于OpenMP的，直接用linda跨节点的话不需要改太多代码，如果改写成MPI的会花费巨大精力
...

gaussian流行的原因就是历史路径依赖，还有gaussview的一部分功劳吧
就技术而言没什么厉害的

作者
Author: sobereva 时间: 2017-7-2 00:41

hanshan 发表于 2017-7-1 11:38
gaussian流行的原因就是历史路径依赖，还有gaussview的一部分功劳吧
就技术而言没什么厉害的

高斯有自己的独特优势，诸如：
输入文件是所有量化程序里最简单的
所有最常用的功能非常全面，而且大多数都很成熟稳定，这点没有程序敢跟高斯叫板的
抛开RI不谈的话，没几个程序DFT速度能超过Gaussian
支持HF/DFT三阶解析导数，直接能算解析超极化率，能做到这点的程序很少
几何优化、过渡态搜索、溶剂模型高斯公司里专门有领域内的top大牛在搞（schlegel、barone），在所有量化程序里是佼佼者
支持的振动谱有IR、Raman、共振/预共振Raman、VCD、ROA，还能在非谐振级别下做，其它能做到这份上的没有。

高斯能广为流行，不是光靠gview，也不是靠exploring、历史因素，一个程序很烂的话，外因再多也烂泥扶不上墙。很多人低估高斯的地位，往往是对高斯理解得不够充分。当然，我并不否认如今Gaussian的发展势头渐缓，没有ORCA的锋芒。

作者
Author: hanshan 时间: 2017-7-2 11:04
本帖最后由 hanshan 于 2017-7-2 11:34 编辑

sobereva 发表于 2017-7-2 00:41
高斯有自己的独特优势，诸如：
输入文件是所有量化程序里最简单的
所有最常用的功能非常全面，而且大 ...

gaussian在某些方面确实有自己的优势
但是它总想着赚钱，不开放源代码，尤其是对中国大陆，也让人讨厌

作者
Author: sobereva 时间: 2017-7-2 22:37

hanshan 发表于 2017-7-2 11:04
gaussian在某些方面确实有自己的优势
但是它总想着赚钱，不开放源代码，尤其是对中国大陆，也让人讨厌

赚点钱是理所应当的，molpro、molcas、Q-Chem、VASP等也都收钱，毕竟没钱就没法发展，不是所有开发者们都能从政府那里拿到足够的资金。也需要从开发者角度考虑。
关键看价格是否黑心。其实高斯的学术版价格还不黑，Q-Chem也并不比高斯便宜，molpro、VASP更是比高斯贵得多。而ADF那才叫真正黑心。

作者
Author: hanshan 时间: 2017-7-3 09:23
本帖最后由 hanshan 于 2017-7-3 09:44 编辑

sobereva 发表于 2017-7-2 22:37
赚点钱是理所应当的，molpro、molcas、Q-Chem、VASP等也都收钱，毕竟没钱就没法发展，不是所有开发者们 ...

vasp直接给源代码，价格差不多，算是可以了吧
adf和ms最黑了

作者
Author: yjcmwgk 时间: 2017-7-24 08:04

hanshan 发表于 2017-7-3 09:23
vasp直接给源代码，价格差不多，算是可以了吧
adf和ms最黑了

ADF还可以接受啦，MS是真黑

作者
Author: syjohn 时间: 2017-7-27 00:40

yjcmwgk 发表于 2017-7-24 08:04
ADF还可以接受啦，MS是真黑

MS DS是相当的黑，ADF也不是好玩意

作者
Author: kyuu 时间: 2017-8-23 01:01

sobereva 发表于 2017-7-1 10:49
关键是高斯是基于OpenMP的，直接用linda跨节点的话不需要改太多代码，如果改写成MPI的会花费巨大精力
...

是不是论坛里的搜索功能有bug啊，像你提的这个测跨节点效率的帖子，我怎么都搜不出来呢？我这网1.15微秒延迟，还过得去，提个测效率的方案，我给你们测一遍，我挺关心这个的
顺便见缝插针，这样楼不歪，
用linda的时候，必须用固定节点名称指定linda worker是吗，不能让服务器分配节点对吗？我有试过不指定节点让系统分配资源，没报错，只要wall time不超就不报错，只是我不清楚会不会每个linda worker把任务单独重复算了一遍.....

作者
Author: sobereva 时间: 2017-8-23 01:04

kyuu 发表于 2017-8-23 01:01
是不是论坛里的搜索功能有bug啊，像你提的这个测跨节点效率的帖子，我怎么都搜不出来呢？我这网1.15微秒 ...

没有bug
首页第一个搜索栏只能搜标题，下头的google搜索才能搜全文
(, 下载次数 Times of downloads: 59)

作者
Author: kyuu 时间: 2017-8-23 01:12

sobereva 发表于 2017-8-23 01:04
没有bug
首页第一个搜索栏只能搜标题，下头的google搜索才能搜全文

为啥我用下边google搜索，出来的都是各种随机广告页面，没有搜索结果

作者
Author: sobereva 时间: 2017-8-23 05:59

kyuu 发表于 2017-8-23 01:12
为啥我用下边google搜索，出来的都是各种随机广告页面，没有搜索结果

按步骤依次操作
(, 下载次数 Times of downloads: 50)
(, 下载次数 Times of downloads: 51)
(, 下载次数 Times of downloads: 39)

作者
Author: kyuu 时间: 2017-8-23 14:17
好吧，这个功能我可以弃了，我觉得可能得用VPN要翻墙到中国才能用站内搜索，我直接谷歌吧

欢迎光临计算化学公社 (http://bbs.keinsci.com/)