计算化学公社

 找回密码 Forget password
 注册 Register
Views: 4675|回复 Reply: 4
打印 Print 上一主题 Last thread 下一主题 Next thread

[硬件评测] NAMD奇怪的硬件需求

[复制链接 Copy URL]

3

帖子

0

威望

31

eV
积分
34

Level 2 能力者

跳转到指定楼层 Go to specific reply
楼主
我为老板陆陆续续配置也有七八十台服务器了,各类的硬件都尝试过,而NAMD对GPU的需求很奇怪,比如在GPU节点中amber采用单线程可以控制整个GPU的方法,GROMCAS采用所有CPU线程控制GPU,而NAMD我却测试出20个线程的时候效率是最高的,我们的GPU服务器大部分采用E5 2683 v3的CPU,C612的主板,而且双路与单路CPU也有区别,即使采用单路CPU就能满足20线程的需求但是依然会影响相当大的效率,并且两块K80不如一块1080TI性能强,一个服务器插4块1080TI不如一块1080TI的快,难道是因为CPU与GPU通信的带宽已经被GPU占完了,双路的因为通信带宽宽了一倍所以有性能提升,而插多块GPU反而会效率低吗。还有就是我用三台P100的服务器并行和三台1080ti相比,速度快是正常的,但是1080ti的并行却相当容易中断,而且会出现轨迹在很早以前开始输出为空坐标了,但是作业依旧在继续运行,导致我甚至重启都办不到。

1096

帖子

6

威望

6271

eV
积分
7487

Level 6 (一方通行)

2#
发表于 Post on 2018-12-13 11:26:46 | 只看该作者 Only view this author
Amber目前所有部分都在GPU上算,效率比较高,但是功能很有限,做做平衡模拟还行
NAMD如果你用的是2.13版的话,目前还剩运动积分需要在CPU上面计算,所以模拟的时候要考虑CPU和GPU的均衡负载,你输入nvidia-smi就可以看到,多数情况下GPU并不是完全负载的,这个时候用多块GPU并行并不能提高效率,反而增加交换数据的开销
GMX不太清楚,不过既然还有部分在CPU上计算,想必也不会快到哪去

如果你追求极限效率,还要追求功能强大的话,那只有OpenMM这个唯一选择,前提是你能用python实现你想要的算法

3

帖子

0

威望

31

eV
积分
34

Level 2 能力者

3#
 楼主 Author| 发表于 Post on 2018-12-13 14:24:36 | 只看该作者 Only view this author
fhh2626 发表于 2018-12-13 11:26
Amber目前所有部分都在GPU上算,效率比较高,但是功能很有限,做做平衡模拟还行
NAMD如果你用的是2.13版的 ...

其实我当时考虑过这个问题,我们组有做算法的,倒是TINKER是用的openmm,但是最近要毕业了也不搞了。我试过2.13的版本大致了解,但是要390以上的驱动,只有部分节点升级了,还没有尝试并行,倒是如果我交两个GPU作业虽然一样会打架但是单个作业效率降低30%左右,两个作业总共反而提升了20%效率,这在之前的版本是不可能实现的。现在硬件提升太快,杂志评审要求时间越来越长,除了好的idea没有计算量的支撑很难发好的文章,所以我们组最近才开始部署IB网络,希望能够达到学院高性能集群的并行效率,但是很可惜1080TI的跨节点并行效率低下,远不如P100的并行效率,最重要的是无故出错,难以查找原因,不知道是我们的网络硬件问题还是网络设置问题,现在IB网络也感觉成了鸡肋

1096

帖子

6

威望

6271

eV
积分
7487

Level 6 (一方通行)

4#
发表于 Post on 2018-12-13 16:27:08 | 只看该作者 Only view this author
wowuyul 发表于 2018-12-13 14:24
其实我当时考虑过这个问题,我们组有做算法的,倒是TINKER是用的openmm,但是最近要毕业了也不搞了。我试 ...

目前IB基本没用呃,目前大部分开发还是针对单节点来的,就我知道的,至少NAMD没有对IB有什么特别优化,虽然IB传输速率可以达到56G,但是相对来说还是慢。

目前Amber/OpenMM可以达到1us/day (30k+atoms, 1*GTX2080TI, HMR, 4fs timestep),NAMD对于相同的体系的速度大概在500-600ns/day,对于大部分情况下都够用了,如果不够用也可以在单节点插多块GPU

3

帖子

0

威望

31

eV
积分
34

Level 2 能力者

5#
 楼主 Author| 发表于 Post on 2018-12-13 17:55:03 | 只看该作者 Only view this author
fhh2626 发表于 2018-12-13 16:27
目前IB基本没用呃,目前大部分开发还是针对单节点来的,就我知道的,至少NAMD没有对IB有什么特别优化,虽 ...

Amber我最近也看了最新的18版本支持了FEP,TI等自由能增强采样的GPU支持,但是我们组手头上只有16的版本,2080ti最近还没有采购计划。但是总体来说如果单节点采用多张卡的情况会出现效率低下的情况,比如我插2张1080ti,计算效率甚至不如一张的效率,我监测过PCI的通信在600MB/sec,远没有达到通信的带宽,但是amber官网曾经提到过PCI依然是限制GPU性能的原因,这是我不理解的,而且AMBER可以一个机器插8张而不会出现像我的计算效率不如一张卡的现象,这很头疼,就是这个原因我们所有GPU节点都只配了一张1080ti,但是K80却可以配两张一个节点,效率也能达到1.6x加速。由于上边的原因,所以采用NAMD做过节点并行GPU,学院的集群并行非常强,也很稳定,但是一张P100的钱接近8W,还是有点贵的。amber单节点强,但是MPI非常弱,所以我一直使用NAMD做多节点并行。还是就是提到的IB网络,我很久之前在天河2部署的NAMD做千核并行,效率还算说得过去,但是通信实际上每多一个节点多加600MB的通信,但是我的GPU,IB网络监控显示单节点的RX和TX也是600MB这依然不是IB网络的极限,所以我现在尽量的采用单节点运算,但是单节点的性能毕竟有限。

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-27 09:04 , Processed in 0.170415 second(s), 27 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list