NAMD奇怪的硬件需求

wowuyul · 发表于 Post on 2018-12-13 09:33:50

我为老板陆陆续续配置也有七八十台服务器了，各类的硬件都尝试过，而NAMD对GPU的需求很奇怪，比如在GPU节点中amber采用单线程可以控制整个GPU的方法，GROMCAS采用所有CPU线程控制GPU，而NAMD我却测试出20个线程的时候效率是最高的，我们的GPU服务器大部分采用E5 2683 v3的CPU，C612的主板，而且双路与单路CPU也有区别，即使采用单路CPU就能满足20线程的需求但是依然会影响相当大的效率，并且两块K80不如一块1080TI性能强，一个服务器插4块1080TI不如一块1080TI的快，难道是因为CPU与GPU通信的带宽已经被GPU占完了，双路的因为通信带宽宽了一倍所以有性能提升，而插多块GPU反而会效率低吗。还有就是我用三台P100的服务器并行和三台1080ti相比，速度快是正常的，但是1080ti的并行却相当容易中断，而且会出现轨迹在很早以前开始输出为空坐标了，但是作业依旧在继续运行，导致我甚至重启都办不到。

fhh2626 · 发表于 Post on 2018-12-13 11:26:46

Amber目前所有部分都在GPU上算，效率比较高，但是功能很有限，做做平衡模拟还行
NAMD如果你用的是2.13版的话，目前还剩运动积分需要在CPU上面计算，所以模拟的时候要考虑CPU和GPU的均衡负载，你输入nvidia-smi就可以看到，多数情况下GPU并不是完全负载的，这个时候用多块GPU并行并不能提高效率，反而增加交换数据的开销
GMX不太清楚，不过既然还有部分在CPU上计算，想必也不会快到哪去

如果你追求极限效率，还要追求功能强大的话，那只有OpenMM这个唯一选择，前提是你能用python实现你想要的算法

wowuyul · 发表于 Post on 2018-12-13 14:24:36

fhh2626 发表于 2018-12-13 11:26
Amber目前所有部分都在GPU上算，效率比较高，但是功能很有限，做做平衡模拟还行
NAMD如果你用的是2.13版的 ...

其实我当时考虑过这个问题，我们组有做算法的，倒是TINKER是用的openmm，但是最近要毕业了也不搞了。我试过2.13的版本大致了解，但是要390以上的驱动，只有部分节点升级了，还没有尝试并行，倒是如果我交两个GPU作业虽然一样会打架但是单个作业效率降低30%左右，两个作业总共反而提升了20%效率，这在之前的版本是不可能实现的。现在硬件提升太快，杂志评审要求时间越来越长，除了好的idea没有计算量的支撑很难发好的文章，所以我们组最近才开始部署IB网络，希望能够达到学院高性能集群的并行效率，但是很可惜1080TI的跨节点并行效率低下，远不如P100的并行效率，最重要的是无故出错，难以查找原因，不知道是我们的网络硬件问题还是网络设置问题，现在IB网络也感觉成了鸡肋

fhh2626 · 发表于 Post on 2018-12-13 16:27:08

wowuyul 发表于 2018-12-13 14:24
其实我当时考虑过这个问题，我们组有做算法的，倒是TINKER是用的openmm，但是最近要毕业了也不搞了。我试 ...

目前IB基本没用呃，目前大部分开发还是针对单节点来的，就我知道的，至少NAMD没有对IB有什么特别优化，虽然IB传输速率可以达到56G，但是相对来说还是慢。

目前Amber/OpenMM可以达到1us/day (30k+atoms, 1*GTX2080TI, HMR, 4fs timestep)，NAMD对于相同的体系的速度大概在500-600ns/day，对于大部分情况下都够用了，如果不够用也可以在单节点插多块GPU

wowuyul · 发表于 Post on 2018-12-13 17:55:03

fhh2626 发表于 2018-12-13 16:27
目前IB基本没用呃，目前大部分开发还是针对单节点来的，就我知道的，至少NAMD没有对IB有什么特别优化，虽 ...

Amber我最近也看了最新的18版本支持了FEP，TI等自由能增强采样的GPU支持，但是我们组手头上只有16的版本，2080ti最近还没有采购计划。但是总体来说如果单节点采用多张卡的情况会出现效率低下的情况，比如我插2张1080ti，计算效率甚至不如一张的效率，我监测过PCI的通信在600MB/sec，远没有达到通信的带宽，但是amber官网曾经提到过PCI依然是限制GPU性能的原因，这是我不理解的，而且AMBER可以一个机器插8张而不会出现像我的计算效率不如一张卡的现象，这很头疼，就是这个原因我们所有GPU节点都只配了一张1080ti，但是K80却可以配两张一个节点，效率也能达到1.6x加速。由于上边的原因，所以采用NAMD做过节点并行GPU，学院的集群并行非常强，也很稳定，但是一张P100的钱接近8W，还是有点贵的。amber单节点强，但是MPI非常弱，所以我一直使用NAMD做多节点并行。还是就是提到的IB网络，我很久之前在天河2部署的NAMD做千核并行，效率还算说得过去，但是通信实际上每多一个节点多加600MB的通信，但是我的GPU，IB网络监控显示单节点的RX和TX也是600MB这依然不是IB网络的极限，所以我现在尽量的采用单节点运算，但是单节点的性能毕竟有限。

		自动登录 Automatic login	找回密码 Forget password
密码 Password			注册 Register

[硬件评测] NAMD奇怪的硬件需求

浏览过的版块