计算化学公社

标题: cp2k 双机并行效率很低,请各位大神进行原因分析 [打印本页]

作者
Author:
kadbuhao    时间: 2023-3-9 00:05
标题: cp2k 双机并行效率很低,请各位大神进行原因分析
先简单介绍一下自己的设备情况,通过IB网卡(40Gb)把自己的两台服务局进行了直连(一台是双路8272,另一台是双路8271),运行环境是ubuntu22.10,cp2k版本8.2,gcc-9.4,intelmpi2020,两台进行了无密码ssh访问设置。无论是在共享路径通过slurm调度,还是intelmpi直接通过mpirun -host直接调用两台,双节点的计算速度都是慢于单机并行的速度,双节点满载计算速度一个电子步是2.5s,单机满载运行速度是1.8s,IB线以太和IB模式都试过了,双节点的计算时负收益啊。猜测是不是因为网速影响了计算结果的交互,自测了IB网线的实际速度是3.2GB/S,而程序单机运行的占用的内存是10GB,有没有可能网线限制了cp2k的并行。
自己使用过北京超算云平台的96核节点,同样的输入文件,单节点一个电子步是1.5s,双节点是1.0s,双机并行是可以加快运算的。




作者
Author:
abin    时间: 2023-3-9 08:18
自己动手的话, 那你问问北京超算云平台怎么配置的, 就可以解决问题, 如果他们愿意公开分享实现方案的话.

或者, 捣鼓编译, 让你使用的MPI正确使用IB网络.

说起来简单, 做起来, 以及实际debug起来, 需要时间折腾.
作者
Author:
gog    时间: 2023-3-9 09:20
要是内存够用,就只用单机跑。
网络数据交换速度再快,也快不过CPU和内存直接相连的数据交换速度
作者
Author:
abin    时间: 2023-3-9 11:55
楼上说的对。

时间尺度,大概是 纳秒,微秒,毫秒。

处理器和自己的内存交换数据,纳秒级
IB设备交换数据,微秒级
以太网设备交换数据,毫秒,或者十分之一毫秒

秒天秒地的5G,依旧是无线以太网范畴的……

合理规划自己的并行规模。
作者
Author:
sobereva    时间: 2023-3-9 16:26
SCF一步花不了什么时间的任务甭跨节点
诸如NEB、振动分析那种牵扯一堆副本且数据交换量极小的任务用跨节点的收益才极其显著




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3