计算化学公社

标题: 求助: 双ubuntu20.04 并行跑VASP6.2 [打印本页]

作者
Author:
arlter    时间: 2021-7-9 09:06
标题: 求助: 双ubuntu20.04 并行跑VASP6.2
老师利用有限的资金购置了2台16核心32线程志强CPU的DELL 服务器, 找人帮忙安装了ubuntu 20.04 server 及ifort   intel全家桶  fftw vasp6.2, 未安装openmpi,因为intel 自带mpi 。  现在单机执行VASP 没有问题。 双机并行时,运行一会,两台服务器上的进程就全部中断退出,并有报错信息。因为资金不足, 两服务器通过H3C千兆交换机互联。
执行脚本 :
ulimit -s unlimited
mpirun -np 32 --machine node  vasp_std > log &
我已经反复核对过 mpirun 和vasp_std的文件路径及其它环境变量, 都没发现问题。
按照网上的要求,NFS   SSH互信   /etc/hosts   IP 配置   也都核对了,没发现异常。

报错信息如下:
MPIDI_OFI_inject_handler_vci(675).......: OFI tagged inject failed (ofi_impl.h:675:MPIDI_OFI_inject_handler_vci:Connection timed out)
Abort(206118415) on node 0 (rank 0 in comm 0): Fatal error in PMPI_Barrier: Other MPI error, error stack:
PMPI_Barrier(282).......................: MPI_Barrier(comm=MPI_COMM_WORLD) failed
PMPI_Barrier(268).......................:
MPIDI_Barrier_intra_composition_beta(94):
MPIDI_NM_mpi_barrier(61)................:
MPIR_Barrier_intra_auto(119)............:
MPIR_Barrier_intra_dissemination(55)....:
MPIC_Sendrecv(329)......................:
MPID_Isend(826).........................:
MPIDI_isend_unsafe(330).................:
MPIDI_OFI_inject_handler_vci(675).......: OFI tagged inject failed (ofi_impl.h:675:MPIDI_OFI_inject_handler_vci:Connection timed out)


怀疑节点文件和VASP执行脚本是基于openmpi ,并非针对intel MPI.   希望各位大神指点能够正确并行的解决办法及思路。 非常感谢
节点文件内容:
node1   slots=16
node2   slots=16



作者
Author:
arlter    时间: 2021-7-9 09:10
SRRRY  , 写错了
mpirun -np 32 --machinefile node  vasp_std > log &
作者
Author:
abin    时间: 2021-7-9 09:11
我能解决问题。
如有需要,联系我。

调试比较费事,不是一两句就可以说明白的。

如果非要一句话说明白,那就是镜像一致。
作者
Author:
biogon    时间: 2021-7-9 10:32
千兆网络没有任何必要用节点间互联
作者
Author:
sobereva    时间: 2021-7-10 08:53
arlter 发表于 2021-7-9 09:10
SRRRY  , 写错了
mpirun -np 32 --machinefile node  vasp_std > log &

有别人回复之前若需要对帖子进行修改、补充,应直接编辑原帖,不要通过回帖进行补充,这点在置顶的新社员必读贴里明确说了

千兆网跨节点并行还不如不跨节点,没意义





欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3