计算化学公社
标题:
求助: 双ubuntu20.04 并行跑VASP6.2
[打印本页]
作者Author:
arlter
时间:
2021-7-9 09:06
标题:
求助: 双ubuntu20.04 并行跑VASP6.2
老师利用有限的资金购置了2台16核心32线程志强CPU的DELL 服务器, 找人帮忙安装了ubuntu 20.04 server 及ifort intel全家桶 fftw vasp6.2, 未安装openmpi,因为intel 自带mpi 。 现在单机执行VASP 没有问题。 双机并行时,运行一会,两台服务器上的进程就全部中断退出,并有报错信息。因为资金不足, 两服务器通过H3C千兆交换机互联。
执行脚本 :
ulimit -s unlimited
mpirun -np 32 --machine node vasp_std > log &
我已经反复核对过 mpirun 和vasp_std的文件路径及其它环境变量, 都没发现问题。
按照网上的要求,NFS SSH互信 /etc/hosts IP 配置 也都核对了,没发现异常。
报错信息如下:
MPIDI_OFI_inject_handler_vci(675).......: OFI tagged inject failed (ofi_impl.h:675:MPIDI_OFI_inject_handler_vci:Connection timed out)
Abort(206118415) on node 0 (rank 0 in comm 0): Fatal error in PMPI_Barrier: Other MPI error, error stack:
PMPI_Barrier(282).......................: MPI_Barrier(comm=MPI_COMM_WORLD) failed
PMPI_Barrier(268).......................:
MPIDI_Barrier_intra_composition_beta(94):
MPIDI_NM_mpi_barrier(61)................:
MPIR_Barrier_intra_auto(119)............:
MPIR_Barrier_intra_dissemination(55)....:
MPIC_Sendrecv(329)......................:
MPID_Isend(826).........................:
MPIDI_isend_unsafe(330).................:
MPIDI_OFI_inject_handler_vci(675).......: OFI tagged inject failed (ofi_impl.h:675:MPIDI_OFI_inject_handler_vci:Connection timed out)
怀疑节点文件和VASP执行脚本是基于openmpi ,并非针对intel MPI. 希望各位大神指点能够正确并行的解决办法及思路。 非常感谢
节点文件内容:
node1 slots=16
node2 slots=16
作者Author:
arlter
时间:
2021-7-9 09:10
SRRRY , 写错了
mpirun -np 32 --machinefile node vasp_std > log &
作者Author:
abin
时间:
2021-7-9 09:11
我能解决问题。
如有需要,联系我。
调试比较费事,不是一两句就可以说明白的。
如果非要一句话说明白,那就是镜像一致。
作者Author:
biogon
时间:
2021-7-9 10:32
千兆网络没有任何必要用节点间互联
作者Author:
sobereva
时间:
2021-7-10 08:53
arlter 发表于 2021-7-9 09:10
SRRRY , 写错了
mpirun -np 32 --machinefile node vasp_std > log &
有别人回复之前若需要对帖子进行修改、补充,应直接编辑原帖,不要通过回帖进行补充,这点在置顶的新社员必读贴里明确说了
千兆网跨节点并行还不如不跨节点,没意义
欢迎光临 计算化学公社 (http://bbs.keinsci.com/)
Powered by Discuz! X3.3