计算化学公社

 找回密码 Forget password
 注册 Register
Views: 4480|回复 Reply: 4
打印 Print 上一主题 Last thread 下一主题 Next thread

[并行运算] 求助: 双ubuntu20.04 并行跑VASP6.2

[复制链接 Copy URL]

2

帖子

0

威望

11

eV
积分
13

Level 1 能力者

老师利用有限的资金购置了2台16核心32线程志强CPU的DELL 服务器, 找人帮忙安装了ubuntu 20.04 server 及ifort   intel全家桶  fftw vasp6.2, 未安装openmpi,因为intel 自带mpi 。  现在单机执行VASP 没有问题。 双机并行时,运行一会,两台服务器上的进程就全部中断退出,并有报错信息。因为资金不足, 两服务器通过H3C千兆交换机互联。
执行脚本 :
ulimit -s unlimited
mpirun -np 32 --machine node  vasp_std > log &
我已经反复核对过 mpirun 和vasp_std的文件路径及其它环境变量, 都没发现问题。
按照网上的要求,NFS   SSH互信   /etc/hosts   IP 配置   也都核对了,没发现异常。

报错信息如下:
MPIDI_OFI_inject_handler_vci(675).......: OFI tagged inject failed (ofi_impl.h:675:MPIDI_OFI_inject_handler_vci:Connection timed out)
Abort(206118415) on node 0 (rank 0 in comm 0): Fatal error in PMPI_Barrier: Other MPI error, error stack:
PMPI_Barrier(282).......................: MPI_Barrier(comm=MPI_COMM_WORLD) failed
PMPI_Barrier(268).......................:
MPIDI_Barrier_intra_composition_beta(94):
MPIDI_NM_mpi_barrier(61)................:
MPIR_Barrier_intra_auto(119)............:
MPIR_Barrier_intra_dissemination(55)....:
MPIC_Sendrecv(329)......................:
MPID_Isend(826).........................:
MPIDI_isend_unsafe(330).................:
MPIDI_OFI_inject_handler_vci(675).......: OFI tagged inject failed (ofi_impl.h:675:MPIDI_OFI_inject_handler_vci:Connection timed out)


怀疑节点文件和VASP执行脚本是基于openmpi ,并非针对intel MPI.   希望各位大神指点能够正确并行的解决办法及思路。 非常感谢
节点文件内容:
node1   slots=16
node2   slots=16


2

帖子

0

威望

11

eV
积分
13

Level 1 能力者

2#
 楼主 Author| 发表于 Post on 2021-7-9 09:10:08 | 只看该作者 Only view this author
SRRRY  , 写错了
mpirun -np 32 --machinefile node  vasp_std > log &

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

3#
发表于 Post on 2021-7-9 09:11:18 | 只看该作者 Only view this author
我能解决问题。
如有需要,联系我。

调试比较费事,不是一两句就可以说明白的。

如果非要一句话说明白,那就是镜像一致。
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

1236

帖子

1

威望

3495

eV
积分
4751

Level 6 (一方通行)

4#
发表于 Post on 2021-7-9 10:32:29 | 只看该作者 Only view this author
千兆网络没有任何必要用节点间互联

5万

帖子

99

威望

5万

eV
积分
112353

管理员

公社社长

5#
发表于 Post on 2021-7-10 08:53:09 | 只看该作者 Only view this author
arlter 发表于 2021-7-9 09:10
SRRRY  , 写错了
mpirun -np 32 --machinefile node  vasp_std > log &

有别人回复之前若需要对帖子进行修改、补充,应直接编辑原帖,不要通过回帖进行补充,这点在置顶的新社员必读贴里明确说了

千兆网跨节点并行还不如不跨节点,没意义
北京科音自然科学研究中心http://www.keinsci.com)致力于计算化学的发展和传播,长期开办高质量的各种计算化学类培训:初级量子化学培训班中级量子化学培训班高级量子化学培训班量子化学波函数分析与Multiwfn程序培训班分子动力学与GROMACS培训班CP2K第一性原理计算培训班,内容介绍以及往届资料购买请点击相应链接查看。这些培训是计算化学从零快速入门以及进一步全面系统性提升研究水平的高速路!培训各种常见问题见《北京科音办的培训班FAQ》
欢迎加入“北京科音”微信公众号获取北京科音培训的最新消息、避免错过网上有价值的计算化学文章!
欢迎加入人气非常高、专业性特别强的综合性理论与计算化学交流QQ群“思想家公社QQ群”:1号:18616395,2号:466017436,3号:764390338,搜索群号能搜到哪个说明目前哪个能加,合计9000人。北京科音培训班的学员在群中可申请VIP头衔,提问将得到群主Sobereva的最优先解答。
思想家公社的门口Blog:http://sobereva.com(发布大量原创计算化学相关博文)
Multiwfn主页:http://sobereva.com/multiwfn(十分强大的量子化学波函数分析程序)
ResearchGate:https://www.researchgate.net/profile/Tian_Lu
Money and papers are rubbish, get a real life!

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 12:18 , Processed in 0.205859 second(s), 27 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list