计算化学公社

标题: 求助,ORCA4.1.1在集群上运行出错 [打印本页]

作者
Author:
fallleave    时间: 2019-6-17 14:46
标题: 求助,ORCA4.1.1在集群上运行出错
按社长的方案安装ORCA4.1.1和openmpi3.1.3后,本机执行正常,但提交到集群计算节点时提示:
[file orca_tools/Tool-Parallel/pal1.cpp, line 749, Process 8]: Error in PAL_DiskDiscovery

[file orca_tools/Tool-Parallel/pal1.cpp, line 749, Process 9]: Error in PAL_DiskDiscovery

--------------------------------------------------------------------------
Primary job  terminated normally, but 1 process returned
a non-zero exit code. Per user-direction, the job has been aborted.
--------------------------------------------------------------------------
--------------------------------------------------------------------------
mpirun detected that one or more processes exited with non-zero status, thus causing
the job to be terminated. The first process to do so was:

  Process name: [[29346,1],12]
  Exit code:    55
--------------------------------------------------------------------------

ORCA finished by error termination in GTOInt
Calling Command: mpirun -np 16  /home/zhou/soft/orca_4.1.0/orca_gtoint_mpi mol.int.tmp mol
[file orca_tools/qcmsg.cpp, line 453]:
  .... aborting the run

[file orca_tools/qcmsg.cpp, line 453]:
  .... aborting the run

改回ORCA4.0.1和openmpi2.0.2后,本机和节点均正常运行。请问有谁遇到过这种情况吗?


作者
Author:
liyuanhe211    时间: 2019-6-17 15:00
提交队列的脚本里让它输出一下各种环境变量看看,看看是不是队列环境变量和终端运行的环境变量不一样。
作者
Author:
fallleave    时间: 2019-6-17 15:09
liyuanhe211 发表于 2019-6-17 15:00
提交队列的脚本里让它输出一下各种环境变量看看,看看是不是队列环境变量和终端运行的环境变量不一样。

谢谢李老师的建议,回头看看。奇怪的是,只改成了了orca4.0.1和openmpi2.0的运行目录,其他都不变,程序就正常结束了。
作者
Author:
fallleave    时间: 2019-6-17 15:17
liyuanhe211 发表于 2019-6-17 15:00
提交队列的脚本里让它输出一下各种环境变量看看,看看是不是队列环境变量和终端运行的环境变量不一样。

管理节点cpu核数与计算节点不同,而openmpi在管理节点下编译,在计算节点下用,不知道会不会是这个原因,回头再试试计算节点下重新编译openmpi。
作者
Author:
fallleave    时间: 2019-6-17 20:48
liyuanhe211 发表于 2019-6-17 15:00
提交队列的脚本里让它输出一下各种环境变量看看,看看是不是队列环境变量和终端运行的环境变量不一样。

1. 将队列环境变量调整得和主节点上一样,还是报相同的错误。看来不是环境变量的问题。
2. 用计算节点编译的openmpi同样报错
3. 使用openmpi2.0.2和ORCA4.0.1就完全正常。下面准备找个ORCA4.1.2试试




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3