计算化学公社

标题: ORCA运行的奇怪问题 [打印本页]

作者
Author:
ikea1984    时间: 2022-1-28 09:58
标题: ORCA运行的奇怪问题
本帖最后由 ikea1984 于 2022-1-29 11:03 编辑

补充1:如果在后台直接提交,成功率就很高。

我们有两个几乎一样的集群,在集群A上ORCA一直运行良好,但是集群B基本都不正常,交并行作业就死在“ORCA finished by error termination in GTOInt Calling Command: mpirun -np 24  /dir1/orca_5_0_2_linux_x86-64_shared_openmpi411/orca_gtoint_mpi opt.int.tmp opt ” ,同时有MPI的错误提示“ORTE was unable to reliably start one or more daemons.This usually is caused by:

* not finding the required libraries and/or binaries on
  one or more nodes. Please check your PATH and LD_LIBRARY_PATH
  settings, or configure OMPI with --enable-orterun-prefix-by-default

* lack of authority to execute on one or more specified nodes.
  Please verify your allocation and authorities.

* the inability to write startup files into /tmp (--tmpdir/orte_tmpdir_base).
  Please check with your sys admin to determine the correct location to use.

*  compilation of the orted with dynamic libraries when static are required
  (e.g., on Cray). Please check your configure cmd line and consider using
  one of the contrib/platform definitions for your system type.

* an inability to create a connection back to mpirun due to a
  lack of common network interfaces and/or no route found between
  them. Please check network connectivity (including firewalls
  and network routing requirements).
--------------------------------------------------------------------------
[file orca_tools/qcmsg.cpp, line 465]:
  .... aborting the run

这个问题困惑了我好几年了,一直查不出来原因,表现也很奇怪:
(1)两个配置一样的集群,一个能用一个不能用;
(2)同样的作业,同样的节点(指定),如果运行多次,也有可能偶尔有一次越过GTOInt的地方继续往自洽去算,就是也不是次次失败。


尝试过很多OpenMPI的编译选项,都没有效果。现在怀疑可能是硬件损坏,但是我只在一个节点内计算,这可能和什么有关呢?并且这些节点算其他作业都没问题,比如VASP算的好好的。。。

实在是想不出来,发到版上看看各位大哥有没有啥建议?

作者
Author:
abin    时间: 2022-1-28 10:18
集群调度默认的MPI或许不同。

你可以试试我提供的方案。
搜索 下载即用的ORCA。
或者翻一下,我发的帖文。

作者
Author:
Accelerator    时间: 2022-1-28 11:38
本帖最后由 Accelerator 于 2022-1-28 11:39 编辑

如果仅仅是ORCA finished by error termination in GTOInt,那么多半是由于临时文件存放在了NFS路径上,硬盘读写一旦跟不上,程序就会在这里退出。
只要在提交脚本里将输入文件复制到本机路径中,再在当前路径中运行orca,就可以解决。ORCA手册中有相应的提交脚本例子。
后面有许多mpi相关报错的没有见到过,或许可以首先尝试上方策略。

作者
Author:
ikea1984    时间: 2022-1-28 13:12
Accelerator 发表于 2022-1-28 11:38
如果仅仅是ORCA finished by error termination in GTOInt,那么多半是由于临时文件存放在了NF ...

拷贝到本地硬盘运行的方法我也试过了,也不成。。

作者
Author:
wzkchem5    时间: 2022-1-28 15:43
可以看一下以下两个帖子是否解决你的问题
https://orcaforum.kofo.mpg.de/vi ... liably+start#p20158
https://orcaforum.kofo.mpg.de/vi ... liably+start#p22835




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3