计算化学公社

 找回密码 Forget password
 注册 Register
Views: 4729|回复 Reply: 4
打印 Print 上一主题 Last thread 下一主题 Next thread

[ORCA] ORCA运行的奇怪问题

[复制链接 Copy URL]

102

帖子

0

威望

2676

eV
积分
2778

Level 5 (御坂)

跳转到指定楼层 Go to specific reply
楼主
本帖最后由 ikea1984 于 2022-1-29 11:03 编辑

补充1:如果在后台直接提交,成功率就很高。

我们有两个几乎一样的集群,在集群A上ORCA一直运行良好,但是集群B基本都不正常,交并行作业就死在“ORCA finished by error termination in GTOInt Calling Command: mpirun -np 24  /dir1/orca_5_0_2_linux_x86-64_shared_openmpi411/orca_gtoint_mpi opt.int.tmp opt ” ,同时有MPI的错误提示“ORTE was unable to reliably start one or more daemons.This usually is caused by:

* not finding the required libraries and/or binaries on
  one or more nodes. Please check your PATH and LD_LIBRARY_PATH
  settings, or configure OMPI with --enable-orterun-prefix-by-default

* lack of authority to execute on one or more specified nodes.
  Please verify your allocation and authorities.

* the inability to write startup files into /tmp (--tmpdir/orte_tmpdir_base).
  Please check with your sys admin to determine the correct location to use.

*  compilation of the orted with dynamic libraries when static are required
  (e.g., on Cray). Please check your configure cmd line and consider using
  one of the contrib/platform definitions for your system type.

* an inability to create a connection back to mpirun due to a
  lack of common network interfaces and/or no route found between
  them. Please check network connectivity (including firewalls
  and network routing requirements).
--------------------------------------------------------------------------
[file orca_tools/qcmsg.cpp, line 465]:
  .... aborting the run

这个问题困惑了我好几年了,一直查不出来原因,表现也很奇怪:
(1)两个配置一样的集群,一个能用一个不能用;
(2)同样的作业,同样的节点(指定),如果运行多次,也有可能偶尔有一次越过GTOInt的地方继续往自洽去算,就是也不是次次失败。


尝试过很多OpenMPI的编译选项,都没有效果。现在怀疑可能是硬件损坏,但是我只在一个节点内计算,这可能和什么有关呢?并且这些节点算其他作业都没问题,比如VASP算的好好的。。。

实在是想不出来,发到版上看看各位大哥有没有啥建议?

1万

帖子

0

威望

9900

eV
积分
22154

Level 6 (一方通行)

5#
发表于 Post on 2022-1-28 15:43:13 | 只看该作者 Only view this author
Zikuan Wang
山东大学光学高等研究中心 研究员
BDF(https://bdf-manual.readthedocs.io/zh_CN/latest/Introduction.html)、ORCA(https://orcaforum.kofo.mpg.de/index.php)开发团队成员
Google Scholar: https://scholar.google.com/citations?user=XW6C6eQAAAAJ
ORCID: https://orcid.org/0000-0002-4540-8734
主页:http://www.qitcs.qd.sdu.edu.cn/info/1133/1776.htm
GitHub:https://github.com/wzkchem5
本团队长期招收研究生,有意者可私信联系

102

帖子

0

威望

2676

eV
积分
2778

Level 5 (御坂)

4#
 楼主 Author| 发表于 Post on 2022-1-28 13:12:01 | 只看该作者 Only view this author
Accelerator 发表于 2022-1-28 11:38
如果仅仅是ORCA finished by error termination in GTOInt,那么多半是由于临时文件存放在了NF ...

拷贝到本地硬盘运行的方法我也试过了,也不成。。

482

帖子

10

威望

6948

eV
积分
7630

Level 6 (一方通行)

BSJ Institute

3#
发表于 Post on 2022-1-28 11:38:43 | 只看该作者 Only view this author
本帖最后由 Accelerator 于 2022-1-28 11:39 编辑

如果仅仅是ORCA finished by error termination in GTOInt,那么多半是由于临时文件存放在了NFS路径上,硬盘读写一旦跟不上,程序就会在这里退出。
只要在提交脚本里将输入文件复制到本机路径中,再在当前路径中运行orca,就可以解决。ORCA手册中有相应的提交脚本例子。
后面有许多mpi相关报错的没有见到过,或许可以首先尝试上方策略。

2425

帖子

1

威望

6197

eV
积分
8642

Level 6 (一方通行)

2#
发表于 Post on 2022-1-28 10:18:49 | 只看该作者 Only view this author
集群调度默认的MPI或许不同。

你可以试试我提供的方案。
搜索 下载即用的ORCA。
或者翻一下,我发的帖文。
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2026-2-27 17:24 , Processed in 0.197907 second(s), 21 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list