计算化学公社

标题: ORCA-4.2.x 与OpenMPI-3.1.4联用出错求助 [打印本页]

作者
Author:
是aweia    时间: 2022-2-15 06:35
标题: ORCA-4.2.x 与OpenMPI-3.1.4联用出错求助
ORCA新手,在使用4.2.1以及4.2.0,且对应openmpi3.1.4时,计算会报错如下:
Atom  16H    basis set group =>   2
Atom  17H    basis set group =>   2
Atom  18H    basis set group =>   2
Atom  19H    basis set group =>   2
Atom  20H    basis set group =>   2
Atom  21H    basis set group =>   2
Atom  22H    basis set group =>   2
Atom  23H    basis set group =>   2

ORCA finished by error termination in GTOInt
Calling Command: mpirun -np 64  /public/home/zdwlgc09/bin/ORCA/orca_4_2_1_linux_x86-64_shared_openmpi314/orca_gtoint_mpi t1.int.tmp t1
[file orca_tools/qcmsg.cpp, line 458]:
  .... aborting the run

ibpthread.so.0(+0xf5d0)[0x2b8cc03715d0]
[c10r2n05:102000] [ 1] /public/home/zdwlgc09/bin/OPENMPI/openmpi3.1.4/lib/libopen-pal.so.40(+0xac128)[0x2b8cbf1b9128]
[c10r2n05:102000] [ 2] /public/home/zdwlgc09/bin/OPENMPI/openmpi3.1.4/lib/libopen-pal.so.40(+0xad817)[0x2b8cbf1ba817]
[c10r2n05:102000] [ 3] /public/home/zdwlgc09/bin/OPENMPI/openmpi3.1.4/lib/libopen-pal.so.40(opal_hwloc1117_hwloc_topology_load+0x12d)[0x2b8cbf1cd3ed]
[c10r2n05:102000] [ 4] /public/home/zdwlgc09/bin/OPENMPI/openmpi3.1.4/lib/libopen-pal.so.40(opal_hwloc_base_get_topology+0x56c)[0x2b8cbf19ba0c]
[c10r2n05:102000] [ 5] /public/home/zdwlgc09/bin/OPENMPI/openmpi3.1.4/lib/openmpi/mca_ess_hnp.so(+0x4ec5)[0x2b8cc282eec5]
[c10r2n05:102000] [ 6] /public/home/zdwlgc09/bin/OPENMPI/openmpi3.1.4/lib/libopen-rte.so.40(orte_init+0x291)[0x2b8cbee72f01]
[c10r2n05:102000] [ 7] /public/home/zdwlgc09/bin/OPENMPI/openmpi3.1.4/lib/libopen-rte.so.40(orte_submit_init+0x6d7)[0x2b8cbeee33b7]
[c10r2n05:102000] [ 8] mpirun[0x400faf]
[c10r2n05:102000] [ 9] /lib64/libc.so.6(__libc_start_main+0xf5)[0x2b8cc05a03d5]
[c10r2n05:102000] [10] mpirun[0x400e2e]
[c10r2n05:102000] *** End of error message ***
[file orca_tools/qcmsg.cpp, line 458]:


提交作业的脚本里写入了相关PATH:
module purge
export PATH=/public/home/zdwlgc09/bin/ORCA/orca_4_2_1_linux_x86-64_shared_openmpi314:$PATH
export LD_LIBRARY_PATH=/public/home/zdwlgc09/bin/ORCA/orca_4_2_1_linux_x86-64_shared_openmpi314:$LD_LIBRARY_PATH
export PATH=/public/home/zdwlgc09/bin/OPENMPI/openmpi3.1.4/bin:$PATH
export LD_LIBRARY_PATH=/public/home/zdwlgc09/bin/OPENMPI/openmpi3.1.4/lib:$LD_LIBRARY_PATH

     /public/home/zdwlgc09/bin/ORCA/orca_4_2_1_linux_x86-64_shared_openmpi314/orca t1.inp >out

我在orca forum上找到了同样的问题反馈:https://orcaforum.kofo.mpg.de/viewtopic.php?f=11&t=6190
但没有解决办法 。
求助各位有无解决办法,谢谢各位

作者
Author:
abin    时间: 2022-2-15 08:24
如果你的集群有singularity,
试试这个方案, http://bbs.keinsci.com/thread-26418-1-1.html.

鼓掌原因是, mpi问题.

你提到的论坛中, 也有提到如何debug并定位问题.

基本的逻辑是, 如果采用XX配置方案有问题, 那么把XX配置方案重复搞一遍, 肯定还是有问题的.

另, 我也在集群跑ORCA, 4.2.0, 4,2,1, 5.0.1, 5.0.2,
无论都是我提供的singularity模式, 或者编译OpenMPI并搭配下载的原始版本,
都运行正常.
作者
Author:
zjxitcc    时间: 2022-2-15 09:27
4.2.x过时了。既然有最新版,又是免费软件,当然是用最新的ORCA 5.0.2搭配openmpi-4.1.1,届时若还有问题可以再贴出。安装可以看《ORCA 5.0安装及运行

作者
Author:
DoorBell    时间: 2022-2-15 10:43
可以尝试一下用Intel全家桶编译OpenMPI(参考http://bbs.keinsci.com/thread-4267-1-1.html中编译OpenMPI的部分)
之前也遇到过类似的问题(ORCA finished by error termination in GTOInt),经观察发现是本应该单核运行的orca_scf没有运行,并且如果用Guess Hueckel就可以正常计算。之后发现用Intel全家桶编译得到的OpenMPI似乎再没有出现过这个问题,可以试一试。另外看这输出应该是在集群上提交的任务,有时候过段时间或者换个节点都有概率解决这个问题




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3