计算化学公社

 找回密码 Forget password
 注册 Register
Views: 2433|回复 Reply: 12
打印 Print 上一主题 Last thread 下一主题 Next thread

[ORCA] 并行错误:ORCA finished by error termination in GTOInt

[复制链接 Copy URL]

7

帖子

0

威望

201

eV
积分
208

Level 3 能力者

本帖最后由 dizzy 于 2023-4-17 16:55 编辑

单节点60个核,且%maxcore  3000     %pal nprocs  60 end  并行错误:
----------------------------
CARTESIAN COORDINATES (A.U.)
----------------------------
  NO LB      ZA    FRAG     MASS         X           Y           Z
   0 C     6.0000    0    12.011   17.495085   21.285875   36.467936
   1 H     1.0000    0     1.008   19.244971   20.609353   36.687142
   2 O     8.0000    0    15.999   16.357470   21.312331   38.752614
   3 H     1.0000    0     1.008   14.564119   21.557996   38.482384
   4 C     6.0000    0    12.011   19.116470   24.039206   33.310204
   5 H     1.0000    0     1.008   21.013754   23.249301   33.667361
   6 O     8.0000    0    15.999   17.595240   23.810550   35.549529
   7 C     6.0000    0    12.011   16.353690   19.532210   34.648127
   8 H     1.0000    0     1.008   14.375146   20.101017   34.513958
   9 O     8.0000    0    15.999   16.433059   16.977300   35.517403
  10 H     1.0000    0     1.008   17.787992   16.032437   34.750174
  11 C     6.0000    0    12.011   17.525320   19.747638   32.044087
  12 H     1.0000    0     1.008   19.411267   18.844349   32.091330
  13 O     8.0000    0    15.999   15.937950   18.373806   30.350893
  14 H     1.0000    0     1.008   16.756201   18.063892   28.733286
  15 C     6.0000    0    12.011   17.833346   22.506638   31.252291
  16 H     1.0000    0     1.008   15.937950   23.305993   30.923479
  17 O     8.0000    0    15.999   19.458510   22.733405   29.067767
  18 H     1.0000    0     1.008   18.632699   23.888028   27.903696
  19 C     6.0000    0    12.011   19.337567   26.801985   32.733837
  20 O     8.0000    0    15.999   19.842124   28.202272   34.976942
  21 N     7.0000    0    14.007   16.896041   27.722283   31.577322
  22 H     1.0000    0     1.008   16.759982   28.948715   30.144911
  23 C     6.0000    0    12.011   14.692621   26.503408   32.919029
  24 H     1.0000    0     1.008   14.806004   24.626910   32.735726
  25 H     1.0000    0     1.008   14.751203   26.947495   34.755843
  26 C     6.0000    0    12.011   12.183064   27.436934   31.779523
  27 H     1.0000    0     1.008   12.060232   29.315321   31.949599
  28 H     1.0000    0     1.008   12.099916   26.977730   29.948379
  29 N     7.0000    0    14.007   10.038225   26.193494   33.189260
  30 H     1.0000    0     1.008    8.507547   27.196939   33.656021
  31 H     1.0000    0     1.008   10.147829   24.366129   33.656021

ORCA finished by error termination in GTOInt
Calling Command: mpirun -np 60  /work/home/acq1tr582b/ORCA/software/orca_5_0_4_linux_x86-64_shared_openmpi411/orca_gtoint_mpi test_geomopt.int.tmp test_geomopt
[file orca_tools/qcmsg.cpp, line 465]:
  .... aborting the run


配置:
租的服务器,最大CPU核数为320,内存为256GB

如下为openmpi安装信息,

路径设置,.bashrc中

输入inp文件
! B3LYP D3 6-31G(d) opt
%maxcore  3000
%pal nprocs  60 end
%output
  PrintLevel Mini
  Print [ P_Mulliken ] 1
  Print [ P_AtCharges_M ] 1
end
* xyz   0   1
C       9.25800037      11.26399994      19.29800034
H      10.18400002      10.90600014      19.41399956
O       8.65600014      11.27799988      20.50699997
H       7.70699978      11.40799999      20.36400032
C      10.11600018      12.72099972      17.62700081
H      11.11999989      12.30300045      17.81599998
O       9.31099987      12.60000038      18.81200027
C       8.65400028      10.33600044      18.33499908
H       7.60699987      10.63700008      18.26399994
O       8.69600010       8.98400021      18.79500008
H       9.41300011       8.48400021      18.38899994
C       9.27400017      10.44999981      16.95700073
H      10.27200031       9.97200012      16.98200035
O       8.43400002       9.72299957      16.06100082
H       8.86699963       9.55900002      15.20499992
C       9.43700027      11.90999985      16.53800011
H       8.43400002      12.33300018      16.36400032
O      10.29699993      12.02999973      15.38199997
H       9.85999966      12.64099979      14.76599979
C      10.23299980      14.18299961      17.32200050
O      10.50000000      14.92399979      18.50900078
N       8.94099998      14.67000008      16.70999908
H       8.86900043      15.31900024      15.95199966
C       7.77500010      14.02499962      17.42000008
H       7.83500004      13.03199959      17.32299995
H       7.80600023      14.26000023      18.39200020
C       6.44700003      14.51900005      16.81699944
H       6.38199997      15.51299953      16.90699959
H       6.40299988      14.27600002      15.84799957
N       5.31199980      13.86100006      17.56299973
H       4.50199986      14.39200020      17.80999947
H       5.36999989      12.89400005      17.80999947
*

执行文件
#!/bin/bash
#SBATCH -J orca
#SBATCH -N 1
#SBATCH -n 60
#SBATCH -p xahctest

#export job=$SBATCH_JOBNAME
job=test_geomopt

export orcadir=/work/home/acq1tr582b/ORCA/software/orca_5_0_4_linux_x86-64_shared_openmpi411
export WORKDIR=/work/home/acq1tr582b/ORCA/celpei/test
tdir=$(mktemp -d /work/home/acq1tr582b/ORCA/celpei/test/test1_XXX)
cp $WORKDIR/$job.inp $tdir/
cd $tdir
$orcadir/orca $job.inp > $WORKDIR/$job.out

rm -rf $tdir


但是%pal nprocs  1 end可以运行成功

188

帖子

0

威望

486

eV
积分
674

Level 4 (黑子)

2#
发表于 Post on 2023-4-17 16:59:22 | 只看该作者 Only view this author
从你脚本的内容看,标准输出stdout在$WORKDIR/$job.out中,而标准错误stderr会在该脚本运行的命令行界面打印。现在需要stderr的内容来更好地判断错误的原因。

1万

帖子

0

威望

7400

eV
积分
18164

Level 6 (一方通行)

3#
发表于 Post on 2023-4-17 17:09:38 | 只看该作者 Only view this author
同一个节点上跑了其他任务吗?你这个计算指定的内存太多了,如果跑了其他占内存比较多的任务,可能内存会不足。
这个计算没必要给那么多内存,DFT计算不需要这么多内存
BDF(https://bdf-manual.readthedocs.io/zh_CN/latest/Introduction.html)、ORCA(https://orcaforum.kofo.mpg.de/index.php)开发团队成员

7

帖子

0

威望

201

eV
积分
208

Level 3 能力者

4#
 楼主 Author| 发表于 Post on 2023-4-17 17:12:21 | 只看该作者 Only view this author
wjc404 发表于 2023-4-17 16:59
从你脚本的内容看,标准输出stdout在$WORKDIR/$job.out中,而标准错误stderr会在该脚本运行的命令行界面打 ...

执行文件加了#SBATCH -e err.%j
err文件输出:
[h17r4n28:14306] *** Process received signal ***
[h17r4n28:14306] Signal: Segmentation fault (11)
[h17r4n28:14306] Signal code: Address not mapped (1)
[h17r4n28:14306] Failing at address: (nil)
[h17r4n28:14306] [ 0] /lib64/libpthread.so.0(+0xf5d0)[0x2ace2aa0f5d0]
[h17r4n28:14306] *** End of error message ***
[file orca_tools/qcmsg.cpp, line 465]:
  .... aborting the run

7

帖子

0

威望

201

eV
积分
208

Level 3 能力者

5#
 楼主 Author| 发表于 Post on 2023-4-17 17:12:59 | 只看该作者 Only view this author
wzkchem5 发表于 2023-4-17 17:09
同一个节点上跑了其他任务吗?你这个计算指定的内存太多了,如果跑了其他占内存比较多的任务,可能内存会不 ...

只有这一个任务

188

帖子

0

威望

486

eV
积分
674

Level 4 (黑子)

6#
发表于 Post on 2023-4-17 17:32:42 | 只看该作者 Only view this author
dizzy 发表于 2023-4-17 17:12
执行文件加了#SBATCH -e err.%j
err文件输出:
[h17r4n28:14306] *** Process received signal ***

可以找一下系统默认的coredump文件在哪(这个不同系统不一样,可以谷歌一下)然后看backtrace。
如果找不到coredump,可以用gdb运行orca,或者找一下本地有没有libSegFault.so(“find / -name libSegFault*”)如果有的话在LD_PRELOAD环境变量里加上它的完整路径(之后运行出现segfault就在stderr里面有backtrace)。

2301

帖子

1

威望

5477

eV
积分
7798

Level 6 (一方通行)

7#
发表于 Post on 2023-4-17 18:55:43 | 只看该作者 Only view this author
64核心能不能跑?
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

7

帖子

0

威望

201

eV
积分
208

Level 3 能力者

8#
 楼主 Author| 发表于 Post on 2023-4-19 14:48:55 | 只看该作者 Only view this author
abin 发表于 2023-4-17 18:55
64核心能不能跑?

不行,还是同样的问题

20

帖子

0

威望

149

eV
积分
169

Level 3 能力者

9#
发表于 Post on 2023-5-10 11:56:13 | 只看该作者 Only view this author
你好,请问问题解决了吗?我也遇到这个问题了

7

帖子

0

威望

201

eV
积分
208

Level 3 能力者

10#
 楼主 Author| 发表于 Post on 2023-5-15 14:51:22 | 只看该作者 Only view this author
shenmh3 发表于 2023-5-10 11:56
你好,请问问题解决了吗?我也遇到这个问题了

工程师好像重新安装了一下

20

帖子

0

威望

149

eV
积分
169

Level 3 能力者

11#
发表于 Post on 2023-5-17 10:55:09 | 只看该作者 Only view this author
dizzy 发表于 2023-5-15 14:51
工程师好像重新安装了一下

感谢回复,我的问题也解决啦。之前修改环境变量source .bashrc后还是报错,但退出终端重登之后环境变量就生效了

338

帖子

0

威望

1111

eV
积分
1449

Level 4 (黑子)

12#
发表于 Post on 2023-12-6 15:18:13 | 只看该作者 Only view this author
wzkchem5 发表于 2023-4-17 17:09
同一个节点上跑了其他任务吗?你这个计算指定的内存太多了,如果跑了其他占内存比较多的任务,可能内存会不 ...

请问老师,ORCA在运算时所调用的内存会偶尔超出所设定的内存吗?比如我在同一个64核256GB的节点上同时运行两个设置均为:maxcore 3750 pal nprocs 32的任务,时不时就会自己杀掉,显示内存不足,按说两个任务加起来才240GB的内存使用量。使用Gaussian时,同时跑两个32核/120GB的任务并不会出现这种内存不够的情况。

1万

帖子

0

威望

7400

eV
积分
18164

Level 6 (一方通行)

13#
发表于 Post on 2024-1-5 17:46:02 | 只看该作者 Only view this author
cokie 发表于 2023-12-6 08:18
请问老师,ORCA在运算时所调用的内存会偶尔超出所设定的内存吗?比如我在同一个64核256GB的节点上同时运 ...

是有可能的,但不会超太多。此外注意操作系统以及杂七杂八的后台程序也在消耗内存,所以判断maxcore最大设多少的时候,应当以当前空闲物理内存为准,而不是以总物理内存为准,再留大概20%余量即可
BDF(https://bdf-manual.readthedocs.io/zh_CN/latest/Introduction.html)、ORCA(https://orcaforum.kofo.mpg.de/index.php)开发团队成员

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-25 16:05 , Processed in 0.182302 second(s), 23 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list