计算化学公社

 找回密码 Forget password
 注册 Register
Views: 2655|回复 Reply: 12
打印 Print 上一主题 Last thread 下一主题 Next thread

[ORCA] ORCA计算无报错异常终止问题求助

[复制链接 Copy URL]

186

帖子

1

威望

505

eV
积分
711

Level 4 (黑子)

本帖最后由 啊不错的飞过海 于 2022-5-18 19:34 编辑

今天在自己电脑上跑计算任务,发现出现ORCA任务异常终止且没有报错;同时相应的终端会自动关掉,不知道是什么问题。
到目前为止发现两类情况,都出现在算一个还算大(141个原子)的手性磷酸时:

第一类情况是(在非主目录下挂载的硬盘上放文件)跑 ωB97X-2-D3(BJ) 单点时,在算到MP2的第二阶段时,输出完以下内容会稳定地异常终止:
Second Phase: sorting and transformation of aux index

IA-Transformation
Memory available                       ... 887 MB
Max. # MO pairs treated in a batch     ... 4   
# of internal orbitals                 ... 179
# batches for internal orbitals        ... 6

把硬盘挂载到主目录下的文件夹后重新进行任务可以正常完成,正常完成的文件中接下来的输出表明此时在做计算、关buffer:
Closing buffer IAV (29.13 GB; CompressionRatio= 1.00)
(ia|v) transformation done in  1007.668 sec

  Phase 2 completed in  1008.561 sec
结合硬盘占用情况,这20多个G的buffer在任务异常终止时应该时已经基本都写进硬盘里了。

第二类情况是(在系统盘&主目录下放文件)跑带SMD溶剂化的B3LYP-D3(BJ)几何优化时,在算第一遍SCF时会随机异常终止;目前为止出现过跑iteration 0、iteration 1、iteration 6期间终止的情况,暂未试出来解决方案。
以跑iteration 1时异常终止的情形为例,此时.out文件中的最后输出是:

--------------
SCF ITERATIONS
--------------
ITER       Energy         Delta-E        Max-DP      RMS-DP      [F,P]     Damp
               ***  Starting incremental Fock matrix formation  ***
  0  -3122.5179161638   0.000000000000 0.13287254  0.00052946  0.3744099 0.7000
可以看出来毫无异常。此时本轮SCF的临时文件有*.p0.tmp、*.JSCF.tmp、*.K0.tmp三个*,这一性质在几次异常终止中保持稳定;这几个文件比较大(.K0.tmp有50多个M,剩下两个20多个M),限于论坛传文件规则就不上传了。

曾经怀疑过是内存写溢了导致的任务异常终止;逮机会盯了任务异常终止时的系统监视器动态,看起来不是这个原因。
同目录下跑小一点的体系(40多个原子)的同等级优化可以正常完成,同体系同方法换用小基组(def2-TZVP->def2-SVP)也可以正常运行,大概能排除目录相关的问题。
硬盘剩余空间充足(系统分区可用50多个G),对这么个DFT任务应该不构成影响;且磁盘空间不足时ORCA应当会报错、退出,不会一并把终端也关了,应该可以排除硬盘空间不足的问题。
18日15点更新:尝试在命令行环境下进行第二类情况所述计算,终端同样异常退出并logout了;基本可以排除GUI程序问题。

坛内诸君还有碰到过类似问题的吗?有什么或许能用的解决方案吗?有什么可能的导致这样任务异常终止的原因吗?提前感谢。



*剩下的临时文件最后修改时间都早于.out文件,推测和本圈SCF迭代关系不太大

使用的系统是Ubuntu 22.04,ORCA是sob老师的锑度云分享处下载的,OpenMPI版本是4.1.3,CPU是Intel Core i7-10875H。
================================5月18日19点更新===========================
使用4个MPI进程顺利跑上了任务,并确认了运行8个MPI进程时杀死终端的原因:内存溢出了。情况2的任务算SCF时需要的内存最高可以达到1559MB/进程(由正常执行时的.out文件读出),这台电脑只有堪堪16GB内存、虚拟内存也只有2GB,似乎是把所有内存吃掉后就会杀死终端;不知道linux系统为什么对这种情况无动于衷,Windows是会当场加虚拟内存来满足应用需求的。做MP2计算时按理说进phase 2会写一大堆临时文件出来,可能这个时候正好内存不太足,进程就被杀了;但不知道这个是如何与输入文件所在磁盘的挂载位置关联起来的。

总之本帖大概可以终结了。

202205180044218817..png (373.91 KB, 下载次数 Times of downloads: 37)

任务异常终止时的系统监视器截图;可见内存是没吃满的

任务异常终止时的系统监视器截图;可见内存是没吃满的

截图 2022-05-18 18-26-05.png (268.57 KB, 下载次数 Times of downloads: 23)

进行完iteration 6后更新.gbw文件前后时的系统监视器截图;可以看出内存占用有一显著的峰。

进行完iteration 6后更新.gbw文件前后时的系统监视器截图;可以看出内存占用有一显著的峰。

截图 2022-05-18 19-12-30.png (240.54 KB, 下载次数 Times of downloads: 30)

第一轮SCF收敛后的输出文件截图;可见单个MPI进程的内存峰值需求达到了1.55GB,在运行8个MPI进程时超出了这 ...

第一轮SCF收敛后的输出文件截图;可见单个MPI进程的内存峰值需求达到了1.55GB,在运行8个MPI进程时超出了这 ...

2301

帖子

1

威望

5477

eV
积分
7798

Level 6 (一方通行)

2#
发表于 Post on 2022-5-18 10:37:01 | 只看该作者 Only view this author
http://bbs.keinsci.com/thread-26418-1-1.html
试试这提到的方案.


另, 因为你是本机运行, 只要对应目录可以读写就没问题, 和硬盘挂载到哪里没有关系.

建议, 关闭GUI, 指令行运行.

当然, 如果你在GUI界面下, 开的Terminal,
而后 orca.exe Input &
然后点击X关闭了Terminal, 计算也可能被断掉.

另外, 如果你的终端是snap版本, 也会莫名其妙的异常.....
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

186

帖子

1

威望

505

eV
积分
711

Level 4 (黑子)

3#
 楼主 Author| 发表于 Post on 2022-5-18 11:00:58 | 只看该作者 Only view this author
abin 发表于 2022-5-18 10:37
http://bbs.keinsci.com/thread-26418-1-1.html
试试这提到的方案.

感谢。一会在命令行条件下再试一次昨天失败了的任务。
按理说应该是只要硬盘能读写就可以正常跑任务的,但实际执行中确实出现了硬盘挂载位置影响任务进行的问题,很奇怪。
自个儿关了Terminal这种低级错误显然不会拿出来问......snap版本终端的事不太了解,我使用的终端是Ubnuntu22.04自带的“终端”;参考https://www.bilibili.com/video/av7188472/,我用的大概就是snap版本,这样推论的话换到非GUI环境可能能解决问题,我一会试完在本帖下汇报好了。

186

帖子

1

威望

505

eV
积分
711

Level 4 (黑子)

4#
 楼主 Author| 发表于 Post on 2022-5-18 15:54:45 | 只看该作者 Only view this author
abin 发表于 2022-5-18 10:37
http://bbs.keinsci.com/thread-26418-1-1.html
试试这提到的方案.

无GUI测试的结果已更新在主楼里;Terminal还是自个儿停掉了。一会试试减几个mpi进程再试试?

58

帖子

0

威望

1537

eV
积分
1595

Level 5 (御坂)

5#
发表于 Post on 2022-5-18 16:26:32 | 只看该作者 Only view this author
换linux,win一堆问题

186

帖子

1

威望

505

eV
积分
711

Level 4 (黑子)

6#
 楼主 Author| 发表于 Post on 2022-5-18 21:48:26 | 只看该作者 Only view this author
错误原因大概排查出来了,是内存写满后系统杀死了进程;大概加点虚拟内存就可以解决,一会儿试一下写进主楼里。

36

帖子

0

威望

294

eV
积分
330

Level 3 能力者

7#
发表于 Post on 2023-11-21 09:58:24 | 只看该作者 Only view this author
请问最后你是如何解决的呀?我也遇到不报错但是任务终止的情况,但是终端还在。谢谢

186

帖子

1

威望

505

eV
积分
711

Level 4 (黑子)

8#
 楼主 Author| 发表于 Post on 2023-11-21 19:58:09 | 只看该作者 Only view this author
docshen777 发表于 2023-11-21 09:58
请问最后你是如何解决的呀?我也遇到不报错但是任务终止的情况,但是终端还在。谢谢

减并行进程数,缩maxcore,加swap三选一。
我发这个帖子时的任务减并行进程数就够用,后来一些TDDFT就只能缩maxcore让ORCA自己分batch——但这里设的maxcore和实际使用没有半点对应关系,只是撞大运试着让ORCA给一个batch少塞几个vector;最后要算MRCC时候前述两种方法都不管用,一把划了32GB swap凑合用。

36

帖子

0

威望

294

eV
积分
330

Level 3 能力者

9#
发表于 Post on 2023-11-21 21:14:17 | 只看该作者 Only view this author
啊不错的飞过海 发表于 2023-11-21 19:58
减并行进程数,缩maxcore,加swap三选一。
我发这个帖子时的任务减并行进程数就够用,后来一些TDDFT就只 ...

我看了一下,我这机子实际内存384GB,虚拟内存显示是200多GB...按理说不应该出现内存爆掉的情况......那么一般的计算您用多少的并行进程数呀?我现用4还是会卡死,一会儿就不动了,能不能算完完全看脸。降到2合理么

186

帖子

1

威望

505

eV
积分
711

Level 4 (黑子)

10#
 楼主 Author| 发表于 Post on 2023-11-21 21:34:39 | 只看该作者 Only view this author
docshen777 发表于 2023-11-21 21:14
我看了一下,我这机子实际内存384GB,虚拟内存显示是200多GB...按理说不应该出现内存爆掉的情况......那 ...

呀,好大,那按理来说完全够用了;不过考虑到还有别人在用,可能从WSL的top/htop看更能反映实际情况。
我一般看任务量1核到16核都有,任务多起来不做任务内并行效率才最高,少就多投几个核减少等待时间,也看任务。你跑的是什么任务?

36

帖子

0

威望

294

eV
积分
330

Level 3 能力者

11#
发表于 Post on 2023-11-22 07:54:42 | 只看该作者 Only view this author
啊不错的飞过海 发表于 2023-11-21 21:34
呀,好大,那按理来说完全够用了;不过考虑到还有别人在用,可能从WSL的top/htop看更能反映实际情况。
...

30个原子的结构优化,按理说是一个非常简单的任务

186

帖子

1

威望

505

eV
积分
711

Level 4 (黑子)

12#
 楼主 Author| 发表于 Post on 2023-11-22 12:14:36 | 只看该作者 Only view this author
docshen777 发表于 2023-11-22 07:54
30个原子的结构优化,按理说是一个非常简单的任务

用DFT做吗?那按理说确实不应该有什么问题......我觉得直接换win版问题不大,你希望继续debug也可以。
保险起见还是问问:你用的ORCA版本号是多少——是5.0.4吗?
用的MPI是OpenMPI吗?版本号是4.1.x吗?
用的ORCA是动态库(shared)版本还是静态库版本?
WSL里是什么系统?uname -r输出什么?
......我觉着可能出问题的地方就这些了。

36

帖子

0

威望

294

eV
积分
330

Level 3 能力者

13#
发表于 Post on 2023-11-22 13:36:47 | 只看该作者 Only view this author
啊不错的飞过海 发表于 2023-11-22 12:14
用DFT做吗?那按理说确实不应该有什么问题......我觉得直接换win版问题不大,你希望继续debug也可以。
...

ORCA 5.0.4
OpenMPI 4.1.2
shared 动态库
ubuntu 22.04 LTS
实在是不理解哈哈哈哈哈折腾三天了

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-26 00:35 , Processed in 0.165020 second(s), 23 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list