计算化学公社

 找回密码 Forget password
 注册 Register
Views: 3350|回复 Reply: 8
打印 Print 上一主题 Last thread 下一主题 Next thread

[ORCA] ORCA finished by error termination in MDCI

[复制链接 Copy URL]

20

帖子

0

威望

149

eV
积分
169

Level 3 能力者

本帖最后由 Adachem 于 2022-7-5 17:18 编辑

问题:用STEOM-DLPNO-CCSD方法在超算上可以正确结束的单点能计算,换到自己服务器上以后就开始如题的报错(自己服务器的内存和存储配置都比超算的高,在服务器上用ORCA做其他测试可以正常并行+Normal结束),觉得很奇怪,具体描述在下方,请ORCA大佬们不吝赐教!

最近陆陆续续在用ORCA做一些STEOM-DLPNO-CCSD的测试,主要想模拟单三态的能级差。
单重态激发能的计算用的是如下命令:
! STEOM-DLPNO-CCSD RIJK def2-TZVP def2/JK def2-TZVP/C tightSCF noautostart miniprint nopop
%maxcore  25000
%pal nprocs   8 end
%mdci
nroots 3
end

报错信息如下:
-------------------------------------
Pair Pair Term precalculation with     
RI-(ij|mn) and (im|jn) transformation  
ON THE FLY                             
-------------------------------------


   IBatch   1 (of   2)              ...
ORCA finished by error termination in MDCI
Calling Command: mpirun -np 8  /opt/pub/softwares/ORCA/5.0.2/orca_mdci_mpi CzBS-dlpno-s1.mdciinp.tmp CzBS-dlpno-s1
[file orca_tools/qcmsg.cpp, line 465]:
  .... aborting the run

具体文件见附件,俩文件是同一个计算,err结尾的是在自己服务器上的报错任务,normal是在超算上正常结束的,麻烦了解ORCA的大佬帮忙看看,问题可能出在哪里了?谢谢!

dlpno-s1-err.out

93.71 KB, 下载次数 Times of downloads: 13

dlpno-s1-normal.out

180.14 KB, 下载次数 Times of downloads: 12

4ts5-dlpno.out

104.55 KB, 下载次数 Times of downloads: 9

1万

帖子

0

威望

7400

eV
积分
18164

Level 6 (一方通行)

2#
发表于 Post on 2022-7-5 15:36:25 | 只看该作者 Only view this author
在你的服务器上跑比较小的分子的STEOM-DLPNO-CCSD,会报错吗?
BDF(https://bdf-manual.readthedocs.io/zh_CN/latest/Introduction.html)、ORCA(https://orcaforum.kofo.mpg.de/index.php)开发团队成员

20

帖子

0

威望

149

eV
积分
169

Level 3 能力者

3#
 楼主 Author| 发表于 Post on 2022-7-5 17:27:53 | 只看该作者 Only view this author
wzkchem5 发表于 2022-7-5 15:36
在你的服务器上跑比较小的分子的STEOM-DLPNO-CCSD,会报错吗?

您好,换了一个十几个原子的小分子最后的报错信息也一样,但是往前翻不太一样,小分子的out文件见附件。err的文件我之前上传的是报错信息的文件,又重新传了一份out文件,麻烦您帮忙分析一下是哪儿出问题了,谢谢您。

1万

帖子

0

威望

7400

eV
积分
18164

Level 6 (一方通行)

4#
发表于 Post on 2022-7-5 17:37:48 | 只看该作者 Only view this author
Adachem 发表于 2022-7-5 10:27
您好,换了一个十几个原子的小分子最后的报错信息也一样,但是往前翻不太一样,小分子的out文件见附件。e ...

这个小分子是一个完全不一样的报错,EA-EOM不收敛,最可能的原因是参考态不好(基态有多参考态性质)或者活性轨道太少了。但是小分子的计算起码在大分子报错的那个地方没报错,说明你一开始的那个报错大概率还是和内存或硬盘有关,可能是偶然的硬件错误之类的。可以再跑一次试试,看看是否在同一个地方报错
BDF(https://bdf-manual.readthedocs.io/zh_CN/latest/Introduction.html)、ORCA(https://orcaforum.kofo.mpg.de/index.php)开发团队成员

20

帖子

0

威望

149

eV
积分
169

Level 3 能力者

5#
 楼主 Author| 发表于 Post on 2022-7-5 19:48:26 | 只看该作者 Only view this author
wzkchem5 发表于 2022-7-5 17:37
这个小分子是一个完全不一样的报错,EA-EOM不收敛,最可能的原因是参考态不好(基态有多参考态性质)或者 ...

您好,大分子我试了好几次,不同核数的也试了(4/8/16 cores),重新安装了ORCA 5.0.2/5.0.3还是跑到同样的地方挂掉了,我觉得应该不是我的内存核磁盘的问题,我服务器的内存是512G,磁盘是10T的固态(我们买这台机子主要是想用高精度方法算激发能,课题组做的分子也比较大),ORCA我接触没多久,我现在把我能想到的方法都试了,请问还有其他可以尝试解决大分子报错的方法吗?

1万

帖子

0

威望

7400

eV
积分
18164

Level 6 (一方通行)

6#
发表于 Post on 2022-7-5 22:57:59 | 只看该作者 Only view this author
Adachem 发表于 2022-7-5 12:48
您好,大分子我试了好几次,不同核数的也试了(4/8/16 cores),重新安装了ORCA 5.0.2/5.0.3还是跑到同样 ...

要不在orca论坛的bug版报个bug吧,我们orca团队这边人会负责解决。总的来说如果是STEOM-DLPNO-CCSD跑不动的体系,可以考虑用双杂化泛函,但是正像你说的,如果在更小内存、更小硬盘的机子上反而能跑,感觉也不是纯粹的算不动的问题。
BDF(https://bdf-manual.readthedocs.io/zh_CN/latest/Introduction.html)、ORCA(https://orcaforum.kofo.mpg.de/index.php)开发团队成员

20

帖子

0

威望

149

eV
积分
169

Level 3 能力者

7#
 楼主 Author| 发表于 Post on 2022-7-6 09:11:58 | 只看该作者 Only view this author
wzkchem5 发表于 2022-7-5 22:57
要不在orca论坛的bug版报个bug吧,我们orca团队这边人会负责解决。总的来说如果是STEOM-DLPNO-CCSD跑不动 ...

应该不是算不动,我在超算上做STEOM-DLPNO-CCSD计算时硬盘只用了1T+。
请问报了Bug以后你们会有针对性的帮我调试程序吗?还是说我这台机子暂时就没法做STEOM-DLPNO-CCSD了呢?

1万

帖子

0

威望

7400

eV
积分
18164

Level 6 (一方通行)

8#
发表于 Post on 2022-7-6 14:53:55 | 只看该作者 Only view this author
Adachem 发表于 2022-7-6 02:11
应该不是算不动,我在超算上做STEOM-DLPNO-CCSD计算时硬盘只用了1T+。
请问报了Bug以后你们会有针对性的 ...

我们这边会有更有经验的人尝试分析错误原因
BDF(https://bdf-manual.readthedocs.io/zh_CN/latest/Introduction.html)、ORCA(https://orcaforum.kofo.mpg.de/index.php)开发团队成员

20

帖子

0

威望

149

eV
积分
169

Level 3 能力者

9#
 楼主 Author| 发表于 Post on 2022-7-6 16:10:41 | 只看该作者 Only view this author
本帖最后由 Adachem 于 2022-7-6 16:18 编辑
wzkchem5 发表于 2022-7-6 14:53
我们这边会有更有经验的人尝试分析错误原因

感谢您的回复和帮助,我好像找到原因了。
我用重装的ORCA 5.0.2提交后,在.err文件中出现了和之前不太一样的报错提示:
slurmstepd: error: Detected 2 oom-kill event(s) in StepId=84.batch cgroup. Some of your processes may have been killed by the cgroup out-of-memory handler.
我就在提交ORCA的脚本中指定了内存(#SBATCH --mem=200g),虽然现在还没跑出来,但是之前报错的那一步已经跑过去了,我感觉大概率可以顺利Normal。
Ps:
我之前在租用的超算上跑STEOM-DLPNO-CCSD时也是遇到了上面的报错,然后指定了内存才正常结束。超算上一个节点是64核,我当时只用了8个核,没有独占节点,没想到在自己机子上内存充足的前提下也要给ORCA指定预留内存。

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-25 18:18 , Processed in 0.635296 second(s), 23 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list