计算化学公社

标题: ORCA finished by error termination in MDCI [打印本页]

作者
Author:
Adachem    时间: 2022-7-5 09:58
标题: ORCA finished by error termination in MDCI
本帖最后由 Adachem 于 2022-7-5 17:18 编辑

问题:用STEOM-DLPNO-CCSD方法在超算上可以正确结束的单点能计算,换到自己服务器上以后就开始如题的报错(自己服务器的内存和存储配置都比超算的高,在服务器上用ORCA做其他测试可以正常并行+Normal结束),觉得很奇怪,具体描述在下方,请ORCA大佬们不吝赐教!

最近陆陆续续在用ORCA做一些STEOM-DLPNO-CCSD的测试,主要想模拟单三态的能级差。
单重态激发能的计算用的是如下命令:
! STEOM-DLPNO-CCSD RIJK def2-TZVP def2/JK def2-TZVP/C tightSCF noautostart miniprint nopop
%maxcore  25000
%pal nprocs   8 end
%mdci
nroots 3
end

报错信息如下:
-------------------------------------
Pair Pair Term precalculation with     
RI-(ij|mn) and (im|jn) transformation  
ON THE FLY                             
-------------------------------------


   IBatch   1 (of   2)              ...
ORCA finished by error termination in MDCI
Calling Command: mpirun -np 8  /opt/pub/softwares/ORCA/5.0.2/orca_mdci_mpi CzBS-dlpno-s1.mdciinp.tmp CzBS-dlpno-s1
[file orca_tools/qcmsg.cpp, line 465]:
  .... aborting the run

具体文件见附件,俩文件是同一个计算,err结尾的是在自己服务器上的报错任务,normal是在超算上正常结束的,麻烦了解ORCA的大佬帮忙看看,问题可能出在哪里了?谢谢!


作者
Author:
wzkchem5    时间: 2022-7-5 15:36
在你的服务器上跑比较小的分子的STEOM-DLPNO-CCSD,会报错吗?
作者
Author:
Adachem    时间: 2022-7-5 17:27
wzkchem5 发表于 2022-7-5 15:36
在你的服务器上跑比较小的分子的STEOM-DLPNO-CCSD,会报错吗?

您好,换了一个十几个原子的小分子最后的报错信息也一样,但是往前翻不太一样,小分子的out文件见附件。err的文件我之前上传的是报错信息的文件,又重新传了一份out文件,麻烦您帮忙分析一下是哪儿出问题了,谢谢您。
作者
Author:
wzkchem5    时间: 2022-7-5 17:37
Adachem 发表于 2022-7-5 10:27
您好,换了一个十几个原子的小分子最后的报错信息也一样,但是往前翻不太一样,小分子的out文件见附件。e ...

这个小分子是一个完全不一样的报错,EA-EOM不收敛,最可能的原因是参考态不好(基态有多参考态性质)或者活性轨道太少了。但是小分子的计算起码在大分子报错的那个地方没报错,说明你一开始的那个报错大概率还是和内存或硬盘有关,可能是偶然的硬件错误之类的。可以再跑一次试试,看看是否在同一个地方报错
作者
Author:
Adachem    时间: 2022-7-5 19:48
wzkchem5 发表于 2022-7-5 17:37
这个小分子是一个完全不一样的报错,EA-EOM不收敛,最可能的原因是参考态不好(基态有多参考态性质)或者 ...

您好,大分子我试了好几次,不同核数的也试了(4/8/16 cores),重新安装了ORCA 5.0.2/5.0.3还是跑到同样的地方挂掉了,我觉得应该不是我的内存核磁盘的问题,我服务器的内存是512G,磁盘是10T的固态(我们买这台机子主要是想用高精度方法算激发能,课题组做的分子也比较大),ORCA我接触没多久,我现在把我能想到的方法都试了,请问还有其他可以尝试解决大分子报错的方法吗?
作者
Author:
wzkchem5    时间: 2022-7-5 22:57
Adachem 发表于 2022-7-5 12:48
您好,大分子我试了好几次,不同核数的也试了(4/8/16 cores),重新安装了ORCA 5.0.2/5.0.3还是跑到同样 ...

要不在orca论坛的bug版报个bug吧,我们orca团队这边人会负责解决。总的来说如果是STEOM-DLPNO-CCSD跑不动的体系,可以考虑用双杂化泛函,但是正像你说的,如果在更小内存、更小硬盘的机子上反而能跑,感觉也不是纯粹的算不动的问题。
作者
Author:
Adachem    时间: 2022-7-6 09:11
wzkchem5 发表于 2022-7-5 22:57
要不在orca论坛的bug版报个bug吧,我们orca团队这边人会负责解决。总的来说如果是STEOM-DLPNO-CCSD跑不动 ...

应该不是算不动,我在超算上做STEOM-DLPNO-CCSD计算时硬盘只用了1T+。
请问报了Bug以后你们会有针对性的帮我调试程序吗?还是说我这台机子暂时就没法做STEOM-DLPNO-CCSD了呢?
作者
Author:
wzkchem5    时间: 2022-7-6 14:53
Adachem 发表于 2022-7-6 02:11
应该不是算不动,我在超算上做STEOM-DLPNO-CCSD计算时硬盘只用了1T+。
请问报了Bug以后你们会有针对性的 ...

我们这边会有更有经验的人尝试分析错误原因
作者
Author:
Adachem    时间: 2022-7-6 16:10
本帖最后由 Adachem 于 2022-7-6 16:18 编辑
wzkchem5 发表于 2022-7-6 14:53
我们这边会有更有经验的人尝试分析错误原因

感谢您的回复和帮助,我好像找到原因了。
我用重装的ORCA 5.0.2提交后,在.err文件中出现了和之前不太一样的报错提示:
slurmstepd: error: Detected 2 oom-kill event(s) in StepId=84.batch cgroup. Some of your processes may have been killed by the cgroup out-of-memory handler.
我就在提交ORCA的脚本中指定了内存(#SBATCH --mem=200g),虽然现在还没跑出来,但是之前报错的那一步已经跑过去了,我感觉大概率可以顺利Normal。
Ps:
我之前在租用的超算上跑STEOM-DLPNO-CCSD时也是遇到了上面的报错,然后指定了内存才正常结束。超算上一个节点是64核,我当时只用了8个核,没有独占节点,没想到在自己机子上内存充足的前提下也要给ORCA指定预留内存。




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3