计算化学公社

标题: ORCA并行计算超过10核就报错 [打印本页]

作者
Author:
fengqingxue9    时间: 2021-10-15 09:16
标题: ORCA并行计算超过10核就报错
各位老师好:
       我安装了ORCA,并用oepnmpi实现了并行计算,但是不知道为啥只要计算用核心数设定超过10,就会马上报错,小于等于10的时候,都能正常计算,试着改过对应的内存,防止核数过多把内存耗光,但是不起作用,还是一运行就出错,不知道大家有没有类似情况,我是Ubuntu系统。谢谢大家。

作者
Author:
冰释之川    时间: 2021-10-15 09:49
本帖最后由 冰释之川 于 2021-10-15 09:50 编辑

装openmpi之前,系统里有没有安装gfortran?如果没有,就装个gfortran,然后重新编译openmpi,再试试

作者
Author:
snljty    时间: 2021-10-15 10:00
多提供一些信息,你的Ubuntu版本,OpenMPI版本,ORCA版本,测试文件内容,机器实际核心数。顺便,你把OpenMPI拼错了。
作者
Author:
fengqingxue9    时间: 2021-10-15 10:25
谢谢大家,我是提前安装了gfortran的, Ubuntu是20.04,OpenMPI是4.1.1(刚才拼写错了不好意思),ORCA是5.0,实际物理核心数16,32线程,测试文件很普通了,就是用一个H2O.inp测试了下,除了核心数和内存大小外,其它关键词为:
! b3lyp/G 6-31g(d) opt
作者
Author:
pwzhou    时间: 2021-10-15 11:24
fengqingxue9 发表于 2021-10-15 10:25
谢谢大家,我是提前安装了gfortran的, Ubuntu是20.04,OpenMPI是4.1.1(刚才拼写错了不好意思),ORCA是5.0 ...

最关键的出错信息呢?
作者
Author:
chrinide    时间: 2021-10-15 11:24
极大可能是测试算例太小,换一个大一点的分子再看看
作者
Author:
量化小菜鸡    时间: 2021-10-15 14:00
chrinide 发表于 2021-10-15 11:24
极大可能是测试算例太小,换一个大一点的分子再看看

我也猜是不是分子太小,电子对数不够那么多并行的。
作者
Author:
wzkchem5    时间: 2021-10-15 14:36
量化小菜鸡 发表于 2021-10-15 07:00
我也猜是不是分子太小,电子对数不够那么多并行的。

DFT任务不受电子对数制约,只有CCSD之类的会
作者
Author:
量化小菜鸡    时间: 2021-10-15 14:48
wzkchem5 发表于 2021-10-15 14:36
DFT任务不受电子对数制约,只有CCSD之类的会

这样子,了解了。
作者
Author:
fengqingxue9    时间: 2021-10-15 17:54
谢谢大家,前两天只要一超过10核设定就马上报错,弄了几次也没作用,因为实在等不起,就用10核算了,这两天一直在计算,早上就想着来论坛问问大家看看有没有类似情况。持续了近40个小时的计算结束后,刚才我想把错误截图给大家看一下,结果发现居然编写超过10核任务也正常了,没有报错了。不是太明白为什么,因为这两天电脑一直算,我也没调什么。感谢大家的参与,耽误了大家时间我十分抱歉。
作者
Author:
fengqingxue9    时间: 2021-10-15 17:57
补充说明:前两天有问题的时候确实是用的小体系试的,这两天持续算的是几十个原子的体系,算完后发现,无论大小体系,再设定10核以上都不报错了。
作者
Author:
wzkchem5    时间: 2021-10-15 18:23
fengqingxue9 发表于 2021-10-15 10:54
谢谢大家,前两天只要一超过10核设定就马上报错,弄了几次也没作用,因为实在等不起,就用10核算了,这两天 ...

可能是race condition之类的问题,race condition不可重复,而且重复出来的概率不是固定的,而是这两天总是报错,过两天又总是不报错了;这台机子上有50%概率报错,那台机子上有10%概率报错,另外哪台机子上永远不报错。这种不一定是orca的bug,也可能是openmpi的bug;即便是orca的bug,修复起来也很麻烦,因为在用户机器上出现的race condition可能在orca团队内部机器上永远不出现,我们又不可能把orca源代码上传到用户机器上去调试。我们遇到过很多次用户报错在我们内部重复不出来,很难知道是因为配置不一样,硬件不一样,还是什么其他问题。
如果这种问题经常出现,可以检查一下openmpi有没有新版,如果有的话重装一下openmpi,但是解决问题的概率也比较有限。
作者
Author:
fengqingxue9    时间: 2021-10-15 19:46
wzkchem5 发表于 2021-10-15 18:23
可能是race condition之类的问题,race condition不可重复,而且重复出来的概率不是固定的,而是这两天总 ...

学习了,谢谢老师的帮助
作者
Author:
范德华力    时间: 2021-11-6 13:02
学到了,我遇到了ORCA finished by error termination in GTOInt
Calling Command: mpirun -np 10  /home/orca5.01/orca_gtoint_mpi orca1.int.tmp orca1
[file orca_tools/qcmsg.cpp, line 458]:
  .... aborting the run
的错误,真希望也能这样就好了
作者
Author:
wangzuwei    时间: 2022-6-2 04:12
我也遇到了这个问题,刚解决完,来挖个坟
1. 如果机器上有intel oneapi,先检查是否启用了oneapi的环境变量。如果启用了,会默认调用intelmpi,就会出现上述错误
2. 编译openmpi时一定用gcc g++ 和 gfortran,虽然openmpi网站上写支持intel编译器,但亲测会出错
作者
Author:
abin    时间: 2022-6-2 07:40
试试我提供的解决方案,
无视系统上的任何已有设定。

搜索我的贴文就能找到。
大概是下载即用的ORCA。
作者
Author:
fdjkein_13    时间: 2023-12-6 17:47
fengqingxue9 发表于 2021-10-15 17:54
谢谢大家,前两天只要一超过10核设定就马上报错,弄了几次也没作用,因为实在等不起,就用10核算了,这两天 ...

我也出现了类似的情况,一开始无论是大体系小体系只要核数设定10以上必然报错。后来看到这个回复后,先用10核强行跑完一个几十原子的大体系,之后就可以正常使用30-40核进行计算了。
暂时不明白这是什么原因,供有类似情况的同仁参考。也期待有懂得其原理的高人指点。




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3