计算化学公社

 找回密码 Forget password
 注册 Register
Views: 6386|回复 Reply: 16
打印 Print 上一主题 Last thread 下一主题 Next thread

[ORCA] ORCA并行计算超过10核就报错

[复制链接 Copy URL]

32

帖子

0

威望

101

eV
积分
133

Level 2 能力者

跳转到指定楼层 Go to specific reply
楼主
各位老师好:
       我安装了ORCA,并用oepnmpi实现了并行计算,但是不知道为啥只要计算用核心数设定超过10,就会马上报错,小于等于10的时候,都能正常计算,试着改过对应的内存,防止核数过多把内存耗光,但是不起作用,还是一运行就出错,不知道大家有没有类似情况,我是Ubuntu系统。谢谢大家。

1102

帖子

18

威望

6643

eV
积分
8105

Level 6 (一方通行)

計算化学の社畜

2#
发表于 Post on 2021-10-15 09:49:07 | 只看该作者 Only view this author
本帖最后由 冰释之川 于 2021-10-15 09:50 编辑

装openmpi之前,系统里有没有安装gfortran?如果没有,就装个gfortran,然后重新编译openmpi,再试试
Stand on the shoulders of giants

1187

帖子

5

威望

2841

eV
积分
4129

Level 6 (一方通行)

3#
发表于 Post on 2021-10-15 10:00:06 | 只看该作者 Only view this author
多提供一些信息,你的Ubuntu版本,OpenMPI版本,ORCA版本,测试文件内容,机器实际核心数。顺便,你把OpenMPI拼错了。

32

帖子

0

威望

101

eV
积分
133

Level 2 能力者

4#
 楼主 Author| 发表于 Post on 2021-10-15 10:25:00 | 只看该作者 Only view this author
谢谢大家,我是提前安装了gfortran的, Ubuntu是20.04,OpenMPI是4.1.1(刚才拼写错了不好意思),ORCA是5.0,实际物理核心数16,32线程,测试文件很普通了,就是用一个H2O.inp测试了下,除了核心数和内存大小外,其它关键词为:
! b3lyp/G 6-31g(d) opt

361

帖子

0

威望

4230

eV
积分
4591

Level 6 (一方通行)

5#
发表于 Post on 2021-10-15 11:24:55 | 只看该作者 Only view this author
fengqingxue9 发表于 2021-10-15 10:25
谢谢大家,我是提前安装了gfortran的, Ubuntu是20.04,OpenMPI是4.1.1(刚才拼写错了不好意思),ORCA是5.0 ...

最关键的出错信息呢?

339

帖子

0

威望

4999

eV
积分
5338

Level 6 (一方通行)

6#
发表于 Post on 2021-10-15 11:24:55 来自手机 | 只看该作者 Only view this author
极大可能是测试算例太小,换一个大一点的分子再看看

188

帖子

2

威望

3204

eV
积分
3432

Level 5 (御坂)

7#
发表于 Post on 2021-10-15 14:00:32 | 只看该作者 Only view this author
chrinide 发表于 2021-10-15 11:24
极大可能是测试算例太小,换一个大一点的分子再看看

我也猜是不是分子太小,电子对数不够那么多并行的。

1万

帖子

0

威望

7396

eV
积分
18149

Level 6 (一方通行)

8#
发表于 Post on 2021-10-15 14:36:52 | 只看该作者 Only view this author
量化小菜鸡 发表于 2021-10-15 07:00
我也猜是不是分子太小,电子对数不够那么多并行的。

DFT任务不受电子对数制约,只有CCSD之类的会
BDF(https://bdf-manual.readthedocs.io/zh_CN/latest/Introduction.html)、ORCA(https://orcaforum.kofo.mpg.de/index.php)开发团队成员

188

帖子

2

威望

3204

eV
积分
3432

Level 5 (御坂)

9#
发表于 Post on 2021-10-15 14:48:50 | 只看该作者 Only view this author
wzkchem5 发表于 2021-10-15 14:36
DFT任务不受电子对数制约,只有CCSD之类的会

这样子,了解了。

32

帖子

0

威望

101

eV
积分
133

Level 2 能力者

10#
 楼主 Author| 发表于 Post on 2021-10-15 17:54:06 | 只看该作者 Only view this author
谢谢大家,前两天只要一超过10核设定就马上报错,弄了几次也没作用,因为实在等不起,就用10核算了,这两天一直在计算,早上就想着来论坛问问大家看看有没有类似情况。持续了近40个小时的计算结束后,刚才我想把错误截图给大家看一下,结果发现居然编写超过10核任务也正常了,没有报错了。不是太明白为什么,因为这两天电脑一直算,我也没调什么。感谢大家的参与,耽误了大家时间我十分抱歉。

32

帖子

0

威望

101

eV
积分
133

Level 2 能力者

11#
 楼主 Author| 发表于 Post on 2021-10-15 17:57:03 | 只看该作者 Only view this author
补充说明:前两天有问题的时候确实是用的小体系试的,这两天持续算的是几十个原子的体系,算完后发现,无论大小体系,再设定10核以上都不报错了。

1万

帖子

0

威望

7396

eV
积分
18149

Level 6 (一方通行)

12#
发表于 Post on 2021-10-15 18:23:29 | 只看该作者 Only view this author
fengqingxue9 发表于 2021-10-15 10:54
谢谢大家,前两天只要一超过10核设定就马上报错,弄了几次也没作用,因为实在等不起,就用10核算了,这两天 ...

可能是race condition之类的问题,race condition不可重复,而且重复出来的概率不是固定的,而是这两天总是报错,过两天又总是不报错了;这台机子上有50%概率报错,那台机子上有10%概率报错,另外哪台机子上永远不报错。这种不一定是orca的bug,也可能是openmpi的bug;即便是orca的bug,修复起来也很麻烦,因为在用户机器上出现的race condition可能在orca团队内部机器上永远不出现,我们又不可能把orca源代码上传到用户机器上去调试。我们遇到过很多次用户报错在我们内部重复不出来,很难知道是因为配置不一样,硬件不一样,还是什么其他问题。
如果这种问题经常出现,可以检查一下openmpi有没有新版,如果有的话重装一下openmpi,但是解决问题的概率也比较有限。
BDF(https://bdf-manual.readthedocs.io/zh_CN/latest/Introduction.html)、ORCA(https://orcaforum.kofo.mpg.de/index.php)开发团队成员

32

帖子

0

威望

101

eV
积分
133

Level 2 能力者

13#
 楼主 Author| 发表于 Post on 2021-10-15 19:46:03 | 只看该作者 Only view this author
wzkchem5 发表于 2021-10-15 18:23
可能是race condition之类的问题,race condition不可重复,而且重复出来的概率不是固定的,而是这两天总 ...

学习了,谢谢老师的帮助

2

帖子

0

威望

62

eV
积分
64

Level 2 能力者

14#
发表于 Post on 2021-11-6 13:02:06 | 只看该作者 Only view this author
学到了,我遇到了ORCA finished by error termination in GTOInt
Calling Command: mpirun -np 10  /home/orca5.01/orca_gtoint_mpi orca1.int.tmp orca1
[file orca_tools/qcmsg.cpp, line 458]:
  .... aborting the run
的错误,真希望也能这样就好了

49

帖子

0

威望

810

eV
积分
859

Level 4 (黑子)

15#
发表于 Post on 2022-6-2 04:12:06 | 只看该作者 Only view this author
我也遇到了这个问题,刚解决完,来挖个坟
1. 如果机器上有intel oneapi,先检查是否启用了oneapi的环境变量。如果启用了,会默认调用intelmpi,就会出现上述错误
2. 编译openmpi时一定用gcc g++ 和 gfortran,虽然openmpi网站上写支持intel编译器,但亲测会出错

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-24 18:57 , Processed in 0.194542 second(s), 27 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list