计算化学公社

 找回密码 Forget password
 注册 Register
Views: 442|回复 Reply: 6
打印 Print 上一主题 Last thread 下一主题 Next thread

[ORCA] 用ORCA计算SOC的时候显示out of memory

[复制链接 Copy URL]

33

帖子

0

威望

55

eV
积分
88

Level 2 能力者

跳转到指定楼层 Go to specific reply
楼主
本帖最后由 千面追风 于 2024-7-22 19:36 编辑

如题,题主在用128核 512g内存的服务器计算SOC时出现如下报错

Building the sigma vectors                     ...
   Memory handling for direct AO based RPA:
   Memory per vector needed      ...   373 MB
   Memory needed                 ...  6714 MB
   Memory available              ...  7000 MB
   Number of vectors per batch   ...    18
   Number of batches             ...     1
--------------------------------------------------------------------------
Primary job  terminated normally, but 1 process returned
a non-zero exit code. Per user-direction, the job has been aborted.
--------------------------------------------------------------------------
--------------------------------------------------------------------------
mpirun noticed that process rank 25 with PID 13457 on node a02r08n05 exited on signal 9 (Killed).
--------------------------------------------------------------------------

ORCA finished by error termination in CIS
Calling Command: mpirun -np 32  /work/home/ysuanap125/yeesuan/software/orca_5_0_4_linux_x86-64_shared_openmpi411/orca_cis_mpi design5_SOC.cisinp.tmp design5_SOC
[file orca_tools/qcmsg.cpp, line 465]:
  .... aborting the run

[file orca_tools/qcmsg.cpp, line 465]:
  .... aborting the run

slurmstepd: error: Detected 149 oom-kill event(s) in StepId=8824917.batch. Some of your processes may have been killed by the cgroup out-of-memory handler.


inp文件已上传,用的是32核,maxcore 7000
附:试过16核 maxcore 4000,也是同样的报错信息
根据512g的内存来看不应该会出现如此的问题呀?有老师能提供一个可能的问题来源吗?

另附slurm文件


design5_SOC.inp

12.56 KB, 下载次数 Times of downloads: 2

orca.slurm

571 Bytes, 下载次数 Times of downloads: 0

1万

帖子

0

威望

7393

eV
积分
18146

Level 6 (一方通行)

2#
发表于 Post on 2024-7-22 17:48:53 | 只看该作者 Only view this author
maxcore再多增加一点。maxcore不要只比memory needed多这么点
BDF(https://bdf-manual.readthedocs.io/zh_CN/latest/Introduction.html)、ORCA(https://orcaforum.kofo.mpg.de/index.php)开发团队成员

33

帖子

0

威望

55

eV
积分
88

Level 2 能力者

3#
 楼主 Author| 发表于 Post on 2024-7-22 19:29:35 | 只看该作者 Only view this author
wzkchem5 发表于 2024-7-22 17:48
maxcore再多增加一点。maxcore不要只比memory needed多这么点

在我增加maxcore到12000后,显示以下报错信息
A request was made to bind to that would result in binding more
processes than cpus on a resource:

   Bind to:     CORE
   Node:        a02r05n07
   #processes:  2
   #cpus:       1

You can override this protection by adding the "overload-allowed"
option to your binding directive.
我看下来好像是因为cpu核数太少了,但是才用了32核,不应该呀?

1万

帖子

0

威望

7393

eV
积分
18146

Level 6 (一方通行)

4#
发表于 Post on 2024-7-22 19:36:21 | 只看该作者 Only view this author
千面追风 发表于 2024-7-22 12:29
在我增加maxcore到12000后,显示以下报错信息
A request was made to bind to that would result in bin ...

你的节点有多少个物理核?nprocs必须小于等于物理核数,而不是逻辑核数
BDF(https://bdf-manual.readthedocs.io/zh_CN/latest/Introduction.html)、ORCA(https://orcaforum.kofo.mpg.de/index.php)开发团队成员

33

帖子

0

威望

55

eV
积分
88

Level 2 能力者

5#
 楼主 Author| 发表于 Post on 2024-7-22 19:40:09 | 只看该作者 Only view this author
wzkchem5 发表于 2024-7-22 19:36
你的节点有多少个物理核?nprocs必须小于等于物理核数,而不是逻辑核数

问了以下确实是“单节点128核”

1万

帖子

0

威望

7393

eV
积分
18146

Level 6 (一方通行)

6#
发表于 Post on 2024-7-22 19:42:41 | 只看该作者 Only view this author
千面追风 发表于 2024-7-22 12:40
问了以下确实是“单节点128核”

同一个节点上有没有其他任务在跑,一共占用了多少个物理核?
BDF(https://bdf-manual.readthedocs.io/zh_CN/latest/Introduction.html)、ORCA(https://orcaforum.kofo.mpg.de/index.php)开发团队成员

33

帖子

0

威望

55

eV
积分
88

Level 2 能力者

7#
 楼主 Author| 发表于 Post on 2024-7-22 19:54:42 | 只看该作者 Only view this author
wzkchem5 发表于 2024-7-22 19:42
同一个节点上有没有其他任务在跑,一共占用了多少个物理核?

ok谢谢老师提醒,之前都没意识到同一节点会被其他用户占用
实在感谢啦!

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-24 05:26 , Processed in 0.257750 second(s), 25 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list