计算化学公社

标题: 用ORCA计算SOC的时候显示out of memory [打印本页]

作者
Author:
千面追风    时间: 2024-7-22 16:23
标题: 用ORCA计算SOC的时候显示out of memory
本帖最后由 千面追风 于 2024-7-22 19:36 编辑

如题,题主在用128核 512g内存的服务器计算SOC时出现如下报错

Building the sigma vectors                     ...
   Memory handling for direct AO based RPA:
   Memory per vector needed      ...   373 MB
   Memory needed                 ...  6714 MB
   Memory available              ...  7000 MB
   Number of vectors per batch   ...    18
   Number of batches             ...     1
--------------------------------------------------------------------------
Primary job  terminated normally, but 1 process returned
a non-zero exit code. Per user-direction, the job has been aborted.
--------------------------------------------------------------------------
--------------------------------------------------------------------------
mpirun noticed that process rank 25 with PID 13457 on node a02r08n05 exited on signal 9 (Killed).
--------------------------------------------------------------------------

ORCA finished by error termination in CIS
Calling Command: mpirun -np 32  /work/home/ysuanap125/yeesuan/software/orca_5_0_4_linux_x86-64_shared_openmpi411/orca_cis_mpi design5_SOC.cisinp.tmp design5_SOC
[file orca_tools/qcmsg.cpp, line 465]:
  .... aborting the run

[file orca_tools/qcmsg.cpp, line 465]:
  .... aborting the run

slurmstepd: error: Detected 149 oom-kill event(s) in StepId=8824917.batch. Some of your processes may have been killed by the cgroup out-of-memory handler.


inp文件已上传,用的是32核,maxcore 7000
附:试过16核 maxcore 4000,也是同样的报错信息
根据512g的内存来看不应该会出现如此的问题呀?有老师能提供一个可能的问题来源吗?

另附slurm文件



作者
Author:
wzkchem5    时间: 2024-7-22 17:48
maxcore再多增加一点。maxcore不要只比memory needed多这么点
作者
Author:
千面追风    时间: 2024-7-22 19:29
wzkchem5 发表于 2024-7-22 17:48
maxcore再多增加一点。maxcore不要只比memory needed多这么点

在我增加maxcore到12000后,显示以下报错信息
A request was made to bind to that would result in binding more
processes than cpus on a resource:

   Bind to:     CORE
   Node:        a02r05n07
   #processes:  2
   #cpus:       1

You can override this protection by adding the "overload-allowed"
option to your binding directive.
我看下来好像是因为cpu核数太少了,但是才用了32核,不应该呀?
作者
Author:
wzkchem5    时间: 2024-7-22 19:36
千面追风 发表于 2024-7-22 12:29
在我增加maxcore到12000后,显示以下报错信息
A request was made to bind to that would result in bin ...

你的节点有多少个物理核?nprocs必须小于等于物理核数,而不是逻辑核数
作者
Author:
千面追风    时间: 2024-7-22 19:40
wzkchem5 发表于 2024-7-22 19:36
你的节点有多少个物理核?nprocs必须小于等于物理核数,而不是逻辑核数

问了以下确实是“单节点128核”
作者
Author:
wzkchem5    时间: 2024-7-22 19:42
千面追风 发表于 2024-7-22 12:40
问了以下确实是“单节点128核”

同一个节点上有没有其他任务在跑,一共占用了多少个物理核?
作者
Author:
千面追风    时间: 2024-7-22 19:54
wzkchem5 发表于 2024-7-22 19:42
同一个节点上有没有其他任务在跑,一共占用了多少个物理核?

ok谢谢老师提醒,之前都没意识到同一节点会被其他用户占用
实在感谢啦!




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3