计算化学公社

标题: 小白求助,超算上用VASP算SP出现报错 [打印本页]

作者
Author:
XIEH    时间: 2024-3-29 10:10
标题: 小白求助,超算上用VASP算SP出现报错
超算使用VASP计算SP时报错如下:
srun: ROUTE: split_hostlist: hl=i11r2n02 tree_width 0
srun: error: i11r2n02: task 0: Out Of Memory
srun: launch/slurm: _step_signal: Terminating StepId=9105194.0
slurmstepd: error: Detected 5 oom-kill event(s) in StepId=9105194.0 cgroup. Some of your processes may have been killed by the cgroup out-of-memory handler.
[mpiexec@i11r2n02] HYDT_bscu_wait_for_completion (../../tools/bootstrap/utils/bscu_wait.c:151): one of the processes terminated badly; aborting
[mpiexec@i11r2n02] HYDT_bsci_wait_for_completion (../../tools/bootstrap/src/bsci_wait.c:36): launcher returned error waiting for completion
[mpiexec@i11r2n02] HYD_pmci_wait_for_completion (../../pm/pmiserv/pmiserv_pmci.c:521): launcher returned error waiting for completion
[mpiexec@i11r2n02] main (../../ui/mpich/mpiexec.c:1147): process manager error waiting for completion
/opt/gridview/slurm/spool/slurmd/job9105194/slurm_script: line 18: syntax error near unexpected token `done'
/opt/gridview/slurm/spool/slurmd/job9105194/slurm_script: line 18: `done'
slurmstepd: error: Detected 5 oom-kill event(s) in StepId=9105194.batch cgroup. Some of your processes may have been killed by the cgroup out-of-memory handler.


问题起因是我在课题组服务器算DOS的过程中优化完结构算SP时出现报错,log文件里面说:
===================================================================================
=   BAD TERMINATION OF ONE OF YOUR APPLICATION PROCESSES
=   PID 101588 RUNNING AT work04
=   EXIT CODE: 9
=   CLEANING UP REMAINING PROCESSES
=   YOU CAN IGNORE THE BELOW CLEANUP MESSAGES
===================================================================================
YOUR APPLICATION TERMINATED WITH THE EXIT STRING: Killed (signal 9)
This typically refers to a problem with your application.
Please see the FAQ page for debugging suggestions



超算的报错是因为运行内存不够吗?怎么解决呢?


作者
Author:
abin    时间: 2024-3-29 10:14
Out of memory

确认硬件内存够用
确认你有权限可以使用那么多内存
在脚本中使用
  1. - M
复制代码
来申请内存
作者
Author:
XIEH    时间: 2024-3-29 16:53
abin 发表于 2024-3-29 10:14
Out of memory

确认硬件内存够用

感谢回复!

我只要在脚本里加一行
#PBS -M
就行了是吗?(不需要像高斯一样指定内存)
作者
Author:
abin    时间: 2024-3-29 19:13
XIEH 发表于 2024-3-29 16:53
感谢回复!

我只要在脚本里加一行

日志写srun
估计用的是slurm

slurm不兼容#PBS

翻一下手册吧
作者
Author:
乐平    时间: 2024-3-30 11:46
本帖最后由 乐平 于 2024-4-1 09:23 编辑
XIEH 发表于 2024-3-29 16:53
感谢回复!

我只要在脚本里加一行

slurm 脚本里,以 #SBATCH 开头的几行里添加

  1. #SBATCH --mem=XXGB
复制代码


其中,XX是数字。比如你需要调用 128 GB 的内存,那么XXX就写 128。注意,你需要先确定计算节点上有多少内存。

slurm 可以用如下命令来查看节点的详细信息

  1. scontrol show node
复制代码


在显示出来的信息里,例如 CfgTRES=cpu=40, mem=190000M,表示有 40 核,190000 MB内存,约 190 GB。根据你自己的情况设施调用的内存数大小。别照抄我的数值。

另外,根据 Open MPI 官网的介绍,建议用 mpirun -np 来跑任务,不建议用 srun,如下图所示:

(, 下载次数 Times of downloads: 7)

作者
Author:
XIEH    时间: 2024-3-31 21:38
乐平 发表于 2024-3-30 11:46
slurm 脚本里,以 #SBATCH 开头的几行里添加

感谢回复!
作者
Author:
elpa    时间: 2024-8-14 15:51
乐平 发表于 2024-3-30 11:46
slurm 脚本里,以 #SBATCH 开头的几行里添加

#SBATCH --mem=XXGB
貌似末尾可以删除字母B




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3