计算化学公社

 找回密码 Forget password
 注册 Register
Views: 2810|回复 Reply: 6
打印 Print 上一主题 Last thread 下一主题 Next thread

[VASP] 小白求助,超算上用VASP算SP出现报错

[复制链接 Copy URL]

95

帖子

0

威望

395

eV
积分
490

Level 3 能力者

超算使用VASP计算SP时报错如下:
srun: ROUTE: split_hostlist: hl=i11r2n02 tree_width 0
srun: error: i11r2n02: task 0: Out Of Memory
srun: launch/slurm: _step_signal: Terminating StepId=9105194.0
slurmstepd: error: Detected 5 oom-kill event(s) in StepId=9105194.0 cgroup. Some of your processes may have been killed by the cgroup out-of-memory handler.
[mpiexec@i11r2n02] HYDT_bscu_wait_for_completion (../../tools/bootstrap/utils/bscu_wait.c:151): one of the processes terminated badly; aborting
[mpiexec@i11r2n02] HYDT_bsci_wait_for_completion (../../tools/bootstrap/src/bsci_wait.c:36): launcher returned error waiting for completion
[mpiexec@i11r2n02] HYD_pmci_wait_for_completion (../../pm/pmiserv/pmiserv_pmci.c:521): launcher returned error waiting for completion
[mpiexec@i11r2n02] main (../../ui/mpich/mpiexec.c:1147): process manager error waiting for completion
/opt/gridview/slurm/spool/slurmd/job9105194/slurm_script: line 18: syntax error near unexpected token `done'
/opt/gridview/slurm/spool/slurmd/job9105194/slurm_script: line 18: `done'
slurmstepd: error: Detected 5 oom-kill event(s) in StepId=9105194.batch cgroup. Some of your processes may have been killed by the cgroup out-of-memory handler.


问题起因是我在课题组服务器算DOS的过程中优化完结构算SP时出现报错,log文件里面说:
===================================================================================
=   BAD TERMINATION OF ONE OF YOUR APPLICATION PROCESSES
=   PID 101588 RUNNING AT work04
=   EXIT CODE: 9
=   CLEANING UP REMAINING PROCESSES
=   YOU CAN IGNORE THE BELOW CLEANUP MESSAGES
===================================================================================
YOUR APPLICATION TERMINATED WITH THE EXIT STRING: Killed (signal 9)
This typically refers to a problem with your application.
Please see the FAQ page for debugging suggestions



超算的报错是因为运行内存不够吗?怎么解决呢?

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

2#
发表于 Post on 2024-3-29 10:14:49 | 只看该作者 Only view this author
Out of memory

确认硬件内存够用
确认你有权限可以使用那么多内存
在脚本中使用
  1. - M
复制代码
来申请内存
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

95

帖子

0

威望

395

eV
积分
490

Level 3 能力者

3#
 楼主 Author| 发表于 Post on 2024-3-29 16:53:41 | 只看该作者 Only view this author
abin 发表于 2024-3-29 10:14
Out of memory

确认硬件内存够用

感谢回复!

我只要在脚本里加一行
#PBS -M
就行了是吗?(不需要像高斯一样指定内存)

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

4#
发表于 Post on 2024-3-29 19:13:04 | 只看该作者 Only view this author
XIEH 发表于 2024-3-29 16:53
感谢回复!

我只要在脚本里加一行

日志写srun
估计用的是slurm

slurm不兼容#PBS

翻一下手册吧
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

1060

帖子

0

威望

3256

eV
积分
4316

Level 6 (一方通行)

5#
发表于 Post on 2024-3-30 11:46:02 | 只看该作者 Only view this author
本帖最后由 乐平 于 2024-4-1 09:23 编辑
XIEH 发表于 2024-3-29 16:53
感谢回复!

我只要在脚本里加一行

slurm 脚本里,以 #SBATCH 开头的几行里添加

  1. #SBATCH --mem=XXGB
复制代码


其中,XX是数字。比如你需要调用 128 GB 的内存,那么XXX就写 128。注意,你需要先确定计算节点上有多少内存。

slurm 可以用如下命令来查看节点的详细信息

  1. scontrol show node
复制代码


在显示出来的信息里,例如 CfgTRES=cpu=40, mem=190000M,表示有 40 核,190000 MB内存,约 190 GB。根据你自己的情况设施调用的内存数大小。别照抄我的数值。

另外,根据 Open MPI 官网的介绍,建议用 mpirun -np 来跑任务,不建议用 srun,如下图所示:


95

帖子

0

威望

395

eV
积分
490

Level 3 能力者

6#
 楼主 Author| 发表于 Post on 2024-3-31 21:38:44 | 只看该作者 Only view this author
乐平 发表于 2024-3-30 11:46
slurm 脚本里,以 #SBATCH 开头的几行里添加

感谢回复!

80

帖子

0

威望

895

eV
积分
975

Level 4 (黑子)

7#
发表于 Post on 2024-8-14 15:51:25 | 只看该作者 Only view this author
乐平 发表于 2024-3-30 11:46
slurm 脚本里,以 #SBATCH 开头的几行里添加

#SBATCH --mem=XXGB
貌似末尾可以删除字母B
cp2k QMMM

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-24 06:23 , Processed in 0.245623 second(s), 24 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list