计算化学公社

 找回密码 Forget password
 注册 Register
Views: 782|回复 Reply: 4
打印 Print 上一主题 Last thread 下一主题 Next thread

[新手求助] slurm提交ORCA任务报错

[复制链接 Copy URL]

19

帖子

0

威望

979

eV
积分
998

Level 4 (黑子)

跳转到指定楼层 Go to specific reply
楼主
小菜鸟在超算平台的自家账户下,账户自身是普通账户,没有root权限。安装ORCA和cp2k,整个过程没有报错,正常结束。测试mpiexec -V可以正常显示openmpi版本。现在面临的问题是,在账户下,直接以10核心运行orca任务,是可以整场结束,没有报错。但是将计算任务提交到计算节点,就报错,以单核心却可以正常运行。orca报错代码如下
  1. ORCA finished by error termination in GTOInt
  2. Calling Command: mpirun -np 10  /public/home/nwnuliujc/Software/ORCA-5.0/orca_gtoint_mpi 1.int.tmp 1
  3. [file orca_tools/qcmsg.cpp, line 465]:
  4.   .... aborting the run
复制代码

而slurm错误代码如下:
  1. An ORTE daemon has unexpectedly failed after launch and before
  2. communicating back to mpirun. This could be caused by a number
  3. of factors, including an inability to create a connection back
  4. to mpirun due to a lack of common network interfaces and/or no
  5. route found between them. Please check network connectivity
  6. (including firewalls and network routing requirements).
  7. --------------------------------------------------------------------------
  8. [file orca_tools/qcmsg.cpp, line 465]:
  9.   .... aborting the run
复制代码

当时也测试了以下cp2k,直接不运行,slurm报错也如下。slurm提交脚本如下:
  1. #!/bin/bash
  2. #SBATCH -J p4
  3. #SBATCH -p high
  4. #SBATCH -N 1
  5. #SBATCH --ntasks=10
  6. #SBATCH --mem=100G
  7. #SBATCH --output=%j.out
  8. #SBATCH --error=%j.err

  9. cd ${SLURM_SUBMIT_DIR}
  10. echo ${SLURM_JOB_NODELIST}
  11. echo start on $(date)
  12. source /public/home/nwnuliujc/Software/gcc-9.3.0/env.sh
  13. /public/home/nwnuliujc/Software/ORCA-5.0/orca 1.inp > 1.out
复制代码
尝试过在bashrc中添加export OMPI_ALLOW_RUN_AS_ROOT=1,export OMPI_ALLOW_RUN_AS_ROOT_CONFIRM=1。以及添加export OMPI_MCA_btl_openib_allow_ib=1,都不行,求助应该怎么解决

68

帖子

0

威望

929

eV
积分
997

Level 4 (黑子)

2#
发表于 Post on 2024-2-15 16:40:22 | 只看该作者 Only view this author
看报错感觉是集群的问题,直接问问管理员?

19

帖子

0

威望

979

eV
积分
998

Level 4 (黑子)

3#
 楼主 Author| 发表于 Post on 2024-2-15 18:31:59 | 只看该作者 Only view this author
Strange 发表于 2024-2-15 16:40
看报错感觉是集群的问题,直接问问管理员?

好的,谢谢,等集群管理员上班了,我问一下他吧

3

帖子

0

威望

265

eV
积分
268

Level 3 能力者

4#
发表于 Post on 2024-10-24 08:45:31 | 只看该作者 Only view this author
楼主解决了吗,遇到了同样的问题

19

帖子

0

威望

979

eV
积分
998

Level 4 (黑子)

5#
 楼主 Author| 发表于 Post on 2024-10-26 16:19:46 | 只看该作者 Only view this author
JunS 发表于 2024-10-24 08:45
楼主解决了吗,遇到了同样的问题

解决了,是超算的服务器出了问题

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-27 08:46 , Processed in 0.214951 second(s), 21 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list