计算化学公社

 找回密码 Forget password
 注册 Register
Views: 13935|回复 Reply: 11
打印 Print 上一主题 Last thread 下一主题 Next thread

[集群维护] 为什么PBS提交任务后一直处于等待状态

[复制链接 Copy URL]

54

帖子

3

威望

9350

eV
积分
9464

Level 6 (一方通行)

本帖最后由 limaolin0 于 2017-5-26 00:58 编辑

折腾了几天终于把HPC装好了,可是提交任务却出了问题,NFS已经挂载,NIS已经同步,PBS显示集群电脑都是free。测试计算简单的氢气分子,为什么提交了任务还是显示在等待中呢?真心好忧伤。。。。


PBS提交任务的脚本是参照论坛里改的

队列设置的脚本如下:

新手上路,还请大家多多关照,不胜感激

516

帖子

1

威望

5052

eV
积分
5588

Level 6 (一方通行)

2#
发表于 Post on 2017-5-26 04:38:21 | 只看该作者 Only view this author
不太懂,但是自己的机器为什么要用PBS交作业,直接提交不就行了吗?

81

帖子

0

威望

1023

eV
积分
1104

Level 4 (黑子)

3#
发表于 Post on 2017-5-26 09:07:49 | 只看该作者 Only view this author
可以安装maui,然后用checkjob等命令 查看原因

54

帖子

3

威望

9350

eV
积分
9464

Level 6 (一方通行)

4#
 楼主 Author| 发表于 Post on 2017-5-26 09:17:33 | 只看该作者 Only view this author
niobium 发表于 2017-5-26 04:38
不太懂,但是自己的机器为什么要用PBS交作业,直接提交不就行了吗?

这么多机子,用的人也多,方便管理啊

54

帖子

3

威望

9350

eV
积分
9464

Level 6 (一方通行)

5#
 楼主 Author| 发表于 Post on 2017-5-26 09:21:35 | 只看该作者 Only view this author
milkxx 发表于 2017-5-26 09:07
可以安装maui,然后用checkjob等命令 查看原因

谢谢啊,用checkjob查看了,这个怎么处理呢?

checking job 7

State: Idle  EState: Deferred
Creds:  user:lml_admin  group:lml_admin  class:A  qos:DEFAULT
WallTime: 00:00:00 of 60:00:00:00
SubmitTime: Thu May 25 12:56:10
  (Time Queued  Total: 8:21:56  Eligible: 00:00:00)

StartDate: -00:19:27  Thu May 25 20:58:39
Total Tasks: 8

Req[0]  TaskCount: 8  Partition: ALL
Network: [NONE]  Memory >= 0  Disk >= 0  Swap >= 0
Opsys: [NONE]  Arch: [NONE]  Features: [NONE]
Dedicated Resources Per Task: PROCS: 1  MEM: 2000M


IWD: [NONE]  Executable:  [NONE]
Bypass: 0  StartCount: 9
PartitionMask: [ALL]
Flags:       RESTARTABLE

job is deferred.  Reason:  RMFailure  (cannot start job - RM failure, rc: 15043, msg: 'Execution server rejected request MSG=cannot send job to mom, state=PRERUN')
Holds:    Defer  (hold reason:  RMFailure)

PE:  8.93  StartPriority:  19
cannot select job 7 for partition DEFAULT (job hold active)

51

帖子

0

威望

2390

eV
积分
2441

Level 5 (御坂)

6#
发表于 Post on 2017-5-26 10:38:12 | 只看该作者 Only view this author
把计算节点重启下,其实只用重启计算节点的pbs_mom服务就行,然后在管理节点asymm上重启maui服务应该就好了

54

帖子

3

威望

9350

eV
积分
9464

Level 6 (一方通行)

7#
 楼主 Author| 发表于 Post on 2017-5-26 11:26:10 | 只看该作者 Only view this author
wuy069 发表于 2017-5-26 10:38
把计算节点重启下,其实只用重启计算节点的pbs_mom服务就行,然后在管理节点asymm上重启maui服务应该就好了

在每个计算节点上service pbs_mom start
在管理节点上service maui start

可是还是报告同样的错误,应该不是pbs_mom的问题,
看这个语句“Execution server rejected request”
是不是计算节点拒绝接收管理节点的命令的意思啊?
网上有说是防火墙的原因,可是我的防火墙都是关了的啊?
Failed to stop firewalld.service: Unit firewalld.service not loaded.


54

帖子

3

威望

9350

eV
积分
9464

Level 6 (一方通行)

8#
 楼主 Author| 发表于 Post on 2017-5-26 11:49:55 | 只看该作者 Only view this author
wuy069 发表于 2017-5-26 10:38
把计算节点重启下,其实只用重启计算节点的pbs_mom服务就行,然后在管理节点asymm上重启maui服务应该就好了

谢谢你,问题已经解决,应该是我的防火墙设置除了问题。
我在所有的节点上运行iptables -F 和iptables -X删除所有的chain
文件可以被分配到asymm8上进行计算,也可以结束,但是又出现了新的错误。
系统发了一封邮件 You have new mail in /var/spool/mail/lml_admin
打开如下:
Return-Path: <adm@asymm.localdomain>
X-Original-To: lml_admin@asymm
Delivered-To: lml_admin@asymm.localdomain
Received: by asymm.localdomain (Postfix, from userid 0)
        id 2658B4A6C91E; Fri, 26 May 2017 11:34:50 +0800 (CST)
To: lml_admin@asymm.localdomain
Subject: PBS JOB 10.asymm
Precedence: bulk
Message-Id: <20170526033450.2658B4A6C91E@asymm.localdomain>
Date: Fri, 26 May 2017 11:34:50 +0800 (CST)
From: adm@asymm.localdomain (root)

PBS Job Id: 10.asymm
Job Name:   H2
Exec host:  asymm8/0+asymm8/1+asymm8/2+asymm8/3+asymm8/4+asymm8/5+asymm8/6+asymm8/7
An error has occurred processing your job, see below.
Post job file processing error; job 10.asymm on host asymm8/0+asymm8/1+asymm8/2+asymm8/3+asymm8/4+asymm8/5+asymm8/6+asymm8/7

Unable to copy file /opt/pbs/dispatcher/spool/10.asymm.OU to lml_admin@asymm:/home/lml_admin/job.log, error 1



51

帖子

0

威望

2390

eV
积分
2441

Level 5 (御坂)

9#
发表于 Post on 2017-5-26 15:29:53 | 只看该作者 Only view this author
limaolin0 发表于 2017-5-26 11:49
谢谢你,问题已经解决,应该是我的防火墙设置除了问题。
我在所有的节点上运行iptables -F 和iptables - ...

才看见,不好意思。集群,计算节点的防火墙一般都是关闭的,不用开

54

帖子

3

威望

9350

eV
积分
9464

Level 6 (一方通行)

10#
 楼主 Author| 发表于 Post on 2017-5-26 16:42:00 | 只看该作者 Only view this author
wuy069 发表于 2017-5-26 15:29
才看见,不好意思。集群,计算节点的防火墙一般都是关闭的,不用开

谢谢啊,那知道新出现的这个问题是怎么回事吗?是不是文件夹或者账户权限不对导致的?

73

帖子

0

威望

1112

eV
积分
1185

Level 4 (黑子)

11#
发表于 Post on 2018-7-19 20:36:30 | 只看该作者 Only view this author
limaolin0 发表于 2017-5-26 11:26
在每个计算节点上service pbs_mom start
在管理节点上service maui start

你好,我想问一下在计算节点上service pbs_mom start没有问题,在管理节点上service maui start出现maui: unrecognized service,您知道这是为什么吗?我用qsub提交好任务显示E,然后就没了

11

帖子

0

威望

137

eV
积分
148

Level 2 能力者

12#
发表于 Post on 2024-3-1 11:04:49 | 只看该作者 Only view this author
旺旺雪饼 发表于 2018-7-19 20:36
你好,我想问一下在计算节点上service pbs_mom start没有问题,在管理节点上service maui start出现maui: ...

解决了吗?我现在也遇到这个问题了

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 12:11 , Processed in 0.226680 second(s), 24 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list