为什么PBS提交任务后一直处于等待状态

limaolin0 · 发表于 Post on 2017-5-26 00:51:12

本帖最后由 limaolin0 于 2017-5-26 00:58 编辑

折腾了几天终于把HPC装好了

，可是提交任务却出了问题，NFS已经挂载

，NIS已经同步

，PBS显示集群电脑都是free

。测试计算简单的氢气分子，为什么提交了任务还是显示在等待中呢？

真心好忧伤。。。。

PBS提交任务的脚本是参照论坛里改的

队列设置的脚本如下：

新手上路，还请大家多多关照，不胜感激

niobium · 发表于 Post on 2017-5-26 04:38:21

不太懂，但是自己的机器为什么要用PBS交作业，直接提交不就行了吗？

milkxx · 发表于 Post on 2017-5-26 09:07:49

可以安装maui，然后用checkjob等命令查看原因

limaolin0 · 发表于 Post on 2017-5-26 09:17:33

niobium 发表于 2017-5-26 04:38
不太懂，但是自己的机器为什么要用PBS交作业，直接提交不就行了吗？

这么多机子，用的人也多，方便管理啊

limaolin0 · 发表于 Post on 2017-5-26 09:21:35

milkxx 发表于 2017-5-26 09:07
可以安装maui，然后用checkjob等命令查看原因

谢谢啊，用checkjob查看了，这个怎么处理呢？

checking job 7

State: Idle  EState: Deferred
Creds:  user:lml_admin  group:lml_admin  class:A  qos:DEFAULT
WallTime: 00:00:00 of 60:00:00:00
SubmitTime: Thu May 25 12:56:10
  (Time Queued  Total: 8:21:56  Eligible: 00:00:00)

StartDate: -00:19:27  Thu May 25 20:58:39
Total Tasks: 8

Req[0]  TaskCount: 8  Partition: ALL
Network: [NONE]  Memory >= 0  Disk >= 0  Swap >= 0
Opsys: [NONE]  Arch: [NONE]  Features: [NONE]
Dedicated Resources Per Task: PROCS: 1  MEM: 2000M

IWD: [NONE]  Executable:  [NONE]
Bypass: 0  StartCount: 9
PartitionMask: [ALL]
Flags:    RESTARTABLE

job is deferred.  Reason:  RMFailure  (cannot start job - RM failure, rc: 15043, msg: 'Execution server rejected request MSG=cannot send job to mom, state=PRERUN')
Holds: Defer  (hold reason:  RMFailure)
PE:  8.93  StartPriority:  19
cannot select job 7 for partition DEFAULT (job hold active)

wuy069 · 发表于 Post on 2017-5-26 10:38:12

把计算节点重启下，其实只用重启计算节点的pbs_mom服务就行，然后在管理节点asymm上重启maui服务应该就好了

limaolin0 · 发表于 Post on 2017-5-26 11:26:10

wuy069 发表于 2017-5-26 10:38
把计算节点重启下，其实只用重启计算节点的pbs_mom服务就行，然后在管理节点asymm上重启maui服务应该就好了

在每个计算节点上service pbs_mom start
在管理节点上service maui start

可是还是报告同样的错误，应该不是pbs_mom的问题，
看这个语句“Execution server rejected request”
是不是计算节点拒绝接收管理节点的命令的意思啊？
网上有说是防火墙的原因，可是我的防火墙都是关了的啊？
Failed to stop firewalld.service: Unit firewalld.service not loaded.

limaolin0 · 发表于 Post on 2017-5-26 11:49:55

wuy069 发表于 2017-5-26 10:38
把计算节点重启下，其实只用重启计算节点的pbs_mom服务就行，然后在管理节点asymm上重启maui服务应该就好了

谢谢你，问题已经解决，应该是我的防火墙设置除了问题。
我在所有的节点上运行iptables -F 和iptables -X删除所有的chain
文件可以被分配到asymm8上进行计算，也可以结束，但是又出现了新的错误。
系统发了一封邮件 You have new mail in /var/spool/mail/lml_admin
打开如下：
Return-Path: <adm@asymm.localdomain>
X-Original-To: lml_admin@asymm
Delivered-To: lml_admin@asymm.localdomain
Received: by asymm.localdomain (Postfix, from userid 0)
id 2658B4A6C91E; Fri, 26 May 2017 11:34:50 +0800 (CST)
To: lml_admin@asymm.localdomain
Subject: PBS JOB 10.asymm
Precedence: bulk
Message-Id: <20170526033450.2658B4A6C91E@asymm.localdomain>
Date: Fri, 26 May 2017 11:34:50 +0800 (CST)
From: adm@asymm.localdomain (root)

PBS Job Id: 10.asymm
Job Name: H2
Exec host: asymm8/0+asymm8/1+asymm8/2+asymm8/3+asymm8/4+asymm8/5+asymm8/6+asymm8/7
An error has occurred processing your job, see below.
Post job file processing error; job 10.asymm on host asymm8/0+asymm8/1+asymm8/2+asymm8/3+asymm8/4+asymm8/5+asymm8/6+asymm8/7

Unable to copy file /opt/pbs/dispatcher/spool/10.asymm.OU to lml_admin@asymm:/home/lml_admin/job.log, error 1

wuy069 · 发表于 Post on 2017-5-26 15:29:53

limaolin0 发表于 2017-5-26 11:49
谢谢你，问题已经解决，应该是我的防火墙设置除了问题。
我在所有的节点上运行iptables -F 和iptables - ...

才看见，不好意思。集群，计算节点的防火墙一般都是关闭的，不用开

limaolin0 · 发表于 Post on 2017-5-26 16:42:00

wuy069 发表于 2017-5-26 15:29
才看见，不好意思。集群，计算节点的防火墙一般都是关闭的，不用开

谢谢啊

，那知道新出现的这个问题是怎么回事吗？是不是文件夹或者账户权限不对导致的？

旺旺雪饼 · 发表于 Post on 2018-7-19 20:36:30

limaolin0 发表于 2017-5-26 11:26
在每个计算节点上service pbs_mom start
在管理节点上service maui start

你好，我想问一下在计算节点上service pbs_mom start没有问题，在管理节点上service maui start出现maui: unrecognized service，您知道这是为什么吗？我用qsub提交好任务显示E，然后就没了

ncepu012 · 发表于 Post on 2024-3-1 11:04:49

旺旺雪饼发表于 2018-7-19 20:36
你好，我想问一下在计算节点上service pbs_mom start没有问题，在管理节点上service maui start出现maui: ...

解决了吗？我现在也遇到这个问题了

dtsfz · 发表于 Post on 2025-6-4 02:15:40

我最近也出现了类似的问题。我出现这种情况都伴随着集群内某个节点异常（可以ping通，但是无法ssh登录），在我手动删除这个异常节点，并重启主节点服务后，就出现了这个报错。

		自动登录 Automatic login	找回密码 Forget password
密码 Password			注册 Register

[集群维护] 为什么PBS提交任务后一直处于等待状态

浏览过的版块