计算化学公社

标题: 为什么PBS提交任务后一直处于等待状态 [打印本页]

作者
Author:
limaolin0    时间: 2017-5-26 00:51
标题: 为什么PBS提交任务后一直处于等待状态
本帖最后由 limaolin0 于 2017-5-26 00:58 编辑

折腾了几天终于把HPC装好了,可是提交任务却出了问题,NFS已经挂载,NIS已经同步,PBS显示集群电脑都是free。测试计算简单的氢气分子,为什么提交了任务还是显示在等待中呢?真心好忧伤。。。。
(, 下载次数 Times of downloads: 111)
(, 下载次数 Times of downloads: 95)
PBS提交任务的脚本是参照论坛里改的
(, 下载次数 Times of downloads: 92)
队列设置的脚本如下:
(, 下载次数 Times of downloads: 98)
新手上路,还请大家多多关照,不胜感激


作者
Author:
niobium    时间: 2017-5-26 04:38
不太懂,但是自己的机器为什么要用PBS交作业,直接提交不就行了吗?
作者
Author:
milkxx    时间: 2017-5-26 09:07
可以安装maui,然后用checkjob等命令 查看原因
作者
Author:
limaolin0    时间: 2017-5-26 09:17
niobium 发表于 2017-5-26 04:38
不太懂,但是自己的机器为什么要用PBS交作业,直接提交不就行了吗?

这么多机子,用的人也多,方便管理啊
作者
Author:
limaolin0    时间: 2017-5-26 09:21
milkxx 发表于 2017-5-26 09:07
可以安装maui,然后用checkjob等命令 查看原因

谢谢啊,用checkjob查看了,这个怎么处理呢?

checking job 7

State: Idle  EState: Deferred
Creds:  user:lml_admin  group:lml_admin  class:A  qos:DEFAULT
WallTime: 00:00:00 of 60:00:00:00
SubmitTime: Thu May 25 12:56:10
  (Time Queued  Total: 8:21:56  Eligible: 00:00:00)

StartDate: -00:19:27  Thu May 25 20:58:39
Total Tasks: 8

Req[0]  TaskCount: 8  Partition: ALL
Network: [NONE]  Memory >= 0  Disk >= 0  Swap >= 0
Opsys: [NONE]  Arch: [NONE]  Features: [NONE]
Dedicated Resources Per Task: PROCS: 1  MEM: 2000M


IWD: [NONE]  Executable:  [NONE]
Bypass: 0  StartCount: 9
PartitionMask: [ALL]
Flags:       RESTARTABLE

job is deferred.  Reason:  RMFailure  (cannot start job - RM failure, rc: 15043, msg: 'Execution server rejected request MSG=cannot send job to mom, state=PRERUN')
Holds:    Defer  (hold reason:  RMFailure)

PE:  8.93  StartPriority:  19
cannot select job 7 for partition DEFAULT (job hold active)

作者
Author:
wuy069    时间: 2017-5-26 10:38
把计算节点重启下,其实只用重启计算节点的pbs_mom服务就行,然后在管理节点asymm上重启maui服务应该就好了
作者
Author:
limaolin0    时间: 2017-5-26 11:26
wuy069 发表于 2017-5-26 10:38
把计算节点重启下,其实只用重启计算节点的pbs_mom服务就行,然后在管理节点asymm上重启maui服务应该就好了

在每个计算节点上service pbs_mom start
在管理节点上service maui start

可是还是报告同样的错误,应该不是pbs_mom的问题,
看这个语句“Execution server rejected request”
是不是计算节点拒绝接收管理节点的命令的意思啊?
网上有说是防火墙的原因,可是我的防火墙都是关了的啊?
Failed to stop firewalld.service: Unit firewalld.service not loaded.



作者
Author:
limaolin0    时间: 2017-5-26 11:49
wuy069 发表于 2017-5-26 10:38
把计算节点重启下,其实只用重启计算节点的pbs_mom服务就行,然后在管理节点asymm上重启maui服务应该就好了

谢谢你,问题已经解决,应该是我的防火墙设置除了问题。
我在所有的节点上运行iptables -F 和iptables -X删除所有的chain
文件可以被分配到asymm8上进行计算,也可以结束,但是又出现了新的错误。
系统发了一封邮件 You have new mail in /var/spool/mail/lml_admin
打开如下:
Return-Path: <adm@asymm.localdomain>
X-Original-To: lml_admin@asymm
Delivered-To: lml_admin@asymm.localdomain
Received: by asymm.localdomain (Postfix, from userid 0)
        id 2658B4A6C91E; Fri, 26 May 2017 11:34:50 +0800 (CST)
To: lml_admin@asymm.localdomain
Subject: PBS JOB 10.asymm
Precedence: bulk
Message-Id: <20170526033450.2658B4A6C91E@asymm.localdomain>
Date: Fri, 26 May 2017 11:34:50 +0800 (CST)
From: adm@asymm.localdomain (root)

PBS Job Id: 10.asymm
Job Name:   H2
Exec host:  asymm8/0+asymm8/1+asymm8/2+asymm8/3+asymm8/4+asymm8/5+asymm8/6+asymm8/7
An error has occurred processing your job, see below.
Post job file processing error; job 10.asymm on host asymm8/0+asymm8/1+asymm8/2+asymm8/3+asymm8/4+asymm8/5+asymm8/6+asymm8/7

Unable to copy file /opt/pbs/dispatcher/spool/10.asymm.OU to lml_admin@asymm:/home/lml_admin/job.log, error 1




作者
Author:
wuy069    时间: 2017-5-26 15:29
limaolin0 发表于 2017-5-26 11:49
谢谢你,问题已经解决,应该是我的防火墙设置除了问题。
我在所有的节点上运行iptables -F 和iptables - ...

才看见,不好意思。集群,计算节点的防火墙一般都是关闭的,不用开
作者
Author:
limaolin0    时间: 2017-5-26 16:42
wuy069 发表于 2017-5-26 15:29
才看见,不好意思。集群,计算节点的防火墙一般都是关闭的,不用开

谢谢啊,那知道新出现的这个问题是怎么回事吗?是不是文件夹或者账户权限不对导致的?
作者
Author:
旺旺雪饼    时间: 2018-7-19 20:36
limaolin0 发表于 2017-5-26 11:26
在每个计算节点上service pbs_mom start
在管理节点上service maui start

你好,我想问一下在计算节点上service pbs_mom start没有问题,在管理节点上service maui start出现maui: unrecognized service,您知道这是为什么吗?我用qsub提交好任务显示E,然后就没了
作者
Author:
ncepu012    时间: 2024-3-1 11:04
旺旺雪饼 发表于 2018-7-19 20:36
你好,我想问一下在计算节点上service pbs_mom start没有问题,在管理节点上service maui start出现maui: ...

解决了吗?我现在也遇到这个问题了




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3