计算化学公社

标题: 如何删除死了的进程(running state)? [打印本页]

作者
Author:
beyond    时间: 2019-7-23 18:26
标题: 如何删除死了的进程(running state)?
本帖最后由 beyond 于 2019-7-25 18:33 编辑

在组里的一个cluster上面做分析,每个节点上有40个cores, 然后就每个节点上提交了30个任务,就是一些shell & python计算,
然后发现脚本有误,取消任务又重新提交, 可能是在这个过程中产生了dead process。

登录到节点,使用kill -9 也杀不了进程,不知道各位有什么好的方法吗?谢谢!

-------------------


现在的这个node, ssh也连不上了: ssh_exchange_identification: read: Connection reset by peer

查看了/etc/下的hosts.allow 与hosts.deny, 并没有看到什么限制。
我试了一下ping 这个node的IP, 也能ping通,就是ssh连不上。

有谁遇到过吗? 谢谢!


作者
Author:
biogon    时间: 2019-7-25 12:09
root账户下试下看能杀不
作者
Author:
beyond    时间: 2019-7-25 18:28
biogon 发表于 2019-7-25 12:09
root账户下试下看能杀不

就是在root权限下执行的
作者
Author:
biogon    时间: 2019-7-26 19:33
beyond 发表于 2019-7-25 18:28
就是在root权限下执行的

有父进程吗,要是SSH都连不上了就重启试试看吧
作者
Author:
beyond    时间: 2019-7-27 00:34
biogon 发表于 2019-7-26 19:33
有父进程吗,要是SSH都连不上了就重启试试看吧

谢谢,后来重启好了
作者
Author:
biogon    时间: 2019-7-28 17:28
beyond 发表于 2019-7-27 00:34
谢谢,后来重启好了

看来重启基本能解决大部分问题




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3