计算化学公社

标题: linux登陆不了或登陆后输命令没反应 [打印本页]

作者
Author:
drizzt    时间: 2022-10-10 09:46
标题: linux登陆不了或登陆后输命令没反应
    不知道怎么回事这段时间总是前一天提交任务,第二天过来登陆不进去,或者登陆进去输命令卡住不动,最后只能重启。但重启后又正常了。有谁遇到过这种情况吗?[url=]图片 Image[/url]
作者
Author:
sobereva    时间: 2022-10-10 14:23
top看看当前任务运行状态,并且注意是跑着任务的时候登录进去时有这种问题,还是没任务在跑的时候也有这种问题。前者的话有可能是资源都被任务占了导致响应过慢
作者
Author:
drizzt    时间: 2022-10-10 15:55
sobereva 发表于 2022-10-10 14:23
top看看当前任务运行状态,并且注意是跑着任务的时候登录进去时有这种问题,还是没任务在跑的时候也有这种 ...

Top的时候看到任务还在,但是cd命令都用不了,文件夹也只能打开一部分。我挂了几个网站也网页打不开,不知道是不是PBS的问题。可能是任务占用,但我52核只用了5个8核任务,%CPU都是1600,正常时候也是这个值
作者
Author:
abin    时间: 2022-10-10 20:48
drizzt 发表于 2022-10-10 15:55
Top的时候看到任务还在,但是cd命令都用不了,文件夹也只能打开一部分。我挂了几个网站也网页打不开,不 ...

看你的描述,应该是你的pbs 配置错误,
或者使用错误,
导致机器过载。

过载之后,当然效率奇差,相应贼慢。

简单说,top,看右上角的数。
如果52核心,负载数据在110属于正常,
或者56左右,如果没有开超线程的话。

超过此数据,就是明显过载。

如果五个任务,每一个都是1600%,
也就是开了5个16核心计算,
那么机器负载可能是80~90,是过载状态。

你的机器,可能是52个物理核心?

也许你是超线程受害者?

我坚信,是调度器使用错误或者配置错误。
作者
Author:
drizzt    时间: 2022-10-11 08:40
abin 发表于 2022-10-10 20:48
看你的描述,应该是你的pbs 配置错误,
或者使用错误,
导致机器过载。

有点懂了. 我gjf配置里写的16核,通过pbs配置#PBS -l nodes=1:ppn=8 来设置,我一直以为通过ppn=8或16 pbs会自动选择核数。这样说来就是gjf配置优先吧,那ppn配置有啥用呢?
作者
Author:
drizzt    时间: 2022-10-11 08:50
就是qstat -a 里面TSK是8,我以为就是8核工作,看top的意思还是16核的
作者
Author:
abin    时间: 2022-10-11 10:25
如果你正确使用调度器,
那么申请了八个核心,
是不可能超过申请额度的。

搞不定pbs的话,
换用slurm 吧……

作者
Author:
drizzt    时间: 2022-10-11 11:15
abin 发表于 2022-10-11 10:25
如果你正确使用调度器,
那么申请了八个核心,
是不可能超过申请额度的。

嗯,谢谢,知道原因就好了,换slurm麻烦,我直接改gjf文件了
作者
Author:
abin    时间: 2022-10-11 11:32
本帖最后由 abin 于 2022-10-11 11:37 编辑
drizzt 发表于 2022-10-11 11:15
嗯,谢谢,知道原因就好了,换slurm麻烦,我直接改gjf文件了

如有开启超线程, 那么关闭.

比如我,
在机器上定义了高斯的脚本,
判定机器名和处理器, 直接改掉作业中的核心和内存设定.

以免被某些莫名其妙的操作, 祸害了其他的计算任务.

仅供参考.


补充一下,
我见过一个机器,
64个核心,
学生说, 机器卡爆了, 然后找我解决.
我看了下, load average, 1700多.....

机器没死, 真厉害呀.





欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3