计算化学公社

 找回密码 Forget password
 注册 Register
Views: 647|回复 Reply: 5
打印 Print 上一主题 Last thread 下一主题 Next thread

[Linux] linux断电后重启卡死无法登陆

[复制链接 Copy URL]

73

帖子

0

威望

633

eV
积分
706

Level 4 (黑子)

本帖最后由 火车头 于 2023-4-13 21:45 编辑

前两天学校断电,可能因为服务器ups电源不够断电关机后重启报如下图错误。正常使用一天后主节点SSH登陆无法连接,机房kvm登陆界面卡在下图所示位置,有时能进入输密码界面,但输入无反应。此时只能物理开关重启服务器;此后又能正常使用1天(非严格24小时);反复第五天了,这一现象还是没有消失。计算节点没有影响,计算任务还在跑。还发现的其他问题是:yum命令无法使用;火狐浏览器无法打开。
联系了服务器售后检查说是没有硬件报错,只能重装系统解决。但重装系统对服务器太麻烦,不知有没有其他解决方案,还望大佬赐教。


217c5586610563477c06c80c64a41f2.jpg (974.73 KB, 下载次数 Times of downloads: 13)

报错

报错

37c0a45294a3401d0c8f133214452f1.jpg (354.28 KB, 下载次数 Times of downloads: 13)

卡死界面1

卡死界面1

400f4fce3afc4e1e4df3e778b682c79.jpg (360.66 KB, 下载次数 Times of downloads: 13)

卡死界面2

卡死界面2

屏幕截图 2023-04-13 214110.png (18.55 KB, 下载次数 Times of downloads: 13)

yum无法使用

yum无法使用

2302

帖子

1

威望

5481

eV
积分
7803

Level 6 (一方通行)

6#
发表于 Post on 2023-4-14 17:51:34 | 只看该作者 Only view this author
火车头 发表于 2023-4-14 16:41
您说的重装指的是硬盘拆下来重新装一遍?

我所谓的拆了重装,
指的是,
不考虑既有的东西,
直接重新做集群。

不晓得之前的集群如何做的,
重做之后,是否会掉数据,或者作业日志,
不好评价。

盲猜,是阵列卡缓存问题……

故障原因基本明确了……

你能处理就处理……处理不了就拆了重新初始化硬件呗……

High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

73

帖子

0

威望

633

eV
积分
706

Level 4 (黑子)

5#
 楼主 Author| 发表于 Post on 2023-4-14 16:41:11 | 只看该作者 Only view this author
abin 发表于 2023-4-14 16:25
不用重做系统呀!

我大概能处理……

您说的重装指的是硬盘拆下来重新装一遍?

2302

帖子

1

威望

5481

eV
积分
7803

Level 6 (一方通行)

4#
发表于 Post on 2023-4-14 16:25:19 | 只看该作者 Only view this author
不用重做系统呀!

我大概能处理……
去现场的话,会很快。

由于没有网络,就会很麻烦。

如果不怕麻烦,也无需顾忌停机的话,
你拆了重装呗……

High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

73

帖子

0

威望

633

eV
积分
706

Level 4 (黑子)

3#
 楼主 Author| 发表于 Post on 2023-4-14 15:40:31 | 只看该作者 Only view this author
abin 发表于 2023-4-14 09:13
存储故障。

不想浪费时间重新做系统,

重做系统就是售后来做,主要麻烦的是有一大堆软件需要重新安装。平时集群运维也倒是找他们,但是感觉很多问题还是解决不太好。这个问题不知道如果不重做系统能不能解决呢

2302

帖子

1

威望

5481

eV
积分
7803

Level 6 (一方通行)

2#
发表于 Post on 2023-4-14 09:13:46 | 只看该作者 Only view this author
存储故障。

不想浪费时间重新做系统,
就请售后来处理。

你说付费,他们就乐意做了。

不过,多数售后,只管硬件。
涉及集群相关的运维,都不愿意接手的。
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-27 14:57 , Processed in 0.230650 second(s), 25 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list