计算化学公社

 找回密码 Forget password
 注册 Register

slurm24并行计算,节点经常死机

查看数: 393 | 评论数: 2 | 收藏 Add to favorites 0
关灯 | 提示:支持键盘翻页<-左 右->
    组图打开中,请稍候......
发布时间: 2025-1-10 22:56

正文摘要:

slurm24并行计算,节点经常死机,要怎么查看日志,有哪几个文件,分析,下面是一个2025-01-10 下午3:00多发现死机,时间一定是在 3:54分之前 其中一个如下,centos8.5 var/log/messages Jan 10 15:03:09 node01 ...

回复 Reply

naxiangzi 发表于 Post on 2025-1-11 14:11:53
Santz 发表于 2025-1-11 14:03
先把计算节点的图形界面禁了;然后看看/var/log/slurm/slurmctld.log 和 slurmd.log;有 IPMI 的话去 IPMI  ...

/var/log/slurm/slurmctld.log 和 slurmd.log 有看,看不出什么毛病, slurmd.log 是在死机的节点上看吧,我也看了,没有提示什么。

centos8.5 是有图形界面,因有要安装一些软件,所以使用,如果禁用。

IPIM是这样设置嘛,对这个很不了解
  1. 检查硬件支持和 BIOS 设置
  2. 首先,确保你的服务器硬件支持 IPMI(智能平台管理接口)。不同的服务器品牌和型号可能有不同的 IPMI 芯片实现方式。
  3. 进入服务器的 BIOS 设置。通常在服务器开机过程中,按下特定的按键(如 Del、F2 等,具体按键因服务器品牌而异)进入 BIOS。
  4. 在 BIOS 中,找到与 IPMI 相关的选项,例如 “Server Management” 或 “IPMI Configuration” 等。确保 IPMI 功能被启用,并且设置好 IPMI 的相关参数,如 IP 地址、子网掩码、网关等。这些参数应该与你的服务器所在网络环境相匹配。
  5. 安装和配置 IPMI 工具(如果需要)
  6. 在 CentOS 8.5 系统中,你可能需要安装一些 IPMI 相关的工具软件来访问 IPMI 界面。一个常用的工具是ipmitool。
  7. 可以使用以下命令安装ipmitool:
  8. yum install ipmitool -y
  9. 安装完成后,你可以使用ipmitool来尝试连接到 IPMI 接口。例如,如果你的 IPMI 接口的 IP 地址是192.168.1.100,用户名是admin,密码是password,可以使用以下命令来进行基本的连接测试:
  10. ipmitool -I lanplus -H 192.168.1.100 -U admin -P password chassis status
  11. 这个命令会检查服务器的机箱状态。其中-I lanplus表示使用 LAN 接口(IPMI over LAN),-H指定 IPMI 接口的 IP 地址,-U指定用户名,-P指定密码。
  12. 通过 Web 浏览器访问(如果 IPMI 支持)
  13. 如果你的服务器的 IPMI 接口支持 Web 访问,你可以在浏览器中输入 IPMI 接口的 IP 地址。
  14. 例如,在浏览器地址栏中输入https://192.168.1.100(假设 IPMI 接口 IP 是这个)。
  15. 然后会弹出登录界面,输入在 BIOS 中设置或者服务器文档中指定的用户名和密码进行登录,登录成功后就可以访问 IPMI 的管理界面了,在这里可以查看服务器的各种硬件状态信息、进行远程控制等操作。
复制代码
Santz 发表于 Post on 2025-1-11 14:03:38
先把计算节点的图形界面禁了;然后看看/var/log/slurm/slurmctld.log 和 slurmd.log;有 IPMI 的话去 IPMI 界面看看硬件情况。

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2025-8-13 03:07 , Processed in 0.154098 second(s), 25 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list