计算化学公社

 找回密码 Forget password
 注册 Register
Views: 395|回复 Reply: 2
打印 Print 上一主题 Last thread 下一主题 Next thread

[并行运算] slurm24并行计算,节点经常死机

[复制链接 Copy URL]

24

帖子

0

威望

75

eV
积分
99

Level 2 能力者

slurm24并行计算,节点经常死机,要怎么查看日志,有哪几个文件,分析,下面是一个2025-01-10 下午3:00多发现死机,时间一定是在 3:54分之前
其中一个如下,centos8.5
var/log/messages

  1. Jan 10 15:03:09 node01 NetworkManager[36915]: <info>  [1736492589.7207] agent-manager: agent[b913d79752165acd,:1.86/org.gnome.Shell.NetworkAgent/42]: agent registered
  2. Jan 10 15:03:10 node01 dbus-daemon[3665]: [system] Activating via systemd: service name='net.reactivated.Fprint' unit='fprintd.service' requested by ':1.86' (uid=42 pid=5880 comm="/usr/bin/gnome-shell ")
  3. Jan 10 15:03:10 node01 systemd[1]: Starting Fingerprint Authentication Daemon...
  4. Jan 10 15:03:11 node01 dbus-daemon[3665]: [system] Successfully activated service 'net.reactivated.Fprint'
  5. Jan 10 15:03:11 node01 systemd[1]: Started Fingerprint Authentication Daemon.
  6. Jan 10 15:03:16 node01 systemd-logind[5098]: New session 125 of user sutai.
  7. Jan 10 15:03:16 node01 /usr/libexec/gdm-x-session[5322]: (**) Option "fd" "21"
  8. Jan 10 15:03:16 node01 /usr/libexec/gdm-x-session[5322]: (II) event0  - Power Button: device removed
  9. Jan 10 15:03:16 node01 /usr/libexec/gdm-x-session[5322]: (**) Option "fd" "24"
  10. Jan 10 15:03:16 node01 /usr/libexec/gdm-x-session[5322]: (II) event1  - SIGMACHIP Usb Mouse: device removed
  11. Jan 10 15:03:16 node01 /usr/libexec/gdm-x-session[5322]: (**) Option "fd" "25"
  12. Jan 10 15:03:16 node01 /usr/libexec/gdm-x-session[5322]: (II) event2  - Dell KB216 Wired Keyboard: device removed
  13. Jan 10 15:03:16 node01 /usr/libexec/gdm-x-session[5322]: (**) Option "fd" "26"
  14. Jan 10 15:03:16 node01 /usr/libexec/gdm-x-session[5322]: (II) event3  - Dell KB216 Wired Keyboard System Control: device removed
  15. Jan 10 15:03:16 node01 /usr/libexec/gdm-x-session[5322]: (**) Option "fd" "27"
  16. Jan 10 15:03:16 node01 /usr/libexec/gdm-x-session[5322]: (II) event4  - Dell KB216 Wired Keyboard Consumer Control: device removed
  17. Jan 10 15:03:16 node01 /usr/libexec/gdm-x-session[5322]: (II) systemd-logind: got pause for 13:67
  18. Jan 10 15:03:16 node01 /usr/libexec/gdm-x-session[5322]: (II) systemd-logind: got pause for 13:66
  19. Jan 10 15:03:16 node01 /usr/libexec/gdm-x-session[5322]: (II) systemd-logind: got pause for 13:68
  20. Jan 10 15:03:16 node01 /usr/libexec/gdm-x-session[5322]: (II) systemd-logind: got pause for 226:0
  21. Jan 10 15:03:16 node01 /usr/libexec/gdm-x-session[5322]: (II) systemd-logind: got pause for 13:64
  22. Jan 10 15:03:16 node01 /usr/libexec/gdm-x-session[5322]: (II) systemd-logind: got pause for 13:65
  23. Jan 10 15:03:16 node01 /usr/libexec/gdm-x-session[40663]: _XSERVTransSocketUNIXCreateListener: ...SocketCreateListener() failed
  24. Jan 10 15:03:16 node01 /usr/libexec/gdm-x-session[40663]: _XSERVTransMakeAllCOTSServerListeners: server already running
  25. Jan 10 15:03:16 node01 /usr/libexec/gdm-x-session[40663]: (--) Log file renamed from "/home/sutai/.local/share/xorg/Xorg.pid-40666.log" to "/home/sutai/.local/share/xorg/Xorg.1.log"
  26. Jan 10 15:03:16 node01 /usr/libexec/gdm-x-session[40663]: X.Org X Server 1.20.11
  27. Jan 10 15:03:16 node01 /usr/libexec/gdm-x-session[40663]: X Protocol Version 11, Revision 0
  28. Jan 10 15:03:16 node01 /usr/libexec/gdm-x-session[40663]: Build Operating System:  4.19.34-300.el7.x86_64
  29. Jan 10 15:03:16 node01 /usr/libexec/gdm-x-session[40663]: Current Operating System: Linux node01 4.18.0-348.7.1.el8_5.x86_64 #1 SMP Wed Dec 22 13:25:12 UTC 2021 x86_64
  30. Jan 10 15:03:16 node01 /usr/libexec/gdm-x-session[40663]: Kernel command line: BOOT_IMAGE=(hd0,gpt2)/vmlinuz-4.18.0-348.7.1.el8_5.x86_64 root=/dev/mapper/cl-root ro crashkernel=auto resume=/dev/mapper/cl-swap rd.lvm.lv=cl/root rd.lvm.lv=cl/swap rhgb quiet
  31. Jan 10 15:03:16 node01 /usr/libexec/gdm-x-session[40663]: Build Date: 10 June 2021  11:58:07PM
  32. Jan 10 15:03:16 node01 /usr/libexec/gdm-x-session[40663]: Build ID: xorg-x11-server 1.20.11-2.el8
  33. Jan 10 15:03:16 node01 /usr/libexec/gdm-x-session[40663]: Current version of pixman: 0.38.4
  34. Jan 10 15:03:16 node01 /usr/libexec/gdm-x-session[40663]: #011Before reporting problems, check http://wiki.x.org
  35. Jan 10 15:03:16 node01 /usr/libexec/gdm-x-session[40663]: #011to make sure that you have the latest version.
  36. Jan 10 15:03:16 node01 /usr/libexec/gdm-x-session[40663]: Markers: (--) probed, (**) from config file, (==) default setting,
  37. Jan 10 15:03:16 node01 /usr/libexec/gdm-x-session[40663]: #011(++) from command line, (!!) notice, (II) informational,
  38. Jan 10 15:03:16 node01 /usr/libexec/gdm-x-session[40663]: #011(WW) warning, (EE) error, (NI) not implemented, (??) unknown.
  39. Jan 10 15:03:16 node01 /usr/libexec/gdm-x-session[40663]: (==) Log file: "/home/sutai/.local/share/xorg/Xorg.1.log", Time: Fri Jan 10 15:03:16 2025
  40. Jan 10 15:03:16 node01 /usr/libexec/gdm-x-session[40663]: (==) Using config directory: "/etc/X11/xorg.conf.d"
  41. Jan 10 15:03:16 node01 /usr/libexec/gdm-x-session[40663]: (==) Using system config directory "/usr/share/X11/xorg.conf.d"

复制代码
完整在附件

日志.png (277.92 KB, 下载次数 Times of downloads: 63)

日志.png

messages

536.25 KB, 下载次数 Times of downloads: 6

158

帖子

2

威望

3545

eV
积分
3743

Level 5 (御坂)

2#
发表于 Post on 2025-1-11 14:03:38 | 只看该作者 Only view this author
先把计算节点的图形界面禁了;然后看看/var/log/slurm/slurmctld.log 和 slurmd.log;有 IPMI 的话去 IPMI 界面看看硬件情况。

24

帖子

0

威望

75

eV
积分
99

Level 2 能力者

3#
 楼主 Author| 发表于 Post on 2025-1-11 14:11:53 | 只看该作者 Only view this author
Santz 发表于 2025-1-11 14:03
先把计算节点的图形界面禁了;然后看看/var/log/slurm/slurmctld.log 和 slurmd.log;有 IPMI 的话去 IPMI  ...

/var/log/slurm/slurmctld.log 和 slurmd.log 有看,看不出什么毛病, slurmd.log 是在死机的节点上看吧,我也看了,没有提示什么。

centos8.5 是有图形界面,因有要安装一些软件,所以使用,如果禁用。

IPIM是这样设置嘛,对这个很不了解
  1. 检查硬件支持和 BIOS 设置
  2. 首先,确保你的服务器硬件支持 IPMI(智能平台管理接口)。不同的服务器品牌和型号可能有不同的 IPMI 芯片实现方式。
  3. 进入服务器的 BIOS 设置。通常在服务器开机过程中,按下特定的按键(如 Del、F2 等,具体按键因服务器品牌而异)进入 BIOS。
  4. 在 BIOS 中,找到与 IPMI 相关的选项,例如 “Server Management” 或 “IPMI Configuration” 等。确保 IPMI 功能被启用,并且设置好 IPMI 的相关参数,如 IP 地址、子网掩码、网关等。这些参数应该与你的服务器所在网络环境相匹配。
  5. 安装和配置 IPMI 工具(如果需要)
  6. 在 CentOS 8.5 系统中,你可能需要安装一些 IPMI 相关的工具软件来访问 IPMI 界面。一个常用的工具是ipmitool。
  7. 可以使用以下命令安装ipmitool:
  8. yum install ipmitool -y
  9. 安装完成后,你可以使用ipmitool来尝试连接到 IPMI 接口。例如,如果你的 IPMI 接口的 IP 地址是192.168.1.100,用户名是admin,密码是password,可以使用以下命令来进行基本的连接测试:
  10. ipmitool -I lanplus -H 192.168.1.100 -U admin -P password chassis status
  11. 这个命令会检查服务器的机箱状态。其中-I lanplus表示使用 LAN 接口(IPMI over LAN),-H指定 IPMI 接口的 IP 地址,-U指定用户名,-P指定密码。
  12. 通过 Web 浏览器访问(如果 IPMI 支持)
  13. 如果你的服务器的 IPMI 接口支持 Web 访问,你可以在浏览器中输入 IPMI 接口的 IP 地址。
  14. 例如,在浏览器地址栏中输入https://192.168.1.100(假设 IPMI 接口 IP 是这个)。
  15. 然后会弹出登录界面,输入在 BIOS 中设置或者服务器文档中指定的用户名和密码进行登录,登录成功后就可以访问 IPMI 的管理界面了,在这里可以查看服务器的各种硬件状态信息、进行远程控制等操作。
复制代码

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2025-8-13 05:32 , Processed in 0.157739 second(s), 23 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list