计算化学公社

标题: 服务器计算中途莫名重启的原因为何? [打印本页]

作者
Author:
fsh    时间: 2025-1-2 04:14
标题: 服务器计算中途莫名重启的原因为何?
一台AMD双路服务器(7b13,共128核,512G),电源:海韵FOCUS GX-1000;只用其中的64核进行计算任务,计算中途莫名的重启(没有报错),重新提交后再次发生了重启,不知道为何,查看/var/log/syslog日志文件发现每次重启前均有这样的记录:
第一次重启前:Jan  2 02:09:21 MZ72-00 kernel: [16314.611088] perf: interrupt took too long (8831 > 8585), lowering kernel.perf_event_max_sample_rate to 22500 (接着机器重启)
第二次重启前:Jan  2 02:47:24 MZ72-00 kernel: [ 1750.733959] perf: interrupt took too long (5943 > 5810), lowering kernel.perf_event_max_sample_rate to 33500(接着机器重启)
这个可能的原因是什么呢?这个问题隐患比较大,算长时间的任务出现重启会让人心态崩了,想彻底解决下。
之前也出现过这个问题,任务计算一定的时间后机器出现自动重启(不是每次都是这样),搞不清楚是什么原因引发的(机器的散热应该还可以,任务运行十几分钟没有重启时sensors监控显示的温度都不到50度)。


作者
Author:
五十八    时间: 2025-1-2 07:48
如果不是硬件问题的话,看看bios gmx咋设置的,然后系统里手动设定
作者
Author:
exity    时间: 2025-1-2 08:20
我有次也是遇见类似的情况,各种折腾不得解,然后换了一个电源就好了。
后来发现原来的电源也不是不行,它在机箱开盖运行的时候就很稳定,仔细研究发现是机箱气流通道不合理,CPU排风会在电源入风处汇聚,产生积热,然后这个电源体质比较弱,就挂了。由于我的服务器是单独放机房的,于是买了一个台达暴力风扇,借到电源附近机箱的格栅上,就再没有出现这个情况了。
作者
Author:
丁越    时间: 2025-1-2 13:43
第一个原因可能是CPU的过热导致关机,你可以试试跑满任务后用ipmitool sensor监控一下CPU的温度是不是超过了临界值。或者也可以通过服务器管理LAN口登录后在网页端查看保存的传感器日志记录,查找造成重启的故障原因。
另外一个原因就是电源坏了造成经常性的重启。我的机子就是遇到了这个问题,后来换了一个振华的电源就正常了。你手里要是有空闲的电源装上去试试看机器满载是否还会出现重启现象。
作者
Author:
compXB    时间: 2025-1-2 15:18
看一下是不是/dev/mapper/centos-root这个盘满了,之前有台服务器莫名重启就是因为这个盘满了
作者
Author:
fsh    时间: 2025-1-2 18:45
五十八 发表于 2025-1-2 07:48
如果不是硬件问题的话,看看bios gmx咋设置的,然后系统里手动设定

bios gmx是什么
作者
Author:
fsh    时间: 2025-1-2 18:47
compXB 发表于 2025-1-2 15:18
看一下是不是/dev/mapper/centos-root这个盘满了,之前有台服务器莫名重启就是因为这个盘满了

我的是Ubuntu系统,用df -h查看了下,应该比较正常
文件系统        容量  已用  可用 已用% 挂载点
udev            252G     0  252G    0% /dev
tmpfs            51G  2.5M   51G    1% /run
/dev/sda2       7.3T  2.0T  4.9T   29% /
tmpfs           252G  136K  252G    1% /dev/shm
tmpfs           5.0M     0  5.0M    0% /run/lock
tmpfs           252G     0  252G    0% /sys/fs/cgroup
/dev/loop3       92M   92M     0  100% /snap/gtk-common-themes/1535
/dev/loop0      640K  640K     0  100% /snap/gnome-characters/797
/dev/loop1      896K  896K     0  100% /snap/gnome-logs/123
/dev/loop2      2.5M  2.5M     0  100% /snap/gnome-calculator/884
......
/dev/loop23      64M   64M     0  100% /snap/core20/2434
/dev/sda1       511M  6.1M  505M    2% /boot/efi
tmpfs            51G   32K   51G    1% /run/user/1000
作者
Author:
五十八    时间: 2025-1-3 20:32
fsh 发表于 2025-1-2 18:45
bios gmx是什么

不好意思,才看到,应该是xgmi😂,是numa的速度,就是内存相关的,重启的话可能是watchdog导致的,可能是内存出了问题,比如https://forums.servethehome.com/ ... ndom-crashes.40729/,我之前是调低gmi的速度然后OK了
作者
Author:
五十八    时间: 2025-2-17 16:27
哦,还有一种可能,特别频繁,可能是主办的watchdog




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3