计算化学公社

 找回密码 Forget password
 注册 Register
Views: 450|回复 Reply: 8
打印 Print 上一主题 Last thread 下一主题 Next thread

[硬件相关] 服务器计算中途莫名重启的原因为何?

[复制链接 Copy URL]

38

帖子

0

威望

585

eV
积分
623

Level 4 (黑子)

一台AMD双路服务器(7b13,共128核,512G),电源:海韵FOCUS GX-1000;只用其中的64核进行计算任务,计算中途莫名的重启(没有报错),重新提交后再次发生了重启,不知道为何,查看/var/log/syslog日志文件发现每次重启前均有这样的记录:
第一次重启前:Jan  2 02:09:21 MZ72-00 kernel: [16314.611088] perf: interrupt took too long (8831 > 8585), lowering kernel.perf_event_max_sample_rate to 22500 (接着机器重启)
第二次重启前:Jan  2 02:47:24 MZ72-00 kernel: [ 1750.733959] perf: interrupt took too long (5943 > 5810), lowering kernel.perf_event_max_sample_rate to 33500(接着机器重启)
这个可能的原因是什么呢?这个问题隐患比较大,算长时间的任务出现重启会让人心态崩了,想彻底解决下。
之前也出现过这个问题,任务计算一定的时间后机器出现自动重启(不是每次都是这样),搞不清楚是什么原因引发的(机器的散热应该还可以,任务运行十几分钟没有重启时sensors监控显示的温度都不到50度)。

101

帖子

1

威望

645

eV
积分
766

Level 4 (黑子)

2#
发表于 Post on 2025-1-2 07:48:44 | 只看该作者 Only view this author
如果不是硬件问题的话,看看bios gmx咋设置的,然后系统里手动设定

389

帖子

1

威望

4824

eV
积分
5233

Level 6 (一方通行)

3#
发表于 Post on 2025-1-2 08:20:21 | 只看该作者 Only view this author
我有次也是遇见类似的情况,各种折腾不得解,然后换了一个电源就好了。
后来发现原来的电源也不是不行,它在机箱开盖运行的时候就很稳定,仔细研究发现是机箱气流通道不合理,CPU排风会在电源入风处汇聚,产生积热,然后这个电源体质比较弱,就挂了。由于我的服务器是单独放机房的,于是买了一个台达暴力风扇,借到电源附近机箱的格栅上,就再没有出现这个情况了。

464

帖子

11

威望

3948

eV
积分
4632

Level 6 (一方通行)

4#
发表于 Post on 2025-1-2 13:43:15 | 只看该作者 Only view this author
第一个原因可能是CPU的过热导致关机,你可以试试跑满任务后用ipmitool sensor监控一下CPU的温度是不是超过了临界值。或者也可以通过服务器管理LAN口登录后在网页端查看保存的传感器日志记录,查找造成重启的故障原因。
另外一个原因就是电源坏了造成经常性的重启。我的机子就是遇到了这个问题,后来换了一个振华的电源就正常了。你手里要是有空闲的电源装上去试试看机器满载是否还会出现重启现象。
自由发挥,野蛮生长

28

帖子

0

威望

892

eV
积分
920

Level 4 (黑子)

5#
发表于 Post on 2025-1-2 15:18:25 | 只看该作者 Only view this author
看一下是不是/dev/mapper/centos-root这个盘满了,之前有台服务器莫名重启就是因为这个盘满了

38

帖子

0

威望

585

eV
积分
623

Level 4 (黑子)

6#
 楼主 Author| 发表于 Post on 2025-1-2 18:45:26 | 只看该作者 Only view this author
五十八 发表于 2025-1-2 07:48
如果不是硬件问题的话,看看bios gmx咋设置的,然后系统里手动设定

bios gmx是什么

38

帖子

0

威望

585

eV
积分
623

Level 4 (黑子)

7#
 楼主 Author| 发表于 Post on 2025-1-2 18:47:03 | 只看该作者 Only view this author
compXB 发表于 2025-1-2 15:18
看一下是不是/dev/mapper/centos-root这个盘满了,之前有台服务器莫名重启就是因为这个盘满了

我的是Ubuntu系统,用df -h查看了下,应该比较正常
文件系统        容量  已用  可用 已用% 挂载点
udev            252G     0  252G    0% /dev
tmpfs            51G  2.5M   51G    1% /run
/dev/sda2       7.3T  2.0T  4.9T   29% /
tmpfs           252G  136K  252G    1% /dev/shm
tmpfs           5.0M     0  5.0M    0% /run/lock
tmpfs           252G     0  252G    0% /sys/fs/cgroup
/dev/loop3       92M   92M     0  100% /snap/gtk-common-themes/1535
/dev/loop0      640K  640K     0  100% /snap/gnome-characters/797
/dev/loop1      896K  896K     0  100% /snap/gnome-logs/123
/dev/loop2      2.5M  2.5M     0  100% /snap/gnome-calculator/884
......
/dev/loop23      64M   64M     0  100% /snap/core20/2434
/dev/sda1       511M  6.1M  505M    2% /boot/efi
tmpfs            51G   32K   51G    1% /run/user/1000

101

帖子

1

威望

645

eV
积分
766

Level 4 (黑子)

8#
发表于 Post on 2025-1-3 20:32:56 | 只看该作者 Only view this author

不好意思,才看到,应该是xgmi😂,是numa的速度,就是内存相关的,重启的话可能是watchdog导致的,可能是内存出了问题,比如https://forums.servethehome.com/ ... ndom-crashes.40729/,我之前是调低gmi的速度然后OK了

101

帖子

1

威望

645

eV
积分
766

Level 4 (黑子)

9#
发表于 Post on 2025-2-17 16:27:08 | 只看该作者 Only view this author
哦,还有一种可能,特别频繁,可能是主办的watchdog

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2025-8-13 05:27 , Processed in 0.143041 second(s), 20 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list