|
一台AMD双路服务器(7b13,共128核,512G),电源:海韵FOCUS GX-1000;只用其中的64核进行计算任务,计算中途莫名的重启(没有报错),重新提交后再次发生了重启,不知道为何,查看/var/log/syslog日志文件发现每次重启前均有这样的记录:
第一次重启前:Jan 2 02:09:21 MZ72-00 kernel: [16314.611088] perf: interrupt took too long (8831 > 8585), lowering kernel.perf_event_max_sample_rate to 22500 (接着机器重启)
第二次重启前:Jan 2 02:47:24 MZ72-00 kernel: [ 1750.733959] perf: interrupt took too long (5943 > 5810), lowering kernel.perf_event_max_sample_rate to 33500(接着机器重启)
这个可能的原因是什么呢?这个问题隐患比较大,算长时间的任务出现重启会让人心态崩了,想彻底解决下。
之前也出现过这个问题,任务计算一定的时间后机器出现自动重启(不是每次都是这样),搞不清楚是什么原因引发的(机器的散热应该还可以,任务运行十几分钟没有重启时sensors监控显示的温度都不到50度)。
|
|