计算化学公社

标题: 经常满负载下自动关机,大家看一下这个配置是哪里出了问题 [打印本页]

作者
Author:
IMAX    时间: 2023-8-18 14:41
标题: 经常满负载下自动关机,大家看一下这个配置是哪里出了问题
服务器配置
CPU: 英特尔至强铂金8383C*2   
散热器: 金钱豹双风扇4189*2   
主板: 超微X12DAI-N6         
内存:三星 32G 3200 REG ECC*16  
固态(装系统和软件): 三星PM9A1 1T  
固态(存储计算数据):三星PM983 7.68T U.2  
电源:自己看大神的文章选的海韵GX1000  (1000W)
机箱:追风者614
系统:centos8.0



装机之后连续两次全部核数跑满后不到一天自动关机,之前配过相似配置的服务器,用的是台达850W的电源,跑起来没任何问题,商家说是电源的问题,
选这个电源的时候是看了一些博主的推荐说要用大品牌的电源更加稳定,现在出问题是因为这个电源么?还是适配不好?


作者
Author:
sobereva    时间: 2023-8-18 15:21
配置本身毫无问题
找个其它电源进行替换测试
再好的电源也不可能所有出的货故障率严格为0
作者
Author:
janstao    时间: 2023-8-28 11:34
散热、主板、电源都会引起自动关机,8383C是330W的TDP,首先要怀疑散热问题,建议登陆主板的IPMI,看下日志,电源的可能性也有,不过很小。
作者
Author:
牧生    时间: 2023-8-28 11:50
我用的主板是超微X11DAI-N,装了1080TI和3090,电源是海韵。前几日把机子挪了一下,接上了另一个新显示器,然后机子时不时就自动关机或者重启。

困扰了数日,又搬回来,一切正常。

排查了一遍,仅有的区别是旧显示器用的HDMI线,新显示器用的DP线。将旧显示器的HDMI线拆到新显示器用,一切正常,不再自动关机。[摊手,表示无奈]
作者
Author:
Picardo    时间: 2023-8-28 20:35
楼主的情况怎么样了,我也有这种情况,跟你配置差不多,我是有的时候6个小时有的时候一天多一点重启,
作者
Author:
Picardo    时间: 2023-9-10 17:11
看来各种问题都有可能,我的排查了快一个月,现在比较倾向是内存的问题
作者
Author:
tiandikuoyuan    时间: 2023-9-11 09:03
看下系统日志,如果CPU有问题或者内存有问题的话会有提示;一般高负载有问题的话很快就会重启,不会等个半天,除非是晚上把空调关了,导致服务器温度降不下来。
作者
Author:
wangyj    时间: 2023-9-11 09:46
我的一台机器也有这个问题,用的核数越多越容易自动重启,后来找售后,在管理(我不太懂,就是插网线用另一台电脑进入的那个管理界面)中发现有很多高温报警记录,最后断定是散热问题,硅脂出问题了,我降低室温以后确实极大地解决问题了,大家可以参考一下这个案例。
作者
Author:
IMAX    时间: 2023-10-29 12:26
牧生 发表于 2023-8-28 11:50
我用的主板是超微X11DAI-N,装了1080TI和3090,电源是海韵。前几日把机子挪了一下,接上了另一个新显示器, ...

谢谢分享,我的是电源的问题,换了电源问题解决了

另外非常抱歉把你的这条评论举报了,并非本意,不小心
作者
Author:
IMAX    时间: 2023-10-29 12:27
Picardo 发表于 2023-8-28 20:35
楼主的情况怎么样了,我也有这种情况,跟你配置差不多,我是有的时候6个小时有的时候一天多一点重启,

我的这个问题解决了,电源的问题,重新换了个电源

作者
Author:
fantexi113    时间: 2023-10-30 08:27
8375C用过海韵的1300W,烧过一次主板cpu供电8pin,3代铂金还是功耗太猛了
作者
Author:
Picardo    时间: 2023-10-31 16:39
IMAX 发表于 2023-10-29 12:27
我的这个问题解决了,电源的问题,重新换了个电源

我的是u的问题,后来换了个u就没问题了
作者
Author:
wolfli369    时间: 2023-10-31 16:50
如果是使用avx512的话,那你电源最少是1300W,最安全的做法是1600W




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3