计算化学公社

 找回密码 Forget password
 注册 Register
Views: 1139|回复 Reply: 12
打印 Print 上一主题 Last thread 下一主题 Next thread

[硬件评测] 经常满负载下自动关机,大家看一下这个配置是哪里出了问题

[复制链接 Copy URL]

10

帖子

0

威望

57

eV
积分
67

Level 2 能力者

跳转到指定楼层 Go to specific reply
楼主
服务器配置
CPU: 英特尔至强铂金8383C*2   
散热器: 金钱豹双风扇4189*2   
主板: 超微X12DAI-N6         
内存:三星 32G 3200 REG ECC*16  
固态(装系统和软件): 三星PM9A1 1T  
固态(存储计算数据):三星PM983 7.68T U.2  
电源:自己看大神的文章选的海韵GX1000  (1000W)
机箱:追风者614
系统:centos8.0



装机之后连续两次全部核数跑满后不到一天自动关机,之前配过相似配置的服务器,用的是台达850W的电源,跑起来没任何问题,商家说是电源的问题,
选这个电源的时候是看了一些博主的推荐说要用大品牌的电源更加稳定,现在出问题是因为这个电源么?还是适配不好?

5万

帖子

99

威望

5万

eV
积分
112353

管理员

公社社长

2#
发表于 Post on 2023-8-18 15:21:34 | 只看该作者 Only view this author
配置本身毫无问题
找个其它电源进行替换测试
再好的电源也不可能所有出的货故障率严格为0
北京科音自然科学研究中心http://www.keinsci.com)致力于计算化学的发展和传播,长期开办高质量的各种计算化学类培训:初级量子化学培训班中级量子化学培训班高级量子化学培训班量子化学波函数分析与Multiwfn程序培训班分子动力学与GROMACS培训班CP2K第一性原理计算培训班,内容介绍以及往届资料购买请点击相应链接查看。这些培训是计算化学从零快速入门以及进一步全面系统性提升研究水平的高速路!培训各种常见问题见《北京科音办的培训班FAQ》
欢迎加入“北京科音”微信公众号获取北京科音培训的最新消息、避免错过网上有价值的计算化学文章!
欢迎加入人气非常高、专业性特别强的综合性理论与计算化学交流QQ群“思想家公社QQ群”:1号:18616395,2号:466017436,3号:764390338,搜索群号能搜到哪个说明目前哪个能加,合计9000人。北京科音培训班的学员在群中可申请VIP头衔,提问将得到群主Sobereva的最优先解答。
思想家公社的门口Blog:http://sobereva.com(发布大量原创计算化学相关博文)
Multiwfn主页:http://sobereva.com/multiwfn(十分强大的量子化学波函数分析程序)
ResearchGate:https://www.researchgate.net/profile/Tian_Lu
Money and papers are rubbish, get a real life!

129

帖子

0

威望

701

eV
积分
830

Level 4 (黑子)

3#
发表于 Post on 2023-8-28 11:34:48 | 只看该作者 Only view this author
散热、主板、电源都会引起自动关机,8383C是330W的TDP,首先要怀疑散热问题,建议登陆主板的IPMI,看下日志,电源的可能性也有,不过很小。

1376

帖子

0

威望

3986

eV
积分
5362

Level 6 (一方通行)

4#
发表于 Post on 2023-8-28 11:50:16 | 只看该作者 Only view this author
我用的主板是超微X11DAI-N,装了1080TI和3090,电源是海韵。前几日把机子挪了一下,接上了另一个新显示器,然后机子时不时就自动关机或者重启。

困扰了数日,又搬回来,一切正常。

排查了一遍,仅有的区别是旧显示器用的HDMI线,新显示器用的DP线。将旧显示器的HDMI线拆到新显示器用,一切正常,不再自动关机。[摊手,表示无奈]
又菜又爱玩

190

帖子

0

威望

867

eV
积分
1057

Level 4 (黑子)

5#
发表于 Post on 2023-8-28 20:35:52 | 只看该作者 Only view this author
楼主的情况怎么样了,我也有这种情况,跟你配置差不多,我是有的时候6个小时有的时候一天多一点重启,

190

帖子

0

威望

867

eV
积分
1057

Level 4 (黑子)

6#
发表于 Post on 2023-9-10 17:11:11 | 只看该作者 Only view this author
看来各种问题都有可能,我的排查了快一个月,现在比较倾向是内存的问题

195

帖子

0

威望

4029

eV
积分
4224

Level 6 (一方通行)

7#
发表于 Post on 2023-9-11 09:03:30 | 只看该作者 Only view this author
看下系统日志,如果CPU有问题或者内存有问题的话会有提示;一般高负载有问题的话很快就会重启,不会等个半天,除非是晚上把空调关了,导致服务器温度降不下来。

158

帖子

1

威望

2283

eV
积分
2461

Level 5 (御坂)

8#
发表于 Post on 2023-9-11 09:46:52 | 只看该作者 Only view this author
我的一台机器也有这个问题,用的核数越多越容易自动重启,后来找售后,在管理(我不太懂,就是插网线用另一台电脑进入的那个管理界面)中发现有很多高温报警记录,最后断定是散热问题,硅脂出问题了,我降低室温以后确实极大地解决问题了,大家可以参考一下这个案例。
人丑就该多读书,嘴拙最好少说话。
行百里者半于九十,戒骄戒躁。

10

帖子

0

威望

57

eV
积分
67

Level 2 能力者

9#
 楼主 Author| 发表于 Post on 2023-10-29 12:26:59 | 只看该作者 Only view this author
牧生 发表于 2023-8-28 11:50
我用的主板是超微X11DAI-N,装了1080TI和3090,电源是海韵。前几日把机子挪了一下,接上了另一个新显示器, ...

谢谢分享,我的是电源的问题,换了电源问题解决了

另外非常抱歉把你的这条评论举报了,并非本意,不小心

10

帖子

0

威望

57

eV
积分
67

Level 2 能力者

10#
 楼主 Author| 发表于 Post on 2023-10-29 12:27:41 | 只看该作者 Only view this author
Picardo 发表于 2023-8-28 20:35
楼主的情况怎么样了,我也有这种情况,跟你配置差不多,我是有的时候6个小时有的时候一天多一点重启,

我的这个问题解决了,电源的问题,重新换了个电源

19

帖子

0

威望

367

eV
积分
386

Level 3 能力者

11#
发表于 Post on 2023-10-30 08:27:26 | 只看该作者 Only view this author
8375C用过海韵的1300W,烧过一次主板cpu供电8pin,3代铂金还是功耗太猛了

190

帖子

0

威望

867

eV
积分
1057

Level 4 (黑子)

12#
发表于 Post on 2023-10-31 16:39:32 | 只看该作者 Only view this author
IMAX 发表于 2023-10-29 12:27
我的这个问题解决了,电源的问题,重新换了个电源

我的是u的问题,后来换了个u就没问题了

232

帖子

1

威望

3327

eV
积分
3579

Level 5 (御坂)

13#
发表于 Post on 2023-10-31 16:50:51 | 只看该作者 Only view this author
如果是使用avx512的话,那你电源最少是1300W,最安全的做法是1600W

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 12:09 , Processed in 0.189754 second(s), 21 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list