计算化学公社

 找回密码 Forget password
 注册 Register
Views: 960|回复 Reply: 3
打印 Print 上一主题 Last thread 下一主题 Next thread

[硬件相关] 求教:单路7B13服务器-技嘉MZ01中满核运载死机黑屏,VR_P0_TEMP过热

[复制链接 Copy URL]

1

帖子

0

威望

273

eV
积分
274

Level 3 能力者

各位老师,小白新手,我个人新买了一台7B13单路服务器以缓解组内服务器不够用的情况,测试的时候发现满核(64核)运载cp2k.popt会死机;坛里的拷机sh代码运行也会死机。
查询后台BMC后日志显示是VR_P0_TEMP超过了额定的127°C,然后电压一掉,就死机了。想请问一下,大家是否有解决方法或者意见提供一下,谢谢啦。

------------以下是一些细节和思考,希望对老师们解决问题有帮助------------------
细节:
1. 各个风扇已经在BMC设置满转了,仍然会出现该问题。用纸测试了一下,风扇效果还是显著的。
2. 测试24核能将VR_P0_TEMP稳定在83°C,长时间不变至结束。48核可以将任务跑完,VR_P0_TEMP紧贴125°C(估计再跑几步就死机了)。
3. 查询了MZ01的说明书,没找到具体VR_P0_TEMP对应主板何处位置温度,但是找到了主板上存在HS_P0_VR的部分,该部分有散热结构(想请问大家是不是这一部分温度过高呢?)。查询了中外网页的没找到VR_P0_TEMP的具体含义,但大概与稳压器有关。

个人思考和总结:
个人小白(实在是一点不懂电路和主板细节方面的问题)分析一下认为有以下几个可能,希望大家提供一点建议或这些方法是否能够解决:
a. 可能是实验室电源压不稳(卖家寄来之前做过压力测试),导致稳压器需要较大功率运行;购买一些ups或者服务器插座是不是能解决这种问题呢?
b. 可能是传感器在运输中受到了损坏,测温度不准确;那是否有办法检测是不是测温不准呢?有没有办法屏蔽盖传感器呢?
c. 可能风道装的不好;虽然该不太可能,但我在考虑加装风扇以降温。

我已经咨询了卖家了,但最近实验、开会繁多,不太可能时时刻刻和卖家一边视频,一边维修接触到刚买的服务器,要一段时间才能进行彻底维修。所以还是希望麻烦各位老师能帮我解决一下这个问题,我亲自短时间维修一下,也加深一下我对电脑的理解。谢谢各位老师了。


另外,我之前一个2673的双路服务器因为停电,开不了机。用的是微星的X10的主板,其中上电后LE6灯显红色,但其他均无反应(开机键也没法按),问了主板卖家没解决,想知道这可能是什么原因?有办法换一些什么能救一下这台老机子吗?
谢谢各位老师了。

2302

帖子

1

威望

5481

eV
积分
7803

Level 6 (一方通行)

2#
发表于 Post on 2023-8-9 20:20:07 | 只看该作者 Only view this author
这是云修电脑呀?

正确的做法应该是,打电话给卖家,
上门来给我修,当天修不好,三天内给送一台新的能用的来。

别扯什么没有货之类的……

话说回来,来问我买机器的,
我都会建议,如果自己没弄过硬件,
建议找本地能上门的商家购置机器……
价格基本透明的……
虽然我也认识买硬件的朋友,对方也说,
推荐购机成功,会发红包给我……

我觉得这没有意义……
真正有意义的,是最大限度的规避可能出现的硬件维护事宜,
让本地能上门的商家提供硬件,
这是最佳的方案……

除非,在硬件故障时候,
你可以有时间,有功夫,亲自动手。

至于你的机器,应该是散热问题……
比如散热器和处理器之间的硅胶之类?
不过你没有工具的话,也拆不下来的……

其他层面的故障,不好推测……
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

19

帖子

0

威望

367

eV
积分
386

Level 3 能力者

3#
发表于 Post on 2023-8-26 12:33:43 | 只看该作者 Only view this author
你这应该是cpu供电mos管过热引起的吧,接个风扇,猛劲吹供电散热试试。用过mz32带7b13,全核心使用,cpu供电也没超过80

186

帖子

1

威望

505

eV
积分
711

Level 4 (黑子)

4#
发表于 Post on 2023-8-27 01:21:18 | 只看该作者 Only view this author
VR一般是指voltage regulator,就是楼上说的CPU供电MOS管,丐主板上会裸着,正常主板一般会压上散热片。MOS一般安排在环绕CPU的一圈,把12V供电转为CPU用的1V出头——可以想象这玩意在经受什么样的大电流——但一般除了盖散热片吹风以外也没有什么别的散热方案。风扇吹着还是过热的话可以考虑把散热拧紧点,或拆开散热片换个好点的导热片,华硕板子。
这个链接里也是个技嘉服务器主板,VR_P0_TEMP应该是指的mos温度没错。

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-27 21:35 , Processed in 0.195042 second(s), 27 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list