计算化学公社
标题:
求教:单路7B13服务器-技嘉MZ01中满核运载死机黑屏,VR_P0_TEMP过热
[打印本页]
作者Author:
martinmonkey
时间:
2023-8-9 00:20
标题:
求教:单路7B13服务器-技嘉MZ01中满核运载死机黑屏,VR_P0_TEMP过热
各位老师,小白新手,我个人新买了一台7B13单路服务器以缓解组内服务器不够用的情况,测试的时候发现满核(64核)运载cp2k.popt会死机;坛里的拷机sh代码运行也会死机。
查询后台BMC后日志显示是VR_P0_TEMP超过了额定的127°C,然后电压一掉,就死机了。想请问一下,大家是否有解决方法或者意见提供一下,谢谢啦。
------------以下是一些细节和思考,希望对老师们解决问题有帮助------------------
细节:
1. 各个风扇已经在BMC设置满转了,仍然会出现该问题。用纸测试了一下,风扇效果还是显著的。
2. 测试24核能将VR_P0_TEMP稳定在83°C,长时间不变至结束。48核可以将任务跑完,VR_P0_TEMP紧贴125°C(估计再跑几步就死机了)。
3. 查询了MZ01的说明书,没找到具体VR_P0_TEMP对应主板何处位置温度,但是找到了主板上存在HS_P0_VR的部分,该部分有散热结构(想请问大家是不是这一部分温度过高呢?)。查询了中外网页的没找到VR_P0_TEMP的具体含义,但大概与稳压器有关。
个人思考和总结:
个人小白(实在是一点不懂电路和主板细节方面的问题)分析一下认为有以下几个可能,希望大家提供一点建议或这些方法是否能够解决:
a. 可能是实验室电源压不稳(卖家寄来之前做过压力测试),导致稳压器需要较大功率运行;购买一些ups或者服务器插座是不是能解决这种问题呢?
b. 可能是传感器在运输中受到了损坏,测温度不准确;那是否有办法检测是不是测温不准呢?有没有办法屏蔽盖传感器呢?
c. 可能风道装的不好;虽然该不太可能,但我在考虑加装风扇以降温。
我已经咨询了卖家了,但最近实验、开会繁多,不太可能时时刻刻和卖家一边视频,一边维修接触到刚买的服务器,要一段时间才能进行彻底维修。所以还是希望麻烦各位老师能帮我解决一下这个问题,我亲自短时间维修一下,也加深一下我对电脑的理解。谢谢各位老师了。
另外,我之前一个2673的双路服务器因为停电,开不了机。用的是微星的X10的主板,其中上电后LE6灯显红色,但其他均无反应(开机键也没法按),问了主板卖家没解决,想知道这可能是什么原因?有办法换一些什么能救一下这台老机子吗?
谢谢各位老师了。
作者Author:
abin
时间:
2023-8-9 20:20
这是云修电脑呀?
正确的做法应该是,打电话给卖家,
上门来给我修,当天修不好,三天内给送一台新的能用的来。
别扯什么没有货之类的……
话说回来,来问我买机器的,
我都会建议,如果自己没弄过硬件,
建议找本地能上门的商家购置机器……
价格基本透明的……
虽然我也认识买硬件的朋友,对方也说,
推荐购机成功,会发红包给我……
我觉得这没有意义……
真正有意义的,是最大限度的规避可能出现的硬件维护事宜,
让本地能上门的商家提供硬件,
这是最佳的方案……
除非,在硬件故障时候,
你可以有时间,有功夫,亲自动手。
至于你的机器,应该是散热问题……
比如散热器和处理器之间的硅胶之类?
不过你没有工具的话,也拆不下来的……
其他层面的故障,不好推测……
作者Author:
fantexi113
时间:
2023-8-26 12:33
你这应该是cpu供电mos管过热引起的吧,接个风扇,猛劲吹供电散热试试。用过mz32带7b13,全核心使用,cpu供电也没超过80
作者Author:
啊不错的飞过海
时间:
2023-8-27 01:21
VR一般是指voltage regulator,就是楼上说的CPU供电MOS管,丐主板上会裸着,正常主板一般会压上散热片。MOS一般安排在环绕CPU的一圈,把12V供电转为CPU用的1V出头——可以想象这玩意在经受什么样的大电流——但一般除了盖散热片吹风以外也没有什么别的散热方案。风扇吹着还是过热的话可以考虑把散热拧紧点,或拆开散热片换个好点的导热片,华硕板子。
这个链接
里也是个技嘉服务器主板,VR_P0_TEMP应该是指的mos温度没错。
欢迎光临 计算化学公社 (http://bbs.keinsci.com/)
Powered by Discuz! X3.3