|
各位老师,小白新手,我个人新买了一台7B13单路服务器以缓解组内服务器不够用的情况,测试的时候发现满核(64核)运载cp2k.popt会死机;坛里的拷机sh代码运行也会死机。
查询后台BMC后日志显示是VR_P0_TEMP超过了额定的127°C,然后电压一掉,就死机了。想请问一下,大家是否有解决方法或者意见提供一下,谢谢啦。
------------以下是一些细节和思考,希望对老师们解决问题有帮助------------------
细节:
1. 各个风扇已经在BMC设置满转了,仍然会出现该问题。用纸测试了一下,风扇效果还是显著的。
2. 测试24核能将VR_P0_TEMP稳定在83°C,长时间不变至结束。48核可以将任务跑完,VR_P0_TEMP紧贴125°C(估计再跑几步就死机了)。
3. 查询了MZ01的说明书,没找到具体VR_P0_TEMP对应主板何处位置温度,但是找到了主板上存在HS_P0_VR的部分,该部分有散热结构(想请问大家是不是这一部分温度过高呢?)。查询了中外网页的没找到VR_P0_TEMP的具体含义,但大概与稳压器有关。
个人思考和总结:
个人小白(实在是一点不懂电路和主板细节方面的问题)分析一下认为有以下几个可能,希望大家提供一点建议或这些方法是否能够解决:
a. 可能是实验室电源压不稳(卖家寄来之前做过压力测试),导致稳压器需要较大功率运行;购买一些ups或者服务器插座是不是能解决这种问题呢?
b. 可能是传感器在运输中受到了损坏,测温度不准确;那是否有办法检测是不是测温不准呢?有没有办法屏蔽盖传感器呢?
c. 可能风道装的不好;虽然该不太可能,但我在考虑加装风扇以降温。
我已经咨询了卖家了,但最近实验、开会繁多,不太可能时时刻刻和卖家一边视频,一边维修接触到刚买的服务器,要一段时间才能进行彻底维修。所以还是希望麻烦各位老师能帮我解决一下这个问题,我亲自短时间维修一下,也加深一下我对电脑的理解。谢谢各位老师了。
另外,我之前一个2673的双路服务器因为停电,开不了机。用的是微星的X10的主板,其中上电后LE6灯显红色,但其他均无反应(开机键也没法按),问了主板卖家没解决,想知道这可能是什么原因?有办法换一些什么能救一下这台老机子吗?
谢谢各位老师了。
|
|