计算化学公社

标题: 2696v3平台过热报警,正常吗? [打印本页]

作者
Author:
CrysLantZ    时间: 2019-8-24 22:44
标题: 2696v3平台过热报警,正常吗?
首先感谢社长sobereva,无论是硬件配置还是VASP编译,sob大的帖子和视频,使我少走很多弯路 。(P.S. 初级量子化学培训班一票难求)
按推荐配置买了套2696v3平台,发现mpirun -np 36 vasp时,长鸣报警,查了下X10DRL-I主板手册,应该是CPU2温度过热
这个主板结构造成CPU1的风吹进CPU2,所以CPU2温度明显比CPU1高。
我尝试增加了机箱风扇,效果不明显;只有开空调26度以下,才能控制住CPU2温度报警。
我想调高报警温度阈值,BIOS没发现设置选项
安装了ipmitool,如附图,调高CPU2 Temp阈值(可以与CPU1对比),不起作用,我的操作不对???
额外还发现Vcpu1VRM Temp (Voltage Regulator Module 电压调节模组???)异常的高,暂时还不懂这个选项是啥意思

总结一下,我的问题如下:
1. 大家的2696v3服务器在满载时会报警吗?购买时,发现经销商使用翻新硬盘、15年的拆机内存条,所以对购买的机器品质有些怀疑。
2. 遇到温度过热,大家怎么解决的?

敬请赐教,谢谢!!!

作者
Author:
abin    时间: 2019-8-24 23:29
找经销商撕逼,或者提升空调功率,或者多装风扇并合理调整风扇进出风方向。
作者
Author:
abin    时间: 2019-8-24 23:30
额外提一句,某些商家的机器,卖好几万,是有一定道理的。
作者
Author:
sobereva    时间: 2019-8-25 00:21
我的2*2696v3一直用到现在,从没有遇到过过热报警问题
报警阈值设置问题可以发邮件问超微的客服
作者
Author:
knight1014    时间: 2019-8-25 01:23
最里面的CPU装个240水冷,靠外的CPU装个猫扇,一水一风,阴阳调和,稳得很。
作者
Author:
一颗赛艇    时间: 2019-8-25 08:38
换12cm散热器,大风量风扇

不要上水冷

超微的板子用ipmi工具调高转速


作者
Author:
bobosiji    时间: 2019-8-25 09:55
CPU2温度77度,离high85度还差不少;Vcpu1VRM温度也不到high105度,这就报警了?
另外,mpirun -np 36 vasp时,除了长鸣报警,服务器还有其他提示信息么(声音、屏幕都行)?
作者
Author:
CrysLantZ    时间: 2019-8-25 10:08
abin 发表于 2019-8-24 23:29
找经销商撕逼,或者提升空调功率,或者多装风扇并合理调整风扇进出风方向。

我观察了下,先马泰坦 + X10DRL-I主板 ,只有CPU2附近热。
我加装了CPU2附近的两个排气扇,没作用。
我得找经销商聊聊了

作者
Author:
CrysLantZ    时间: 2019-8-25 10:10
sobereva 发表于 2019-8-25 00:21
我的2*2696v3一直用到现在,从没有遇到过过热报警问题
报警阈值设置问题可以发邮件问超微的客服

谢谢回复。
同样的配置,别人没问题,就我的报警,那就是我的机器的问题了。
作者
Author:
CrysLantZ    时间: 2019-8-25 10:12
knight1014 发表于 2019-8-25 01:23
最里面的CPU装个240水冷,靠外的CPU装个猫扇,一水一风,阴阳调和,稳得很。

谢谢回复。
CPU + 水冷,没怎么接触过。
这是最后的办法了
作者
Author:
qinzhong605    时间: 2019-8-25 11:11
我的简单的双路(主板是X10DAL-i)也是类似,CPU+GPU热量太大,只能把一侧的机箱板子拆掉后,在空调26度不变情况,满载的的情况下,前段的CPU温度是90多,后段的CPU是60多,恼火得很。
作者
Author:
CrysLantZ    时间: 2019-8-25 11:19
本帖最后由 CrysLantZ 于 2019-8-25 11:25 编辑
qinzhong605 发表于 2019-8-25 11:11
我的简单的双路(主板是X10DAL-i)也是类似,CPU+GPU热量太大,只能把一侧的机箱板子拆掉后,在空调26度不 ...

谢谢回复。
CPU2温度90+,主板不报警吗?
我只有CPU,没GPU。CPU2温度高,总是持续报警,吵的烦。
其实吧,我主要怕硬件(比如主板、CPU)有质量问题
另外,报警阈值在75?怎么提高阈值?
ipmi调整温度阈值,不起作用。重启后,又回复原值。可能是我的设置有问题


作者
Author:
CrysLantZ    时间: 2019-8-25 11:23
bobosiji 发表于 2019-8-25 09:55
CPU2温度77度,离high85度还差不少;Vcpu1VRM温度也不到high105度,这就报警了?
另外,mpirun -np 36 vas ...

除了长鸣报警,没有其它提示(我是小白)。
可以安装lm-sensors或impi监测CPU温度。
你看到没达到阈值,是因为我调高阈值了,你可以对比下CPU1和CPU2的设置,默认值是相同的。
作者
Author:
CrysLantZ    时间: 2019-8-25 11:33
本帖最后由 CrysLantZ 于 2019-8-25 11:35 编辑
一颗赛艇 发表于 2019-8-25 08:38
换12cm散热器,大风量风扇

不要上水冷

谢谢回复。
经销商闷不吭声把我要求的酷冷至尊T400i换成超频三风扇了,我查了下价位差不多,就没折腾。
也许是CPU风扇散热不行?
我在先马泰坦机箱里装了4个风扇了,其中CPU2附近2个排气扇
高温报警时,ipmi检测风扇达到了这两个风扇的满速
排除主板问题后,我考虑更换个好点的CPU2风扇或水冷
作者
Author:
liyuanhe211    时间: 2019-8-25 14:48
2696v3的主频并不很高,经验上一直不咋热,不理解会热到报警。
作者
Author:
kyuu    时间: 2019-8-25 15:07
ATX机箱测照发一张,要看散热如何处理的,有的机箱设计并不合理,或者说没考虑到你有这么高的热量输出

作者
Author:
abin    时间: 2019-8-25 17:05
忘了说了,我也有两台双路的E5-2696v3,搭配的被黑的很惨的华硕主板。
普通散热器。
后来又额外装了了两个20元的12cm的风扇。

负载高的时候,大概76度的样子。
所在房间有空调, 空调一直18度的。
机器会不会叫,没理会过。 能干活就行,谁管它叫不叫。
作者
Author:
Tanya    时间: 2019-8-27 13:32
我也有台双路2696V3的服务器,用的是intel的主板。刚刚装好的时候也觉得热的厉害,尤其是第二个CPU,处于第一个CPU的下风口 。最后我在淘宝上买了两个15W的二手滚珠风扇(直接用12V供电,不调速),在机箱前后各放一个,形成强制对流。空调室温26度的情况下,现在满负荷不超过70℃。就是噪音很大。

我的观点是,CPU风扇再好,如果不把热风排出机箱,还是会超温。
作者
Author:
heartbeats    时间: 2019-8-27 17:21
说实话,给你换超频三风扇的商家应该只是平时卖台式机电脑组装机的那种把。  正儿八经的服务器方案供应商绝对不用超频3,一般服务器的CPU散热器,他们都会采用自己测试过的专用风扇的。
作者
Author:
332544875    时间: 2019-8-28 00:01
你好,我之前也是按sob老师给的配置组装的双路2696v3,满载运行后主板也会出现报警。然后送到经销商那,加了几百块钱换了张大主板(x10drl)和大机箱。现在36核满载长时间运行温度通常在72度左右,偶尔短时间到77~78度,没感觉到有再报警了。
作者
Author:
332544875    时间: 2019-8-28 00:03
顺便提下 cpu风扇也换成了捷豹服务器专用的风扇。
作者
Author:
CrysLantZ    时间: 2019-8-28 22:14
332544875 发表于 2019-8-28 00:01
你好,我之前也是按sob老师给的配置组装的双路2696v3,满载运行后主板也会出现报警。然后送到经销商那,加 ...

感谢提供有价值的信息。
目前空调控制在26度以下,就不报警了。
奇怪的是,ipmitool显示CPU2温度高,另外,CPU1VRM(电压调制模组)比CPU2VRM温度高。
机箱已经2进2排风扇了,效果不明显。看来得配个强力CPU散热器了



作者
Author:
CrysLantZ    时间: 2019-8-28 22:38
Tanya 发表于 2019-8-27 13:32
我也有台双路2696V3的服务器,用的是intel的主板。刚刚装好的时候也觉得热的厉害,尤其是第二个CPU,处于第 ...

CPU不超过70度,那挺理想的。噪音大点,无所谓。
先马泰坦机箱?放在机箱的风扇位,前进风,后排风?
我2进2排风扇,降温效果不明显。
2个进风扇是经销商配的,看的很劣质,我换个强力风扇试试。



作者
Author:
CrysLantZ    时间: 2019-8-28 22:43
本帖最后由 CrysLantZ 于 2019-8-28 22:56 编辑
kyuu 发表于 2019-8-25 15:07
ATX机箱测照发一张,要看散热如何处理的,有的机箱设计并不合理,或者说没考虑到你有这么高的热量输出

谢谢提醒。先马泰坦机箱,应该还行吧。估计是经销商抠门,风扇不给力。
X10DRL-I主板的结构问题,CPU1的热风全吹进了CPU2散热器,所以CPU2温度比CPU1温度能高15度,恰好在温度报警阈值附近了
作者
Author:
CrysLantZ    时间: 2019-8-28 22:45
heartbeats 发表于 2019-8-27 17:21
说实话,给你换超频三风扇的商家应该只是平时卖台式机电脑组装机的那种把。  正儿八经的服务器方案供应商绝 ...

是的,现在感觉下来,我的这家经销商是挺不靠谱的
作者
Author:
Tanya    时间: 2019-8-29 22:34
本帖最后由 Tanya 于 2019-8-29 22:36 编辑
CrysLantZ 发表于 2019-8-28 22:38
CPU不超过70度,那挺理想的。噪音大点,无所谓。
先马泰坦机箱?放在机箱的风扇位,前进风,后排风?
...
对的,前面进后面出。而且把前面的塑料面板给拆了。
我是在淘宝上买的这种风扇:
https://item.taobao.com/item.htm ... 90927&_u=tmrbve948e

一定要用D4接口的,直接接电源。千万别买插在主板上的,功率太大,会烧主板,别问我怎么知道的
作者
Author:
Jasminer    时间: 2019-8-30 05:16
CrysLantZ 发表于 2019-8-28 22:43
谢谢提醒。先马泰坦机箱,应该还行吧。估计是经销商抠门,风扇不给力。
X10DRL-I主板的结构问题,CPU1的 ...

这类机箱风道设计就没考虑过双CPU。
建议你弄成CPU扇、机箱出风都往上,应该CPU、VRM温度会好不少,不过上面的内存环境又差了。
如果内存受不了的话,可以试试前一组往上,后一组往后吹。
作者
Author:
CrysLantZ    时间: 2019-8-30 06:12
Tanya 发表于 2019-8-29 22:34
对的,前面进后面出。而且把前面的塑料面板给拆了。
我是在淘宝上买的这种风扇:
https://item.taobao.co ...

好暴力的风扇,也很实惠
作者
Author:
332544875    时间: 2019-9-11 16:07
Tanya 发表于 2019-8-29 22:34
对的,前面进后面出。而且把前面的塑料面板给拆了。
我是在淘宝上买的这种风扇:
https://item.taobao.co ...

请问你接的风扇电流是多大的?我咨询了超微官方,说的CPU风扇电流限制是4A,一点多安应该安全的吧?
作者
Author:
xiaoma0417    时间: 2019-9-12 15:49
我遇到过温度过热报警的情况,报警温度的阈值其实是和主板有关的。我的是2696V3,双U。主板是超微的x10dai,无法在bios里设置阈值的。用linux的sensors命令,发现温度超过78就会报警。不过报警了也没啥关系,机器照常跑。但是噪音太大了。解决方案就是换了两个CPU风扇。温度就在60度左右了,再也没想过。另外机箱散热不好。周边都没有镂空,所以就把侧面的板子卸下来,换成了防尘网,机箱散热问题也解决了。
作者
Author:
CrysLantZ    时间: 2019-9-13 09:21
台达暴力扇功率比较大,我不确定接主板有没有问题
我在JD买了《GELID 主板4针一分四机箱风扇转接线 黑色 (D口大4PIN转4PIN风扇延长线/50cm长度/GCD/4PX4)》,可以试试
台达风扇:1.24A还是0.8A,自己斟酌吧;要4PIN接口的
转接线:输入端大4PIN接电源供电,小4PIN接主板测速、温控;输出端4个小4PIN,其中只有1个4针的可以测速、温控,其余3个3针的只能温控。
这个转接线是电源供电的,不会增加主板负担
作者
Author:
CrysLantZ    时间: 2019-9-13 09:37
xiaoma0417 发表于 2019-9-12 15:49
我遇到过温度过热报警的情况,报警温度的阈值其实是和主板有关的。我的是2696V3,双U。主板是超微的x10dai ...

我换了两个利民TY-143(14 cm、2500 RPM)风扇做CPU散热风扇,室温25-26时CPU2大概70度左右(见图),没你的效果好。请问你用的什么风扇?
换风扇使Vcpu1VRM降低了不少,但仍有点偏高,目前还不知道怎么调。

换防尘网,这招受教了,马上实践下,谢谢
作者
Author:
kekexili_08    时间: 2019-9-21 20:54
本帖最后由 kekexili_08 于 2019-9-21 20:56 编辑

我有个机器也是这种配置差不多的, 也有热报警问题。为了散热, 机箱能开的都打开了,夏天只能开空调压着。 现在这种天气,加一风扇在主板安装CPU位置的背面吹着, 基本上不响了。
作者
Author:
Picardo    时间: 2019-9-24 17:33
你的主板是全新的嘛,以前刷高外频时也用过,不过没有出现什么温度报警的情况。有的时候主板本身的一些故障也是有可能得
作者
Author:
savorw    时间: 2019-10-30 18:00
V3的这么热,不太科学啊,机箱散热不好吧。俺的2686V3 2699V3 高的也就是60多度一些,不会超过70度
作者
Author:
任豹    时间: 2019-11-4 15:06
遇到同样的问题,两个CPU温度持续在55-66之间,温度不高同样报警。老板说是主板温度高,没法在线看主板温度,比较难受。我这边每次响把我们工作室的门打开,就不报警了。请问老哥你是怎么解决的?
作者
Author:
Tanya    时间: 2019-12-13 17:00
332544875 发表于 2019-9-11 16:07
请问你接的风扇电流是多大的?我咨询了超微官方,说的CPU风扇电流限制是4A,一点多安应该安全的吧?

我实测过,工作电流是1.7A,但是启动电流比较大。
作者
Author:
lao7    时间: 2019-12-14 09:43
本帖最后由 lao7 于 2019-12-14 09:46 编辑

不建议更改报警设置!建议还是换散热装置,同时机箱加散热风扇。
散热装置用纯铜镀锌的那种塔式散热。机箱用两个4pin大风扇就可以了,可以智能调节转速。
CPU1吹到CPU2的风不会产生那么大的影响,CPU2吹出来的风,需要机箱风扇导出去。

最暴力的方法,拆开机箱散热!

作者
Author:
lhx-xwzj    时间: 2024-1-11 20:23
本帖最后由 lhx-xwzj 于 2024-1-11 20:31 编辑

遇到一样的问题了,一样的机子,不过我用的机箱是先马黑洞X,只用一个CPU时,两个CPU温度都很低,但Vcpu1VRM Temp异常高,超100度就会报警,打开前面的门之后保持在83度附近,求问怎么把Vcpu1VRM调低一点,一直开着前面的门太容易吃灰了
(, 下载次数 Times of downloads: 41)
作者
Author:
Satoru    时间: 2024-1-15 16:48
lhx-xwzj 发表于 2024-1-11 20:23
遇到一样的问题了,一样的机子,不过我用的机箱是先马黑洞X,只用一个CPU时,两个CPU温度都很低,但Vcpu1VR ...

你看看vrm1是不是没装散热片,如果是的话淘宝上有卖的
作者
Author:
lhx-xwzj    时间: 2024-1-15 20:30
Satoru 发表于 2024-1-15 16:48
你看看vrm1是不是没装散热片,如果是的话淘宝上有卖的

是的,拆开看了一下确实是CPU1 vrm没有散热片,淘宝上找了半天也没找到和CPU2 vrm同款的散热片,问了几家定制的店,只买一片人家也不卖,就先买了一块用导热胶粘上去的那种,不知道效果如何,还没到货,到时候试试看吧,谢谢您!
作者
Author:
Satoru    时间: 2024-1-16 12:55
lhx-xwzj 发表于 2024-1-15 20:30
是的,拆开看了一下确实是CPU1 vrm没有散热片,淘宝上找了半天也没找到和CPU2 vrm同款的散热片,问了几家 ...

我私聊你一个店家吧
作者
Author:
lhx-xwzj    时间: 2024-1-17 13:00
Satoru 发表于 2024-1-16 12:55
我私聊你一个店家吧

好的好的,十分感谢,您直接私聊我好了




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3