计算化学公社

标题: 求助:服务器内存出现问题 [打印本页]

作者
Author:
tjuptz    时间: 2020-8-22 07:32
标题: 求助:服务器内存出现问题
本帖最后由 tjuptz 于 2020-8-22 07:33 编辑

服务器是按社长的廉价标准配置内存8*8G。昨天夜里用GPU跑gromacs,早起发现屏幕黑了,主机还亮着,USB接口失效。重启后遇到如下问题
(, 下载次数 Times of downloads: 44) (, 下载次数 Times of downloads: 32)

检索了下好像是内存问题,用free看了下内存确实少了
(, 下载次数 Times of downloads: 35)
目前不知道如何排查是接触性问题还是烧了,请求帮助,先谢过!

作者
Author:
doublezhang    时间: 2020-8-22 09:23
拔下来,用橡皮擦擦,插回去
拔下来,用橡皮擦擦,换个槽插回去
作者
Author:
tjuptz    时间: 2020-8-22 09:26
doublezhang 发表于 2020-8-22 09:23
拔下来,用橡皮擦擦,插回去
拔下来,用橡皮擦擦,换个槽插回去

谢谢,让我动手试试
作者
Author:
Peter_zhong    时间: 2020-8-22 09:30
本帖最后由 Peter_zhong 于 2020-8-22 09:32 编辑

这个我之前遇到过。拔下来再插上去没用。我后面是 找到这根出错的,在那个区域换了个相同颜色的卡槽插上,完美解决。
作者
Author:
tjuptz    时间: 2020-8-22 09:37
Peter_zhong 发表于 2020-8-22 09:30
这个我之前遇到过。拔下来再插上去没用。我后面是 找到这根出错的,换了个相同颜色的卡槽插上,完美解决。{ ...

大佬,能麻烦您解释下 换个颜色相同卡槽 是啥意思嘛
作者
Author:
Peter_zhong    时间: 2020-8-22 09:47
本帖最后由 Peter_zhong 于 2020-8-22 09:52 编辑
tjuptz 发表于 2020-8-22 09:37
大佬,能麻烦您解释下 换个颜色相同卡槽 是啥意思嘛

二楼已经说得很清楚了。我的服务器 一个区域的卡槽 是一黑三蓝 共四个卡槽口。之前内存条是插中间两个蓝的,有根不是没反应嘛 像你这样,然后把坏的插在了第四个蓝色的卡槽处。就解决了
作者
Author:
447951397    时间: 2020-8-22 10:34
我也出现类似的错误,莫名其妙掉内存。换了个插槽好了。连续掉好几根内存,就那1个插槽无论如何也不识别,换别的内存条也不识别,只能换插槽了。
作者
Author:
tjuptz    时间: 2020-8-22 10:49
本帖最后由 tjuptz 于 2020-8-22 10:59 编辑
Peter_zhong 发表于 2020-8-22 09:47
二楼已经说得很清楚了。我的服务器 一个区域的卡槽 是一黑三蓝 共四个卡槽口。之前内存条是插中间两个蓝 ...

试了下,之前报错是D1、F1报错,我把D1拔了,又报B1 F1错了;我把B1 D1 F1都拔了,三个都不插不报错;
把F1插在D1处,别的没插,又报A1 G1错误…… 然后再把这个插到D1的拔了,还是A1 G1错误
这是说明主板问题吧……

作者
Author:
tjuptz    时间: 2020-8-22 10:52
447951397 发表于 2020-8-22 10:34
我也出现类似的错误,莫名其妙掉内存。换了个插槽好了。连续掉好几根内存,就那1个插槽无论如何也不识别, ...

您看下我8楼说的情况,是一个槽的问题导致的嘛,迷迷糊糊的
作者
Author:
qinzhong605    时间: 2020-8-22 10:54
我也出现过一次掉内存的事情,坏了一根,跟商家免费换了就好了。
作者
Author:
447951397    时间: 2020-8-22 15:17
tjuptz 发表于 2020-8-22 10:49
试了下,之前报错是D1、F1报错,我把D1拔了,又报B1 F1错了;我把B1 D1 F1都拔了,三个都不插不报错;
...

也可能CPU触点问题吧,也有可能CPU内存通道烧毁的可能。当然也可能是内存本身的问题,把这个内存条插到良好的插槽能识别的话就不是内存条的问题。
作者
Author:
winnerwill    时间: 2020-8-22 15:35
本帖最后由 winnerwill 于 2020-8-22 15:56 编辑

看内存少了将近一半,至少有一半是正常的,把已怀疑有问题的拔下来插到正常的部分卡槽,其他不插,还能全部认不报错的话,估计是主板问题.报错的话可以再一根根排除是哪根出错

作者
Author:
tjuptz    时间: 2020-8-22 17:05
把出问题的重新插了一下,目前行了,感觉是接触问题。谢谢各位大佬指点!!!
作者
Author:
tjuptz    时间: 2022-10-24 09:05
最近把系统从centos7.6换到了rocky8.6,又出现了掉内存现象,而且也是cpu上面那4个轮着掉,重插一个下一个就掉。还有一个P1-DIMMB1开机自检没检测出来掉,用free查看时总少一条的容量。后面用排除法排查出来的。由于它被cpu散热风扇挡住了,这次费了不少功夫才能动它,跟其他排查完的调换了一下位置就好了。好像这次和上次都是在装系统安装nvidia驱动后出现的,不知道是不是巧合,还是两者之间存在某种关联。




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3