计算化学公社

 找回密码 Forget password
 注册 Register
Views: 4514|回复 Reply: 13
打印 Print 上一主题 Last thread 下一主题 Next thread

[硬件相关] 求助:服务器内存出现问题

[复制链接 Copy URL]

509

帖子

1

威望

4249

eV
积分
4778

Level 6 (一方通行)

本帖最后由 tjuptz 于 2020-8-22 07:33 编辑

服务器是按社长的廉价标准配置内存8*8G。昨天夜里用GPU跑gromacs,早起发现屏幕黑了,主机还亮着,USB接口失效。重启后遇到如下问题


检索了下好像是内存问题,用free看了下内存确实少了

目前不知道如何排查是接触性问题还是烧了,请求帮助,先谢过!

125

帖子

0

威望

2300

eV
积分
2425

Level 5 (御坂)

2#
发表于 Post on 2020-8-22 09:23:20 | 只看该作者 Only view this author
拔下来,用橡皮擦擦,插回去
拔下来,用橡皮擦擦,换个槽插回去

509

帖子

1

威望

4249

eV
积分
4778

Level 6 (一方通行)

3#
 楼主 Author| 发表于 Post on 2020-8-22 09:26:24 | 只看该作者 Only view this author
doublezhang 发表于 2020-8-22 09:23
拔下来,用橡皮擦擦,插回去
拔下来,用橡皮擦擦,换个槽插回去

谢谢,让我动手试试

62

帖子

0

威望

1059

eV
积分
1121

Level 4 (黑子)

4#
发表于 Post on 2020-8-22 09:30:55 | 只看该作者 Only view this author
本帖最后由 Peter_zhong 于 2020-8-22 09:32 编辑

这个我之前遇到过。拔下来再插上去没用。我后面是 找到这根出错的,在那个区域换了个相同颜色的卡槽插上,完美解决。

509

帖子

1

威望

4249

eV
积分
4778

Level 6 (一方通行)

5#
 楼主 Author| 发表于 Post on 2020-8-22 09:37:14 | 只看该作者 Only view this author
Peter_zhong 发表于 2020-8-22 09:30
这个我之前遇到过。拔下来再插上去没用。我后面是 找到这根出错的,换了个相同颜色的卡槽插上,完美解决。{ ...

大佬,能麻烦您解释下 换个颜色相同卡槽 是啥意思嘛

62

帖子

0

威望

1059

eV
积分
1121

Level 4 (黑子)

6#
发表于 Post on 2020-8-22 09:47:56 | 只看该作者 Only view this author
本帖最后由 Peter_zhong 于 2020-8-22 09:52 编辑
tjuptz 发表于 2020-8-22 09:37
大佬,能麻烦您解释下 换个颜色相同卡槽 是啥意思嘛

二楼已经说得很清楚了。我的服务器 一个区域的卡槽 是一黑三蓝 共四个卡槽口。之前内存条是插中间两个蓝的,有根不是没反应嘛 像你这样,然后把坏的插在了第四个蓝色的卡槽处。就解决了

51

帖子

0

威望

1027

eV
积分
1078

Level 4 (黑子)

7#
发表于 Post on 2020-8-22 10:34:33 | 只看该作者 Only view this author
我也出现类似的错误,莫名其妙掉内存。换了个插槽好了。连续掉好几根内存,就那1个插槽无论如何也不识别,换别的内存条也不识别,只能换插槽了。
专注于面向个人的量化问题解决,LAMMPS ReaxFF力场。一对一提供服务,本人个人电脑提供计算资源,双路8168,128G内存。

509

帖子

1

威望

4249

eV
积分
4778

Level 6 (一方通行)

8#
 楼主 Author| 发表于 Post on 2020-8-22 10:49:59 | 只看该作者 Only view this author
本帖最后由 tjuptz 于 2020-8-22 10:59 编辑
Peter_zhong 发表于 2020-8-22 09:47
二楼已经说得很清楚了。我的服务器 一个区域的卡槽 是一黑三蓝 共四个卡槽口。之前内存条是插中间两个蓝 ...

试了下,之前报错是D1、F1报错,我把D1拔了,又报B1 F1错了;我把B1 D1 F1都拔了,三个都不插不报错;
把F1插在D1处,别的没插,又报A1 G1错误…… 然后再把这个插到D1的拔了,还是A1 G1错误
这是说明主板问题吧……

509

帖子

1

威望

4249

eV
积分
4778

Level 6 (一方通行)

9#
 楼主 Author| 发表于 Post on 2020-8-22 10:52:57 | 只看该作者 Only view this author
447951397 发表于 2020-8-22 10:34
我也出现类似的错误,莫名其妙掉内存。换了个插槽好了。连续掉好几根内存,就那1个插槽无论如何也不识别, ...

您看下我8楼说的情况,是一个槽的问题导致的嘛,迷迷糊糊的

113

帖子

0

威望

3124

eV
积分
3237

Level 5 (御坂)

10#
发表于 Post on 2020-8-22 10:54:04 | 只看该作者 Only view this author
我也出现过一次掉内存的事情,坏了一根,跟商家免费换了就好了。

51

帖子

0

威望

1027

eV
积分
1078

Level 4 (黑子)

11#
发表于 Post on 2020-8-22 15:17:23 | 只看该作者 Only view this author
tjuptz 发表于 2020-8-22 10:49
试了下,之前报错是D1、F1报错,我把D1拔了,又报B1 F1错了;我把B1 D1 F1都拔了,三个都不插不报错;
...

也可能CPU触点问题吧,也有可能CPU内存通道烧毁的可能。当然也可能是内存本身的问题,把这个内存条插到良好的插槽能识别的话就不是内存条的问题。
专注于面向个人的量化问题解决,LAMMPS ReaxFF力场。一对一提供服务,本人个人电脑提供计算资源,双路8168,128G内存。

82

帖子

4

威望

2475

eV
积分
2637

Level 5 (御坂)

12#
发表于 Post on 2020-8-22 15:35:04 | 只看该作者 Only view this author
本帖最后由 winnerwill 于 2020-8-22 15:56 编辑

看内存少了将近一半,至少有一半是正常的,把已怀疑有问题的拔下来插到正常的部分卡槽,其他不插,还能全部认不报错的话,估计是主板问题.报错的话可以再一根根排除是哪根出错

509

帖子

1

威望

4249

eV
积分
4778

Level 6 (一方通行)

13#
 楼主 Author| 发表于 Post on 2020-8-22 17:05:27 | 只看该作者 Only view this author
把出问题的重新插了一下,目前行了,感觉是接触问题。谢谢各位大佬指点!!!

509

帖子

1

威望

4249

eV
积分
4778

Level 6 (一方通行)

14#
 楼主 Author| 发表于 Post on 2022-10-24 09:05:12 | 只看该作者 Only view this author
最近把系统从centos7.6换到了rocky8.6,又出现了掉内存现象,而且也是cpu上面那4个轮着掉,重插一个下一个就掉。还有一个P1-DIMMB1开机自检没检测出来掉,用free查看时总少一条的容量。后面用排除法排查出来的。由于它被cpu散热风扇挡住了,这次费了不少功夫才能动它,跟其他排查完的调换了一下位置就好了。好像这次和上次都是在装系统安装nvidia驱动后出现的,不知道是不是巧合,还是两者之间存在某种关联。

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-27 08:44 , Processed in 0.219809 second(s), 24 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list