计算化学公社

 找回密码 Forget password
 注册 Register
Views: 2411|回复 Reply: 15
打印 Print 上一主题 Last thread 下一主题 Next thread

[Linux] 新装的机器报硬件错误,需要处理吗?

[复制链接 Copy URL]

439

帖子

0

威望

1478

eV
积分
1917

Level 5 (御坂)

新机器刚跑了三天,连续三天报这个错误,请问需要处理吗?

Message from syslogd@localhost at Aug  4 05:58:13 ...
kernel:[Hardware Error]: Corrected error, no action required.


Message from syslogd@localhost at Aug  4 05:58:13 ...
kernel:[Hardware Error]: CPU:2 (17:31:0) MC17_STATUS[Over|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|-]: 0xdc2040000000011b


Message from syslogd@localhost at Aug  4 05:58:13 ...
kernel:[Hardware Error]: Error Addr: 0x00000002554a7700


Message from syslogd@localhost at Aug  4 05:58:13 ...
kernel:[Hardware Error]: IPID: 0x0000009600450f00, Syndrome: 0xd7df01000a800b00


Message from syslogd@localhost at Aug  4 05:58:13 ...
kernel:[Hardware Error]: Unified Memory Controller Ext. Error Code: 0, DRAM ECC error.


Message from syslogd@localhost at Aug  4 05:58:13 ...
kernel:[Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: RD


Message from syslogd@localhost at Aug  4 06:30:59 ...
kernel:[Hardware Error]: Corrected error, no action required.


Message from syslogd@localhost at Aug  4 06:30:59 ...
kernel:[Hardware Error]: CPU:1 (17:31:0) MC18_STATUS[Over|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|-]: 0xdc2040000000011b


Message from syslogd@localhost at Aug  4 06:30:59 ...
kernel:[Hardware Error]: Error Addr: 0x000000054cfc7b00


Message from syslogd@localhost at Aug  4 06:30:59 ...
kernel:[Hardware Error]: IPID: 0x0000009600350f00, Syndrome: 0xb94600040a800c01


Message from syslogd@localhost at Aug  4 06:30:59 ...
kernel:[Hardware Error]: Unified Memory Controller Ext. Error Code: 0, DRAM ECC error.


Message from syslogd@localhost at Aug  4 06:30:59 ...
kernel:[Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: RD


83

帖子

0

威望

444

eV
积分
527

Level 4 (黑子)

16#
发表于 Post on 2024-10-7 20:56:02 | 只看该作者 Only view this author
各位大佬,我新装的机子也遇到了这个问题,我在使用Xshell远程连接的时候会出现这个问题,有时它可以自动恢复
但是有时就不能恢复。
我在服务器上直接操作的时候就没有遇到这种问题,请问是什么情况?

135

帖子

0

威望

1587

eV
积分
1722

Level 5 (御坂)

15#
发表于 Post on 2024-9-25 22:49:47 | 只看该作者 Only view this author
zmjsce 发表于 2024-9-24 12:22
站内对9654已经有详细测评报告了。我们的结果是单颗9654快于双路8375C没问题的

对哦,之前看过测评,只是觉得价格触不可及没细看。现在在用7k62也还不错。

55

帖子

0

威望

719

eV
积分
774

Level 4 (黑子)

14#
发表于 Post on 2024-9-24 12:22:46 | 只看该作者 Only view this author
renzhogn424 发表于 2024-9-9 15:03
9654是不是计算能力特别猛??

站内对9654已经有详细测评报告了。我们的结果是单颗9654快于双路8375C没问题的

135

帖子

0

威望

1587

eV
积分
1722

Level 5 (御坂)

13#
发表于 Post on 2024-9-9 15:03:19 | 只看该作者 Only view this author
zmjsce 发表于 2024-8-5 22:52
楼主你好,我们最近配的一台机器也有类似错误,内存频率4800M,用的单颗9654QS,配置了centos 7.9系统,报 ...

9654是不是计算能力特别猛??

62

帖子

1

威望

3184

eV
积分
3266

Level 5 (御坂)

见习砖工

12#
发表于 Post on 2024-8-21 04:18:55 | 只看该作者 Only view this author
忘了在哪看的,ECC Corrected error可接受的频率上限是每条内存每24 h出现一次

超过这个频率的话建议是把出问题的内存和其他内存调换位置,如果问题跟着走的话就得换了
人には定めの星がある。綺羅星、明星、流れ星。己の星は見えずとも、見上げる私は今日限り。99期生、星見純那。掴んで見せます、自分星!

55

帖子

0

威望

719

eV
积分
774

Level 4 (黑子)

11#
发表于 Post on 2024-8-7 13:42:40 | 只看该作者 Only view this author
gog 发表于 2024-8-7 08:16
恭喜你踩坑成功。

发生频率不高,考虑到qs的价格,目前感觉还可以接受

356

帖子

0

威望

2249

eV
积分
2605

Level 5 (御坂)

10#
发表于 Post on 2024-8-7 08:16:09 | 只看该作者 Only view this author
zmjsce 发表于 2024-8-5 22:52
楼主你好,我们最近配的一台机器也有类似错误,内存频率4800M,用的单颗9654QS,配置了centos 7.9系统,报 ...

恭喜你踩坑成功。

55

帖子

0

威望

719

eV
积分
774

Level 4 (黑子)

9#
发表于 Post on 2024-8-5 22:52:32 | 只看该作者 Only view this author
楼主你好,我们最近配的一台机器也有类似错误,内存频率4800M,用的单颗9654QS,配置了centos 7.9系统,报这个错误时vasp提交的任务会断开。
报商家后排错没法找出原因,在超微主板后台查看内存信息也没报错。

QQ20240805-223907.png (801.91 KB, 下载次数 Times of downloads: 53)

QQ20240805-223907.png

QQ20240805-225134.png (182.44 KB, 下载次数 Times of downloads: 55)

QQ20240805-225134.png

1103

帖子

0

威望

3947

eV
积分
5050

Level 6 (一方通行)

8#
发表于 Post on 2024-8-5 09:54:20 | 只看该作者 Only view this author
413 发表于 2024-8-4 23:11
啊?内存将要行将就木了?就是内存要坏的意思吗?

我在 3楼早就回复了,联系商家,联系商家,联系商家

2407

帖子

1

威望

5948

eV
积分
8375

Level 6 (一方通行)

7#
发表于 Post on 2024-8-5 07:54:11 | 只看该作者 Only view this author
系统日志都说了这是hardware error.
挂是迟早的事情。
不能说便宜没好货,但是风险较高。
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

439

帖子

0

威望

1478

eV
积分
1917

Level 5 (御坂)

6#
 楼主 Author| 发表于 Post on 2024-8-4 23:11:51 | 只看该作者 Only view this author
Entropy.S.I 发表于 2024-8-4 22:20
现在市面上所有便宜的DDR4 3200MT/s RECC内存都是从原厂2666超频上去的,高负载下报ECC是可以预见的,出现 ...

啊?内存将要行将就木了?就是内存要坏的意思吗?

859

帖子

16

威望

5082

eV
积分
6261

Level 6 (一方通行)

小屁孩

5#
发表于 Post on 2024-8-4 22:20:29 | 只看该作者 Only view this author
现在市面上所有便宜的DDR4 3200MT/s RECC内存都是从原厂2666超频上去的,高负载下报ECC是可以预见的,出现这种情况代表内存已经行将就木了,降回2666还能撑一撑
- 向着虚无前进 -

439

帖子

0

威望

1478

eV
积分
1917

Level 5 (御坂)

4#
 楼主 Author| 发表于 Post on 2024-8-4 11:45:46 | 只看该作者 Only view this author
sobereva 发表于 2024-8-4 08:52
如果只是跑某个程序个别类型任务出现这种信息,且计算结果没问题、机子稳定,一般可以不用管。我的机子满载 ...

出现的有点密集。
Message from syslogd@localhost at Aug  4 09:25:44 ...
kernel:[Hardware Error]: Corrected error, no action required.

Message from syslogd@localhost at Aug  4 09:25:44 ...
kernel:[Hardware Error]: CPU:2 (17:31:0) MC17_STATUS[Over|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|-]: 0xdc2040000000011b

Message from syslogd@localhost at Aug  4 09:25:44 ...
kernel:[Hardware Error]: Error Addr: 0x00000002554a7700

Message from syslogd@localhost at Aug  4 09:25:44 ...
kernel:[Hardware Error]: IPID: 0x0000009600450f00, Syndrome: 0xd7df01000a800b00

Message from syslogd@localhost at Aug  4 09:25:44 ...
kernel:[Hardware Error]: Unified Memory Controller Ext. Error Code: 0, DRAM ECC error.

Message from syslogd@localhost at Aug  4 09:25:44 ...
kernel:[Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: RD

1103

帖子

0

威望

3947

eV
积分
5050

Level 6 (一方通行)

3#
发表于 Post on 2024-8-4 10:29:54 | 只看该作者 Only view this author
如果是找厂商装机,直接联系工程师来检查,保修期内是免费检修的。还可以直接让厂商更换硬件,同样是免费更换。

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2025-8-13 06:31 , Processed in 0.165479 second(s), 24 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list