计算化学公社

 找回密码 Forget password
 注册 Register
Views: 2406|回复 Reply: 15
打印 Print 上一主题 Last thread 下一主题 Next thread

[Linux] 新装的机器报硬件错误,需要处理吗?

[复制链接 Copy URL]

439

帖子

0

威望

1478

eV
积分
1917

Level 5 (御坂)

新机器刚跑了三天,连续三天报这个错误,请问需要处理吗?

Message from syslogd@localhost at Aug  4 05:58:13 ...
kernel:[Hardware Error]: Corrected error, no action required.


Message from syslogd@localhost at Aug  4 05:58:13 ...
kernel:[Hardware Error]: CPU:2 (17:31:0) MC17_STATUS[Over|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|-]: 0xdc2040000000011b


Message from syslogd@localhost at Aug  4 05:58:13 ...
kernel:[Hardware Error]: Error Addr: 0x00000002554a7700


Message from syslogd@localhost at Aug  4 05:58:13 ...
kernel:[Hardware Error]: IPID: 0x0000009600450f00, Syndrome: 0xd7df01000a800b00


Message from syslogd@localhost at Aug  4 05:58:13 ...
kernel:[Hardware Error]: Unified Memory Controller Ext. Error Code: 0, DRAM ECC error.


Message from syslogd@localhost at Aug  4 05:58:13 ...
kernel:[Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: RD


Message from syslogd@localhost at Aug  4 06:30:59 ...
kernel:[Hardware Error]: Corrected error, no action required.


Message from syslogd@localhost at Aug  4 06:30:59 ...
kernel:[Hardware Error]: CPU:1 (17:31:0) MC18_STATUS[Over|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|-]: 0xdc2040000000011b


Message from syslogd@localhost at Aug  4 06:30:59 ...
kernel:[Hardware Error]: Error Addr: 0x000000054cfc7b00


Message from syslogd@localhost at Aug  4 06:30:59 ...
kernel:[Hardware Error]: IPID: 0x0000009600350f00, Syndrome: 0xb94600040a800c01


Message from syslogd@localhost at Aug  4 06:30:59 ...
kernel:[Hardware Error]: Unified Memory Controller Ext. Error Code: 0, DRAM ECC error.


Message from syslogd@localhost at Aug  4 06:30:59 ...
kernel:[Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: RD


6万

帖子

99

威望

5万

eV
积分
120080

管理员

公社社长

2#
发表于 Post on 2024-8-4 08:52:43 | 只看该作者 Only view this author
如果只是跑某个程序个别类型任务出现这种信息,且计算结果没问题、机子稳定,一般可以不用管。我的机子满载跑Gaussian的振动分析也偶尔遇到这种提示,但结果没问题、跑任何其它程序也没这种提示。
北京科音自然科学研究中心http://www.keinsci.com)致力于计算化学的发展和传播,长期开办极高质量的各种计算化学类培训:初级量子化学培训班中级量子化学培训班高级量子化学培训班量子化学波函数分析与Multiwfn程序培训班分子动力学与GROMACS培训班CP2K第一性原理计算培训班,内容介绍以及往届资料购买请点击相应链接查看。这些培训是计算化学从零快速入门以及进一步全面系统性提升研究水平的高速路!培训各种常见问题见《北京科音办的培训班FAQ》
欢迎加入北京科音微信公众号获取北京科音培训的最新消息,并避免错过网上有价值的计算化学文章!
欢迎加入人气极高、专业性特别强的理论与计算化学综合交流群思想家公社QQ群(群号见此链接),合计达一万多人。北京科音培训班的学员在群中可申请VIP头衔,提问将得到群主Sobereva的最优先解答。
思想家公社的门口Blog:http://sobereva.com(发布大量原创计算化学相关博文)
Multiwfn主页:http://sobereva.com/multiwfn(十分强大、极为流行的量子化学波函数分析程序)
Google Scholar:https://scholar.google.com/citations?user=tiKE0qkAAAAJ
ResearchGate:https://www.researchgate.net/profile/Tian_Lu

1103

帖子

0

威望

3947

eV
积分
5050

Level 6 (一方通行)

3#
发表于 Post on 2024-8-4 10:29:54 | 只看该作者 Only view this author
如果是找厂商装机,直接联系工程师来检查,保修期内是免费检修的。还可以直接让厂商更换硬件,同样是免费更换。

439

帖子

0

威望

1478

eV
积分
1917

Level 5 (御坂)

4#
 楼主 Author| 发表于 Post on 2024-8-4 11:45:46 | 只看该作者 Only view this author
sobereva 发表于 2024-8-4 08:52
如果只是跑某个程序个别类型任务出现这种信息,且计算结果没问题、机子稳定,一般可以不用管。我的机子满载 ...

出现的有点密集。
Message from syslogd@localhost at Aug  4 09:25:44 ...
kernel:[Hardware Error]: Corrected error, no action required.

Message from syslogd@localhost at Aug  4 09:25:44 ...
kernel:[Hardware Error]: CPU:2 (17:31:0) MC17_STATUS[Over|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|-]: 0xdc2040000000011b

Message from syslogd@localhost at Aug  4 09:25:44 ...
kernel:[Hardware Error]: Error Addr: 0x00000002554a7700

Message from syslogd@localhost at Aug  4 09:25:44 ...
kernel:[Hardware Error]: IPID: 0x0000009600450f00, Syndrome: 0xd7df01000a800b00

Message from syslogd@localhost at Aug  4 09:25:44 ...
kernel:[Hardware Error]: Unified Memory Controller Ext. Error Code: 0, DRAM ECC error.

Message from syslogd@localhost at Aug  4 09:25:44 ...
kernel:[Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: RD

859

帖子

16

威望

5082

eV
积分
6261

Level 6 (一方通行)

小屁孩

5#
发表于 Post on 2024-8-4 22:20:29 | 只看该作者 Only view this author
现在市面上所有便宜的DDR4 3200MT/s RECC内存都是从原厂2666超频上去的,高负载下报ECC是可以预见的,出现这种情况代表内存已经行将就木了,降回2666还能撑一撑
- 向着虚无前进 -

439

帖子

0

威望

1478

eV
积分
1917

Level 5 (御坂)

6#
 楼主 Author| 发表于 Post on 2024-8-4 23:11:51 | 只看该作者 Only view this author
Entropy.S.I 发表于 2024-8-4 22:20
现在市面上所有便宜的DDR4 3200MT/s RECC内存都是从原厂2666超频上去的,高负载下报ECC是可以预见的,出现 ...

啊?内存将要行将就木了?就是内存要坏的意思吗?

2407

帖子

1

威望

5948

eV
积分
8375

Level 6 (一方通行)

7#
发表于 Post on 2024-8-5 07:54:11 | 只看该作者 Only view this author
系统日志都说了这是hardware error.
挂是迟早的事情。
不能说便宜没好货,但是风险较高。
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

1103

帖子

0

威望

3947

eV
积分
5050

Level 6 (一方通行)

8#
发表于 Post on 2024-8-5 09:54:20 | 只看该作者 Only view this author
413 发表于 2024-8-4 23:11
啊?内存将要行将就木了?就是内存要坏的意思吗?

我在 3楼早就回复了,联系商家,联系商家,联系商家

55

帖子

0

威望

719

eV
积分
774

Level 4 (黑子)

9#
发表于 Post on 2024-8-5 22:52:32 | 只看该作者 Only view this author
楼主你好,我们最近配的一台机器也有类似错误,内存频率4800M,用的单颗9654QS,配置了centos 7.9系统,报这个错误时vasp提交的任务会断开。
报商家后排错没法找出原因,在超微主板后台查看内存信息也没报错。

QQ20240805-223907.png (801.91 KB, 下载次数 Times of downloads: 52)

QQ20240805-223907.png

QQ20240805-225134.png (182.44 KB, 下载次数 Times of downloads: 54)

QQ20240805-225134.png

356

帖子

0

威望

2249

eV
积分
2605

Level 5 (御坂)

10#
发表于 Post on 2024-8-7 08:16:09 | 只看该作者 Only view this author
zmjsce 发表于 2024-8-5 22:52
楼主你好,我们最近配的一台机器也有类似错误,内存频率4800M,用的单颗9654QS,配置了centos 7.9系统,报 ...

恭喜你踩坑成功。

55

帖子

0

威望

719

eV
积分
774

Level 4 (黑子)

11#
发表于 Post on 2024-8-7 13:42:40 | 只看该作者 Only view this author
gog 发表于 2024-8-7 08:16
恭喜你踩坑成功。

发生频率不高,考虑到qs的价格,目前感觉还可以接受

62

帖子

1

威望

3184

eV
积分
3266

Level 5 (御坂)

见习砖工

12#
发表于 Post on 2024-8-21 04:18:55 | 只看该作者 Only view this author
忘了在哪看的,ECC Corrected error可接受的频率上限是每条内存每24 h出现一次

超过这个频率的话建议是把出问题的内存和其他内存调换位置,如果问题跟着走的话就得换了
人には定めの星がある。綺羅星、明星、流れ星。己の星は見えずとも、見上げる私は今日限り。99期生、星見純那。掴んで見せます、自分星!

135

帖子

0

威望

1587

eV
积分
1722

Level 5 (御坂)

13#
发表于 Post on 2024-9-9 15:03:19 | 只看该作者 Only view this author
zmjsce 发表于 2024-8-5 22:52
楼主你好,我们最近配的一台机器也有类似错误,内存频率4800M,用的单颗9654QS,配置了centos 7.9系统,报 ...

9654是不是计算能力特别猛??

55

帖子

0

威望

719

eV
积分
774

Level 4 (黑子)

14#
发表于 Post on 2024-9-24 12:22:46 | 只看该作者 Only view this author
renzhogn424 发表于 2024-9-9 15:03
9654是不是计算能力特别猛??

站内对9654已经有详细测评报告了。我们的结果是单颗9654快于双路8375C没问题的

135

帖子

0

威望

1587

eV
积分
1722

Level 5 (御坂)

15#
发表于 Post on 2024-9-25 22:49:47 | 只看该作者 Only view this author
zmjsce 发表于 2024-9-24 12:22
站内对9654已经有详细测评报告了。我们的结果是单颗9654快于双路8375C没问题的

对哦,之前看过测评,只是觉得价格触不可及没细看。现在在用7k62也还不错。

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2025-8-13 03:52 , Processed in 0.189788 second(s), 23 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list