计算化学公社

标题: 大半年前在淘宝买的机器,内存已经坏了两条了。。。 [打印本页]

作者
Author:
DoorBell    时间: 2021-5-2 04:02
标题: 大半年前在淘宝买的机器,内存已经坏了两条了。。。
本帖最后由 DoorBell 于 2021-5-2 04:04 编辑

RT,现在心态有点爆炸

机器买回来时插了8*32G REG ECC 2666的三星内存,自己又从某东购买了8*32G内存。淘宝商家提供的内存除两条17年生产的B-die内存之外其他的C-die内存生产时间为18年左右,自己买的某东自营为C-die内存20年生产。

之所以知道内存坏了是因为root用户可以收到系统的邮件提示HANDLING MCE MEMORY ERROR,同时cat /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count(*为数字)也有不为零的内存。

之前坏掉的那条就是17年生产的三星2666 REG ECC 32G,B-die颗粒,高度怀疑是拆机条;今天又收到了类似邮件并发现cat /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count有不为零的内存,大致对应了一下插槽,怀疑是另外一条B-die的17年生产的内存。。。

淘宝商家提供的内存价格当时是700元/条,对比当时某东自营1350元/条,emmm。。。问题是这都用了半年多了怎么突然又坏了。。。

请问这类故障是必须更换内存条吗?现在挖矿搞得内存也涨价缺货。。。行货虽然贵,但是全新应该还是有保障的。



顺便三星内存根据内存编号可以分辨颗粒:M393A4K40CB2-CTD C-die颗粒,M393A4K40BB2-CTD B-die颗粒



作者
Author:
abin    时间: 2021-5-2 09:37
拆机条,未必就很容易坏。
没有什么因果关系。

可能你拿到的那批次物品就有问题,
或许是假的三星条。

既然只有大半年的时间,直接售后维修呗。

看mcelroy就可以了。
上面会告诉你,内存是否有故障。
如果是直接坏了几个内存条,
系统可能开机报警或者内存容量有变动。

作者
Author:
vv_c    时间: 2021-5-2 09:54
拆机条还好,最怕是买到了从电子垃圾里面淘出来的残次品
作者
Author:
gog    时间: 2021-5-2 10:57
淘宝店、店铺一年质保吧。问问看
作者
Author:
doublezhang    时间: 2021-5-2 11:09
拔了用橡皮擦擦,或者换个位置没准还能再活一世
【这么大的内存,赶快做成内存盘然后搭配机械盘挖CHIA啊
作者
Author:
DoorBell    时间: 2021-5-2 14:29
abin 发表于 2021-5-2 09:37
拆机条,未必就很容易坏。
没有什么因果关系。

很奇怪,这一次的报错数并不像上次那样爆炸式增长,甚至我刚刚用p95压力测试内存,把内存怼到31W+31W报错只增长了2,Gaussian的test0397也和之前速度一致。

另外仔细想想,这两次的内存问题好像均发生在ORCA算TDDFT任务的时候,而中间这半年时间确实没算过TDDFT,啊这。。。难道。。。
作者
Author:
DoorBell    时间: 2021-5-2 14:36
doublezhang 发表于 2021-5-2 11:09
拔了用橡皮擦擦,或者换个位置没准还能再活一世
【这么大的内存,赶快做成内存盘然后搭配机械盘挖CHIA啊

请问如果一直有这个报错,不论是否快速增长,都需要换掉这跟内存吗?

【挖矿,emmm现在某东自营的同款内存涨到2999/条了,挖坏了得不偿失
作者
Author:
biogon    时间: 2021-5-2 18:15
DoorBell 发表于 2021-5-2 14:29
很奇怪,这一次的报错数并不像上次那样爆炸式增长,甚至我刚刚用p95压力测试内存,把内存怼到31W+31W报错 ...

那这多半不是硬件问题
作者
Author:
biogon    时间: 2021-5-2 18:16
doublezhang 发表于 2021-5-2 11:09
拔了用橡皮擦擦,或者换个位置没准还能再活一世
【这么大的内存,赶快做成内存盘然后搭配机械盘挖CHIA啊

CHIA起码得330G以上
作者
Author:
DoorBell    时间: 2021-5-2 20:53
biogon 发表于 2021-5-2 18:15
那这多半不是硬件问题

请问老师为什么这么说呢?
作者
Author:
biogon    时间: 2021-5-3 16:38
DoorBell 发表于 2021-5-2 20:53
请问老师为什么这么说呢?

p95内存测试都没显著问题,那可以安心用了
作者
Author:
Picardo    时间: 2021-5-5 09:44
拆下来试试呗,
作者
Author:
doublezhang    时间: 2021-5-6 15:56
DoorBell 发表于 2021-5-2 14:29
很奇怪,这一次的报错数并不像上次那样爆炸式增长,甚至我刚刚用p95压力测试内存,把内存怼到31W+31W报错 ...

ORCA算TDDFT会泄露内存的,有时候甚至会偶发性挂掉,感觉有点八哥在里面
作者
Author:
hxd_yi    时间: 2021-5-13 09:14
下半年开始DDR5开始出货,内存今年内基本是会一直涨价的。
作者
Author:
DoorBell    时间: 2021-11-23 17:25
给大家补个后续

主楼里提到的报错的内存条并非是17年生产而是自己某东自营买的行货。。。报错数停止在1062再没有增长。看起来内存硬件确实没有问题

近日又发现一报错内存,并且报错数持续缓慢增长。通过物理替换确定了报错内存信息:

Handle 0x001F, DMI type 17, 84 bytes
Memory Device
        Array Handle: 0x000F
        Error Information Handle: Not Provided
        Total Width: 72 bits
        Data Width: 64 bits
        Size: 32 GB
        Form Factor: DIMM
        Set: None
        Locator: P2-DIMMF1
        Bank Locator: P1_Node1_Channel2_Dimm0
        Type: DDR4
        Type Detail: Synchronous
        Speed: 2666 MT/s
        Manufacturer: Samsung
        Serial Number: 24427891
        Asset Tag: P2-DIMMF1_AssetTag (Date:18/46)
        Part Number: M393A4K40CB2-CTD   
        Rank: 2
        Configured Memory Speed: 2666 MT/s
        Minimum Voltage: 1.2 V
        Maximum Voltage: 1.2 V
        Configured Voltage: 1.2 V
        Memory Technology: DRAM
        Memory Operating Mode Capability: Volatile memory
        Firmware Version: 0000
        Module Manufacturer ID: Bank 1, Hex 0xCE
        Module Product ID: Unknown
        Memory Subsystem Controller Manufacturer ID: Unknown
        Memory Subsystem Controller Product ID: Unknown
        Non-Volatile Size: None
        Volatile Size: 32 GB
        Cache Size: None
        Logical Size: None

果不其然是拆机条。。。铭牌上大大一个Made in Philippine




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3