计算化学公社

标题: 工作站上运行gaussian,Centos7.9卡死 [打印本页]

作者
Author:
小强    时间: 2022-4-16 14:29
标题: 工作站上运行gaussian,Centos7.9卡死
请问各位坛友,我配的工作站(2*CPU: Gold 6147F;内存12*16G)连续运行Gaussian16 A.01约十几个小时后,用的核心数是12,内存为12GB,大概率就会卡机动不了,只能重启,可能是什么原因导致的呢?谢谢大家。
其他情况说明:
(1)用的系统是Centos7.9; (2) CPU是正显版(说是经过测试,就差上市发行);(3)内存条本来是可以插12条,但有一根坏了,目前只插了11条;但是利用free -g命令查看,也只有109G的内存(也不知道什么原因)


作者
Author:
Michem_ai    时间: 2022-4-16 15:12
计算机卡死?
作者
Author:
小强    时间: 2022-4-16 15:16
Michem_ai 发表于 2022-4-16 15:12
计算机卡死?

是的,工作站卡死,在图形界面上点击鼠标没有反应
作者
Author:
chrinide    时间: 2022-4-16 15:57
A: 坏了不止一根内存(大概率),也有可能主板内存插槽坏了(小概率)
B: 有内存条没有插好。拔出来所有内存条,用橡皮擦一下内存的金手指,再重新一条一条插进去,在此过程中可以用排除法找到可能坏的内存

检查方法:拔出所有内存条,用橡皮擦擦好所有内存条的金手指,随机选取一个内存A,插入内存槽1,重启机器测试,如果通过,拔出内存A,插入内存槽2,依次插拔12次,找到可能坏的插槽;然后用好的内存槽测试剩下的内存条,找出可能坏的内存条...

如果你有科学精神,也可以设计一个正交随机试验,这样可以少插拔几次内存条
               
作者
Author:
abin    时间: 2022-4-16 17:08
联系卖家,上门修,或者退货退款,赔偿损失。
作者
Author:
abin    时间: 2022-4-16 17:31
手机网络又卡了,重复了一条。重复的删除就好。

之前遇到一台机器,
使用某一主板,用一段时间,
网卡全消失,机器就像果冻一样,
显示器鼠标都不动……其实已经死好久了……

电源按一下,立即灭火……

后来确认是主板问题。仅供参考。
作者
Author:
Michem_ai    时间: 2022-4-16 18:54
跑一个任务看看,有可能是程序的问题,或者换一个09试试,我以前也遇到过。
作者
Author:
Michem_ai    时间: 2022-4-16 18:55
Michem_ai 发表于 2022-4-16 18:54
跑一个任务看看,有可能是程序的问题,或者换一个09试试,我以前也遇到过。

也有可能是权限设置的问题
作者
Author:
小强    时间: 2022-4-16 20:22
chrinide 发表于 2022-4-16 15:57
A: 坏了不止一根内存(大概率),也有可能主板内存插槽坏了(小概率)
B: 有内存条没有插好。拔出来所有内 ...

谢谢回复,尝试过用橡皮擦金手指。
用dmidecode -t memory命令看下内存条信息,能读出来11根内存的信息,这样的理论应该有132G内存,就坏的那根无论插在哪个内存槽都读不出,。但用free -g命令显示的Total(mem)有109G,Total(Swap)有3G
我用的主板是超微X11DPi-N,这块板子有四个黑色的槽和12个蓝色槽,内存条都插蓝色槽里边了,这么做应该没问题吧?顺带请教下,哪个黑色槽是干什么用的?
作者
Author:
小强    时间: 2022-4-16 20:24
abin 发表于 2022-4-16 17:31
手机网络又卡了,重复了一条。重复的删除就好。

之前遇到一台机器,

谢谢回复。我这情况和您描述的好像啊。我用的主板是超微X11DPi-N;追问下,您是怎么确定最后是主板问题的呢?
作者
Author:
小强    时间: 2022-4-16 20:26
Michem_ai 发表于 2022-4-16 18:54
跑一个任务看看,有可能是程序的问题,或者换一个09试试,我以前也遇到过。

倒没考虑过是程序的问题,我安装个g09试试看,谢谢建议!
作者
Author:
abin    时间: 2022-4-16 20:30
小强 发表于 2022-4-16 20:24
谢谢回复。我这情况和您描述的好像啊。我用的主板是超微X11DPi-N;追问下,您是怎么确定最后是主板问题的 ...

我那次,
是华擎某批次主板+8173M处理器.
同一批次三个主板 都一个毛病, 当然是主板问题了.

最后, 上海的工程师说, 他们换另一个批次试试, 然后就好了.

我是偶然协助某硬件商, 调试集群的时候, 偶然遇到的故障.
不代表所有的类似故障都是同样原因.
仅供参考.

作者
Author:
小强    时间: 2022-4-16 20:33
abin 发表于 2022-4-16 20:30
我那次,
是华擎某批次主板+8173M处理器.
同一批次三个主板 都一个毛病, 当然是主板问题了.

好的,明白,谢谢啦
作者
Author:
lao7    时间: 2022-4-17 02:35
大概率CPU问题!我之前用过正显CPU,很容易卡死。而且没有规律!运行6-24小时卡死,很多卡在12小时左右。如果长时间计算,换U。如果简单计算没有问题!
作者
Author:
小强    时间: 2022-4-17 14:44
lao7 发表于 2022-4-17 02:35
大概率CPU问题!我之前用过正显CPU,很容易卡死。而且没有规律!运行6-24小时卡死,很多卡在12小时左右。如 ...

是的,连续运行超不过1天。一直担心就是U的问题,没想到可能还真是这问题。小白不能贪便宜啊;谢谢你啊。顺便问下,换U是不是比较麻烦?
作者
Author:
lao7    时间: 2022-4-19 04:53
小强 发表于 2022-4-17 14:44
是的,连续运行超不过1天。一直担心就是U的问题,没想到可能还真是这问题。小白不能贪便宜啊;谢谢 ...

不麻烦 我的服务器全部是我自己组装的!更换CPU一定要心细。Intel的CPU还好。Amd的CPU更应该细致。尤其注意CPU一个角上的三角符号应该和CPU底座上的三角符号角度对应。如果不能对应,硬压可能压坏CPU或者主板。那就肉疼了!

你的情况我基本上可以80%以上确定是CPU的问题。你换一个立马好了!你这个可以备用用来非满负荷工作量短时间计算用。或者扔掉!
作者
Author:
lao7    时间: 2022-4-19 05:11
小强 发表于 2022-4-16 20:22
谢谢回复,尝试过用橡皮擦金手指。
用dmidecode -t memory命令看下内存条信息,能读出来11根内存的信息 ...

内存插槽不同颜色 意味着双通道组合 你查看主板说明书就明白了
作者
Author:
wypkdhd    时间: 2022-4-19 08:47
就是主板问题,不要犹豫,我和你一样的主板, 超微这个主板就是有bug,会坏,我都送修一次了,和你一样,就是开机进系统后,说不好怎么就死机了。
作者
Author:
wypkdhd    时间: 2022-4-19 08:48
简单点,哪买的服务器去问哪,问怎么修,如果过保了,自己花钱重新买一块主板。
作者
Author:
小强    时间: 2022-4-19 21:24
lao7 发表于 2022-4-19 04:53
不麻烦 我的服务器全部是我自己组装的!更换CPU一定要心细。Intel的CPU还好。Amd的CPU更应该细致。尤其注 ...

明白,谢谢啊!
作者
Author:
小强    时间: 2022-4-19 21:25
wypkdhd 发表于 2022-4-19 08:48
简单点,哪买的服务器去问哪,问怎么修,如果过保了,自己花钱重新买一块主板。

多谢大佬建议
作者
Author:
小强    时间: 2025-5-29 19:26
abin 发表于 2022-4-16 20:30
我那次,
是华擎某批次主板+8173M处理器.
同一批次三个主板 都一个毛病, 当然是主板问题了.

您好,我最近发现在用gaussian时,只要我用非限制方法计算,就会出现自动重启的问题。这可以进一步确认是主板问题吗?
作者
Author:
abin    时间: 2025-5-29 22:56
小强 发表于 2025-5-29 19:26
您好,我最近发现在用gaussian时,只要我用非限制方法计算,就会出现自动重启的问题。这可以进一步确认是 ...

硬件谁卖给你的, 找谁处理吧.




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3