计算化学公社

 找回密码 Forget password
 注册 Register
Views: 4456|回复 Reply: 21
打印 Print 上一主题 Last thread 下一主题 Next thread

[配置讨论] 新购单机服务器配置遇到任务计算导致服务器无限重启问题,向各位大佬求教解决方案

[复制链接 Copy URL]

5

帖子

0

威望

19

eV
积分
24

Level 1 能力者

前不久根据卢老师推文政府采购购进服务器配置如下:
CPU:2* XEON Platinum 8273CL正式版
散热器:2*采融U12S双风扇
主板:超微X11DAI-N
机械硬盘:2*希捷银河企业级8TB
内存:20*海力士DDR4-2666 ECC 32GB  
显卡:gt710
电源:振华LEADEX HG 750W
机箱:追风者614PC

奈何学生学艺不精,在成功安装Linux系统(CentOS7.6),PBS排队系统,Intel2018以及成功编译vasp5.4.4,高斯16 A03以及CP2K镜像文件后,提交任务测试都会导致服务器无限重启。后,尝试辩证验证--用同样的方法安装8173是没有问题的,学生才疏学浅,向各位大佬求助。

2407

帖子

1

威望

5948

eV
积分
8375

Level 6 (一方通行)

2#
发表于 Post on 2021-11-12 14:59:35 | 只看该作者 Only view this author
如果系统和软件, 是在一周之内搞定的,
你的Linux技术已经很厉害了.

建议考察硬件监控方面.

另, 这个机器, 配置12或者24条内存, 性能最佳. 20条, 纯属瞎折腾.
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

6万

帖子

99

威望

5万

eV
积分
120080

管理员

公社社长

3#
发表于 Post on 2021-11-12 19:34:53 | 只看该作者 Only view this author
重启大概率是硬件问题,应当联系你的销售商解决
北京科音自然科学研究中心http://www.keinsci.com)致力于计算化学的发展和传播,长期开办极高质量的各种计算化学类培训:初级量子化学培训班中级量子化学培训班高级量子化学培训班量子化学波函数分析与Multiwfn程序培训班分子动力学与GROMACS培训班CP2K第一性原理计算培训班,内容介绍以及往届资料购买请点击相应链接查看。这些培训是计算化学从零快速入门以及进一步全面系统性提升研究水平的高速路!培训各种常见问题见《北京科音办的培训班FAQ》
欢迎加入北京科音微信公众号获取北京科音培训的最新消息,并避免错过网上有价值的计算化学文章!
欢迎加入人气极高、专业性特别强的理论与计算化学综合交流群思想家公社QQ群(群号见此链接),合计达一万多人。北京科音培训班的学员在群中可申请VIP头衔,提问将得到群主Sobereva的最优先解答。
思想家公社的门口Blog:http://sobereva.com(发布大量原创计算化学相关博文)
Multiwfn主页:http://sobereva.com/multiwfn(十分强大、极为流行的量子化学波函数分析程序)
Google Scholar:https://scholar.google.com/citations?user=tiKE0qkAAAAJ
ResearchGate:https://www.researchgate.net/profile/Tian_Lu

197

帖子

0

威望

4408

eV
积分
4605

Level 6 (一方通行)

4#
发表于 Post on 2021-11-12 19:52:58 | 只看该作者 Only view this author
一般是先装个Windows系统,压力测试一个晚上,测试硬件以及散热是否运行正常。
你能顺利安装系统和软件,说明硬件应该没什么大问题;高负载下系统自动重启,可能是由于散热或者供电不行,先装个i7z监控下温度。
电脑快递过程中,可能会出现主板供电或者散热器接触不好,和售后沟通慢慢排查。

5

帖子

0

威望

19

eV
积分
24

Level 1 能力者

5#
 楼主 Author| 发表于 Post on 2021-11-12 23:29:36 | 只看该作者 Only view this author
abin 发表于 2021-11-12 14:59
如果系统和软件, 是在一周之内搞定的,
你的Linux技术已经很厉害了.

感谢老师您的指点,服务器内存为16根满插,后面会做一些硬件温度监控等找找原因。再次谢谢,晚安

5

帖子

0

威望

19

eV
积分
24

Level 1 能力者

6#
 楼主 Author| 发表于 Post on 2021-11-12 23:31:59 | 只看该作者 Only view this author
sobereva 发表于 2021-11-12 19:34
重启大概率是硬件问题,应当联系你的销售商解决

感谢老师提供宝贵意见。

5

帖子

0

威望

19

eV
积分
24

Level 1 能力者

7#
 楼主 Author| 发表于 Post on 2021-11-12 23:34:36 | 只看该作者 Only view this author
tiandikuoyuan 发表于 2021-11-12 19:52
一般是先装个Windows系统,压力测试一个晚上,测试硬件以及散热是否运行正常。
你能顺利安装系统和软件, ...

谢谢您,后面和供货商联系,逐一排查硬件问题。

464

帖子

11

威望

3948

eV
积分
4632

Level 6 (一方通行)

8#
发表于 Post on 2021-11-13 14:44:25 | 只看该作者 Only view this author
请问下你的服务器8273cl配超微的板子目前运行状况咋样呀,稳定不?我看坛子里说这个cpu和超微的板子不搭,得用永擎的板子。难道你也是在嘉*科技那里买的嘛?
自由发挥,野蛮生长

5

帖子

0

威望

19

eV
积分
24

Level 1 能力者

9#
 楼主 Author| 发表于 Post on 2021-11-13 22:58:21 | 只看该作者 Only view this author
丁越 发表于 2021-11-13 14:44
请问下你的服务器8273cl配超微的板子目前运行状况咋样呀,稳定不?我看坛子里说这个cpu和超微的板子不搭, ...

现在就是不稳定,一提交任务几分钟后就发生服务器重启现象。温度这一块倒是没有问题。

230

帖子

0

威望

2665

eV
积分
2895

Level 5 (御坂)

10#
发表于 Post on 2021-12-1 01:50:24 | 只看该作者 Only view this author
解决了吗?什么问题

7.6太老了,CPU那么新

36

帖子

0

威望

583

eV
积分
619

Level 4 (黑子)

11#
发表于 Post on 2021-12-1 11:03:43 | 只看该作者 Only view this author
abin 发表于 2021-11-12 14:59
如果系统和软件, 是在一周之内搞定的,
你的Linux技术已经很厉害了.

可是支持8273CL的主板没有24条内存插槽呀

2407

帖子

1

威望

5948

eV
积分
8375

Level 6 (一方通行)

12#
发表于 Post on 2021-12-1 11:23:32 | 只看该作者 Only view this author
Qingming 发表于 2021-12-1 11:03
可是支持8273CL的主板没有24条内存插槽呀

组装的基本是没有的.
使用20个内存条, 性能提升不明显, 类似于花了100元, 买到了1元的物品, 大概如此.
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

2407

帖子

1

威望

5948

eV
积分
8375

Level 6 (一方通行)

13#
发表于 Post on 2021-12-1 12:18:58 | 只看该作者 Only view this author
温馨提示,
把内存条拔下来,找一个橡皮,
搽一搽金手指,
再插上去。
机器要接地线。
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

90

帖子

0

威望

759

eV
积分
849

Level 4 (黑子)

14#
发表于 Post on 2021-12-1 22:12:01 | 只看该作者 Only view this author
有可能是超微X11DAI搭配2* XEON Platinum 8273CL正式版导致的问题,


这一代主板是6通道的,但是超微X11DAI等主板提供8条内存槽,其中6条蓝色为原生6通道, 另外2条黑色为扩展。


建议尝试将黑色插槽的4条内存拔下,看看还有没有问题。(说白了就是主板扩展内存通道搭配OEM内存引起兼容性问题)



1187

帖子

5

威望

2859

eV
积分
4146

Level 6 (一方通行)

15#
发表于 Post on 2021-12-3 14:42:36 | 只看该作者 Only view this author
abin 发表于 2021-11-12 14:59
如果系统和软件, 是在一周之内搞定的,
你的Linux技术已经很厉害了.

不好意思我想请教一下,这个主板不是只有16个插槽么,为什么会有24条内存或者20条的说法?谢谢老师

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2025-8-13 03:20 , Processed in 0.585560 second(s), 23 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list