计算化学公社

 找回密码 Forget password
 注册 Register
Views: 521|回复 Reply: 10
打印 Print 上一主题 Last thread 下一主题 Next thread

[CP2K] CP2K运行CINEB任务服务器重启问题

[复制链接 Copy URL]

52

帖子

0

威望

2532

eV
积分
2584

Level 5 (御坂)

跳转到指定楼层 Go to specific reply
楼主
本帖最后由 倪宇晴 于 2023-11-22 21:32 编辑

我所使用的服务器是两个E5 2686V4的cpu,Rocky 9.2系统。一共是36核心。
在计算CINEB任务时,使用cp2k.popt,调用核心数是6*6和9*4时,任务运行一段时间服务器就会重启。
调用核心数是7*5和8*4时,任务就可以正常运行。
看上去这个问题可能是cp2k调用所有核心导致的,不知道大家有没有遇到过类似的问题
时也,命也

52

帖子

0

威望

2532

eV
积分
2584

Level 5 (御坂)

11#
 楼主 Author| 发表于 Post on 2023-11-24 17:10:27 | 只看该作者 Only view this author
sobereva 发表于 2023-11-24 07:12
一方面是温度,另一方面如果电源有毛病也很容易造成这种问题,可通过替换进行测试

好的,感谢您的建议,我找机会测试一下。
时也,命也

5万

帖子

99

威望

5万

eV
积分
112385

管理员

公社社长

10#
发表于 Post on 2023-11-24 07:12:38 | 只看该作者 Only view this author
一方面是温度,另一方面如果电源有毛病也很容易造成这种问题,可通过替换进行测试
北京科音自然科学研究中心http://www.keinsci.com)致力于计算化学的发展和传播,长期开办高质量的各种计算化学类培训:初级量子化学培训班中级量子化学培训班高级量子化学培训班量子化学波函数分析与Multiwfn程序培训班分子动力学与GROMACS培训班CP2K第一性原理计算培训班,内容介绍以及往届资料购买请点击相应链接查看。这些培训是计算化学从零快速入门以及进一步全面系统性提升研究水平的高速路!培训各种常见问题见《北京科音办的培训班FAQ》
欢迎加入“北京科音”微信公众号获取北京科音培训的最新消息、避免错过网上有价值的计算化学文章!
欢迎加入人气非常高、专业性特别强的综合性理论与计算化学交流QQ群“思想家公社QQ群”:1号:18616395,2号:466017436,3号:764390338,搜索群号能搜到哪个说明目前哪个能加,合计9000人。北京科音培训班的学员在群中可申请VIP头衔,提问将得到群主Sobereva的最优先解答。
思想家公社的门口Blog:http://sobereva.com(发布大量原创计算化学相关博文)
Multiwfn主页:http://sobereva.com/multiwfn(十分强大的量子化学波函数分析程序)
ResearchGate:https://www.researchgate.net/profile/Tian_Lu
Money and papers are rubbish, get a real life!

52

帖子

0

威望

2532

eV
积分
2584

Level 5 (御坂)

9#
 楼主 Author| 发表于 Post on 2023-11-23 18:38:55 | 只看该作者 Only view this author
wangyj 发表于 2023-11-23 15:58
不记得是啥了,你可以看看你的主板管理界面里有没有红色预警记录,如果能和重启时间对应上的话,就是硬件 ...

感谢您提供的信息
时也,命也

52

帖子

0

威望

2532

eV
积分
2584

Level 5 (御坂)

8#
 楼主 Author| 发表于 Post on 2023-11-23 16:49:52 | 只看该作者 Only view this author
wangyj 发表于 2023-11-23 15:58
不记得是啥了,你可以看看你的主板管理界面里有没有红色预警记录,如果能和重启时间对应上的话,就是硬件 ...

ipmi里没有警告记录。。。
时也,命也

158

帖子

1

威望

2283

eV
积分
2461

Level 5 (御坂)

7#
发表于 Post on 2023-11-23 15:58:42 | 只看该作者 Only view this author
倪宇晴 发表于 2023-11-23 15:57
是VcpuVRM,这个cpu电压调节模块的温度么,我温度最高的时候这个也才90多

不记得是啥了,你可以看看你的主板管理界面里有没有红色预警记录,如果能和重启时间对应上的话,就是硬件问题。
人丑就该多读书,嘴拙最好少说话。
行百里者半于九十,戒骄戒躁。

52

帖子

0

威望

2532

eV
积分
2584

Level 5 (御坂)

6#
 楼主 Author| 发表于 Post on 2023-11-23 15:57:29 | 只看该作者 Only view this author
wangyj 发表于 2023-11-23 15:49
不是CPU的温度,我的CPU温度也在75以下,是接入主板管理接口读取的一个CPU XXX的温度,温度一直在100-105 ...

是VcpuVRM,这个cpu电压调节模块的温度么,我温度最高的时候这个也才90多
时也,命也

158

帖子

1

威望

2283

eV
积分
2461

Level 5 (御坂)

5#
发表于 Post on 2023-11-23 15:49:37 | 只看该作者 Only view this author
倪宇晴 发表于 2023-11-23 15:10
我的应该不是cpu温度的问题,cpu温度最高的时候也就75度左右

不是CPU的温度,我的CPU温度也在75以下,是接入主板管理接口读取的一个CPU XXX的温度,温度一直在100-105之间波动,一个没注意那个温度就红色报警然后机器重启了。
人丑就该多读书,嘴拙最好少说话。
行百里者半于九十,戒骄戒躁。

52

帖子

0

威望

2532

eV
积分
2584

Level 5 (御坂)

4#
 楼主 Author| 发表于 Post on 2023-11-23 15:10:48 | 只看该作者 Only view this author
wangyj 发表于 2023-11-23 08:47
我也遇到过类似问题,用的核越多越容易重启,排除了软件、系统原因之后,最后发现是CPU散热问题。

我的应该不是cpu温度的问题,cpu温度最高的时候也就75度左右
时也,命也

158

帖子

1

威望

2283

eV
积分
2461

Level 5 (御坂)

3#
发表于 Post on 2023-11-23 08:47:19 | 只看该作者 Only view this author
网有点卡,重复发了一层……
人丑就该多读书,嘴拙最好少说话。
行百里者半于九十,戒骄戒躁。

158

帖子

1

威望

2283

eV
积分
2461

Level 5 (御坂)

2#
发表于 Post on 2023-11-23 08:47:18 | 只看该作者 Only view this author
我也遇到过类似问题,用的核越多越容易重启,排除了软件、系统原因之后,最后发现是CPU散热问题。
人丑就该多读书,嘴拙最好少说话。
行百里者半于九十,戒骄戒躁。

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-25 15:59 , Processed in 0.182886 second(s), 21 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list