计算化学公社

标题: CP2K运行CINEB任务服务器重启问题 [打印本页]

作者
Author:
倪宇晴    时间: 2023-11-22 21:30
标题: CP2K运行CINEB任务服务器重启问题
本帖最后由 倪宇晴 于 2023-11-22 21:32 编辑

我所使用的服务器是两个E5 2686V4的cpu,Rocky 9.2系统。一共是36核心。
在计算CINEB任务时,使用cp2k.popt,调用核心数是6*6和9*4时,任务运行一段时间服务器就会重启。
调用核心数是7*5和8*4时,任务就可以正常运行。
看上去这个问题可能是cp2k调用所有核心导致的,不知道大家有没有遇到过类似的问题

作者
Author:
wangyj    时间: 2023-11-23 08:47
我也遇到过类似问题,用的核越多越容易重启,排除了软件、系统原因之后,最后发现是CPU散热问题。
作者
Author:
wangyj    时间: 2023-11-23 08:47
网有点卡,重复发了一层……
作者
Author:
倪宇晴    时间: 2023-11-23 15:10
wangyj 发表于 2023-11-23 08:47
我也遇到过类似问题,用的核越多越容易重启,排除了软件、系统原因之后,最后发现是CPU散热问题。

我的应该不是cpu温度的问题,cpu温度最高的时候也就75度左右
作者
Author:
wangyj    时间: 2023-11-23 15:49
倪宇晴 发表于 2023-11-23 15:10
我的应该不是cpu温度的问题,cpu温度最高的时候也就75度左右

不是CPU的温度,我的CPU温度也在75以下,是接入主板管理接口读取的一个CPU XXX的温度,温度一直在100-105之间波动,一个没注意那个温度就红色报警然后机器重启了。
作者
Author:
倪宇晴    时间: 2023-11-23 15:57
wangyj 发表于 2023-11-23 15:49
不是CPU的温度,我的CPU温度也在75以下,是接入主板管理接口读取的一个CPU XXX的温度,温度一直在100-105 ...

是VcpuVRM,这个cpu电压调节模块的温度么,我温度最高的时候这个也才90多
作者
Author:
wangyj    时间: 2023-11-23 15:58
倪宇晴 发表于 2023-11-23 15:57
是VcpuVRM,这个cpu电压调节模块的温度么,我温度最高的时候这个也才90多

不记得是啥了,你可以看看你的主板管理界面里有没有红色预警记录,如果能和重启时间对应上的话,就是硬件问题。
作者
Author:
倪宇晴    时间: 2023-11-23 16:49
wangyj 发表于 2023-11-23 15:58
不记得是啥了,你可以看看你的主板管理界面里有没有红色预警记录,如果能和重启时间对应上的话,就是硬件 ...

ipmi里没有警告记录。。。
作者
Author:
倪宇晴    时间: 2023-11-23 18:38
wangyj 发表于 2023-11-23 15:58
不记得是啥了,你可以看看你的主板管理界面里有没有红色预警记录,如果能和重启时间对应上的话,就是硬件 ...

感谢您提供的信息
作者
Author:
sobereva    时间: 2023-11-24 07:12
一方面是温度,另一方面如果电源有毛病也很容易造成这种问题,可通过替换进行测试
作者
Author:
倪宇晴    时间: 2023-11-24 17:10
sobereva 发表于 2023-11-24 07:12
一方面是温度,另一方面如果电源有毛病也很容易造成这种问题,可通过替换进行测试

好的,感谢您的建议,我找机会测试一下。




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3