计算化学公社

标题: 求助:计算机跑vasp任务,大概一分钟不到机子自动重启 [打印本页]

作者
Author:
Qingming    时间: 2023-6-27 18:35
标题: 求助:计算机跑vasp任务,大概一分钟不到机子自动重启
(, 下载次数 Times of downloads: 84) 如题,系统是Ubuntu 22, VASP版本是5.4.4,电脑配置如图,运行vasp时设置的是64核跑,各位老师,请问这可能是什么问题导致的?我该怎么做?

作者
Author:
wxsxjj    时间: 2023-6-27 19:16
描述太笼统了,可能内存不够,系统卡死了?
描叙具体一些
电源1000w太小了,280+280+375=935w,虽然我不知道vasp用gpu跑会不会彪到峰值功耗
作者
Author:
Qingming    时间: 2023-6-27 20:29
wxsxjj 发表于 2023-6-27 19:16
描述太笼统了,可能内存不够,系统卡死了?
描叙具体一些
电源1000w太小了,280+280+375=935w,虽然我不 ...

谢谢您,内存256G,应该不是内存问题,而且只跑一个vasp任务,没做其他事。看您的分析,大概率是电源功率过低?
作者
Author:
sobereva    时间: 2023-6-28 00:09
纯粹用CPU跑,不至于电源功率不够,不排除电源故障的可能。可以进行测试,把用的核数一点点增多看什么情况会导致问题出现。如果手头有其它电源可以尝试替换


并且注意传感器温度情况

作者
Author:
szp12345    时间: 2023-6-28 08:32
可以先装个WIN10系统,烤机测试一下稳定性,先排除硬件问题
作者
Author:
Qingming    时间: 2023-6-28 14:56
sobereva 发表于 2023-6-28 00:09
纯粹用CPU跑,不至于电源功率不够,不排除电源故障的可能。可以进行测试,把用的核数一点点增多看什么情况 ...

好的,谢谢社长
作者
Author:
Qingming    时间: 2023-6-28 14:56
szp12345 发表于 2023-6-28 08:32
可以先装个WIN10系统,烤机测试一下稳定性,先排除硬件问题

好的,谢谢
作者
Author:
wolfli369    时间: 2023-6-28 15:01
很可能是CPU过热引起的,可以考虑换成追风者620PC
作者
Author:
Qingming    时间: 2023-6-28 18:10
sobereva 发表于 2023-6-28 00:09
纯粹用CPU跑,不至于电源功率不够,不排除电源故障的可能。可以进行测试,把用的核数一点点增多看什么情况 ...

运行核数从64降为60,它就不会重启了
作者
Author:
DoorBell    时间: 2023-6-28 22:53
跑p95的small FFTs和large FFTs试试,没报错就重启大概率过热,有报错大概率硬件损坏建议RMA

另外,2*8375C+16条内存+3080配置,除非你有把握在你的使用场景中它是足够的,否则1000W电源肯定不够,别忘了30系臭名昭著的瞬时功耗
作者
Author:
sobereva    时间: 2023-6-29 00:03
Qingming 发表于 2023-6-28 18:10
运行核数从64降为60,它就不会重启了

懒得折腾就凑合用60核吧,和64核也差不了多少速度
作者
Author:
Qingming    时间: 2023-6-29 08:53
DoorBell 发表于 2023-6-28 22:53
跑p95的small FFTs和large FFTs试试,没报错就重启大概率过热,有报错大概率硬件损坏建议RMA

另外,2*83 ...

好的,谢谢您
作者
Author:
短耳鸮    时间: 2024-10-22 09:33
楼主,我也遇到了类似的问题,但是降低核数也没有解决问题,请问你后面是怎么解决的。
我之前都是正常的,突然有一天,提交任务半路死掉,就不行了。。。之后一直提交任务都会重启。
作者
Author:
奔跑的西瓜    时间: 2024-11-12 14:10
你这配置应该用1300-1500W电源




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3