计算化学公社

标题: 求助:VASP意外停止 [打印本页]

作者
Author:
nemolee    时间: 2019-9-5 09:01
标题: 求助:VASP意外停止
采用社长的方法编译了vasp5.4.4(http://bbs.keinsci.com/thread-11812-1-1.html),大多数任务都在运行12个小时内意外停止,无报错而且任务显示仍在运行,只是OUTCAR不再更新了,少数任务能运行超过24小时,但是最终也会发生同样的问题而停止。

因为没有报错,而且停止的时间很随机,所以完全不清楚问题在哪儿,有哪位大神能帮帮忙吗?

课题组自己的机群。。。

作者
Author:
ntrip    时间: 2019-9-5 09:12
是否体系太大,内存不足。
作者
Author:
nemolee    时间: 2019-9-5 09:15
ntrip 发表于 2019-9-5 09:12
是否体系太大,内存不足。

体系是很大,200个原子左右含过渡金属原子,但是使用了8个节点共160个核,每个节点有64g内存。。。脚本文件没单独请求内存,与这个有关吗?
作者
Author:
KevinLee    时间: 2019-9-5 09:40
内存64g太少了
作者
Author:
nemolee    时间: 2019-9-5 09:42
KevinLee 发表于 2019-9-5 09:40
内存64g太少了

所以其实请求了多个节点,获得的内存不是8*64=512g?只是64g?
作者
Author:
KevinLee    时间: 2019-9-5 10:06
VASP是吃内存带宽的,http://blog.wangruixing.cn/2019/08/19/vasp-memory/
作者
Author:
nemolee    时间: 2019-9-5 10:12
KevinLee 发表于 2019-9-5 10:06
VASP是吃内存带宽的,http://blog.wangruixing.cn/2019/08/19/vasp-memory/

有解决办法吗?
作者
Author:
KevinLee    时间: 2019-9-5 10:13
通俗的讲就是把你们集群的内存槽插满
作者
Author:
nemolee    时间: 2019-9-5 11:50
KevinLee 发表于 2019-9-5 10:13
通俗的讲就是把你们集群的内存槽插满

好吧,不过这个方法不是优先考虑的选项啊,最好是软件层面解决问题,您知道这方面的信息吗?
作者
Author:
KevinLee    时间: 2019-9-5 13:58
那就少占用cpu核心数,软件不会解决的
作者
Author:
fallleave    时间: 2019-9-5 15:44
本帖最后由 fallleave 于 2019-9-5 15:45 编辑

我安装的VASP也有这个现象。也不知道怎么解决,目前的方案就是,copy CONTCAR POSCAR,然后重新运行。

作者
Author:
搞理论的    时间: 2019-9-5 23:39
我也遇到过这种情况,可以确定不是内存的问题。
作者
Author:
fallleave    时间: 2019-9-6 12:05
搞理论的 发表于 2019-9-5 23:39
我也遇到过这种情况,可以确定不是内存的问题。

能问问后来怎么解决的吗?
作者
Author:
搞理论的    时间: 2019-9-9 20:18
fallleave 发表于 2019-9-6 12:05
能问问后来怎么解决的吗?

没找到有效方法,修改了一些参数,继续跑

作者
Author:
nemolee    时间: 2019-9-10 18:46
问题已解决,找的专业的机群维护工程师,可惜当时不在,所以并不清楚怎么修好的。。。
作者
Author:
fallleave    时间: 2019-9-10 21:20
nemolee 发表于 2019-9-10 18:46
问题已解决,找的专业的机群维护工程师,可惜当时不在,所以并不清楚怎么修好的。。。

专业集群维护工程师?需要懂VASP吗?
作者
Author:
nemolee    时间: 2019-9-11 07:05
fallleave 发表于 2019-9-10 21:20
专业集群维护工程师?需要懂VASP吗?

不需要,但是那个工程师是专门负责这种计算机群的,我猜精通Linux和并行计算相关。。。
作者
Author:
fallleave    时间: 2019-9-11 08:58
nemolee 发表于 2019-9-11 07:05
不需要,但是那个工程师是专门负责这种计算机群的,我猜精通Linux和并行计算相关。。。

OK,谢谢。
作者
Author:
陈小北    时间: 2021-4-13 16:19
请问楼主是哪里的人啊,或者维修工联系方式有吗

出现了同样的问题,一直解决不掉好难过

作者
Author:
abin    时间: 2021-4-13 16:26
陈小北 发表于 2021-4-13 16:19
请问楼主是哪里的人啊,或者维修工联系方式有吗

出现了同样的问题,一直解决不掉好难过

你有root权限的话,
我可以看看问题。有偿。

另, 以上的描述,应该是 集群 而非 机群。

再者, 如果没有采用IB网络,而是以太网,使用8个节点,还不如两个机器呢。
作者
Author:
陈小北    时间: 2021-4-13 19:36
本帖最后由 陈小北 于 2021-4-13 19:42 编辑
abin 发表于 2021-4-13 16:26
你有root权限的话,
我可以看看问题。有偿。

好的呀

不过我想问一下您大概收费多少,超过一定数额的话可能需要请示一下老师,这个方便说吗,或者我们私聊?
万分感谢~~

作者
Author:
abin    时间: 2021-4-13 19:41
陈小北 发表于 2021-4-13 19:36
好的呀

不过我想问一下您大概收费多少,少的话我可以自己决定,多的话可能需要请示一下老师,这个方便 ...

私聊。
或者联系hpc4you@163.com

需要查看你们机器硬件再说。 我也不是什么都能搞得定。
作者
Author:
陈小北    时间: 2021-4-13 19:54
abin 发表于 2021-4-13 19:41
私聊。
或者联系

好的,已经私聊您了

也发送邮件了

期待回复,再次表示感谢!
作者
Author:
zblxyrz    时间: 2021-4-13 21:22
是自己的工作站还是用的超算?如果自己的工作站,关掉xshell之类的终端窗口或者断开客户机与工作站的网络连接就会出现这种情况
作者
Author:
asdw_15951    时间: 2021-4-23 15:43
具体怎么解决可以分享一下吗?
作者
Author:
nemolee    时间: 2021-4-23 23:41
asdw_15951 发表于 2021-4-23 15:43
具体怎么解决可以分享一下吗?

工程师来的时候不在,不清楚细节,大概说是并行的问题,编译的没毛病。




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3