计算化学公社

标题: 请教老师:集群节点在执行Gaussian计算过程会突然崩溃,如何解决 [打印本页]

作者
Author:
吃西瓜的佩奇    时间: 2024-3-28 11:17
标题: 请教老师:集群节点在执行Gaussian计算过程会突然崩溃,如何解决
请教各位老师们:Linux服务器为32核内存,分为两个节点,各128核,集群是Sun Grid Engine(sge)调度系统。在计算Gaussian任务时,会突然出现某一个节点状态变成“down”,重启后仍可以正常运行。经过排查,并不是硬件原因(服务器硬件故障、网络与电源皆正常,同集群另一个节点是正常运行的状态),猜测可能是CPU load过高,计算任务把服务器内存占满,系统写不了日志文件或某些底层进程进行不下去,随后崩溃。但是在计算Groamcs任务时,Load为满负荷仍然可以正常运行。
Down之前的状态:Gaussian任务
(, 下载次数 Times of downloads: 102)
Down之后的状态:Gaussian任务
(, 下载次数 Times of downloads: 107)
Groamcs任务满负荷可以运行:
(, 下载次数 Times of downloads: 100)
我的问题是:
1.为什么Gaussian和Gromacs任务对于Load有不同的要求,Load处于最高值仍然没有崩溃,是不是排查的原因并非如此?
2.怎么才能避免Gaussian任务计算时,节点突然崩溃?如果需要在节点上加内存,应该怎么做呢?
服务器配置方面是新手小白,感谢老师们不吝赐教~



作者
Author:
abin    时间: 2024-3-28 12:18
确认一件事情:

1. 集群是两个128核心的机器,配置256G内存?
有没单独的管理登录节点?

2. 根据描述来看,限定单个任务使用32核心?
3. 调度器的日志以及系统日志,在系统出现down的时间节点前后,
有报告什么信息吗?
4. 集群采用什么存储方案?
5. 集群采用什么网络?

作者
Author:
吃西瓜的佩奇    时间: 2024-3-28 21:36
abin 发表于 2024-3-28 12:18
确认一件事情:

1. 集群是两个128核心的机器,配置256G内存?

感谢老师的回复,我的回复如下:
1、服务器配置为每个机器物理核心数128,实际配置内存256G,有一个单独的管理节点
2、对于单个任务并无核心数限制
3、 只是查看了系统日志,看起来系统down的时间并没有明显异常报错信息
4、 储存方案应当是本地储存,都是直接网线连接校园网后,通过Xftp程序连接集群实现文件的上传与下载
5、 集群是通过网线与交换机接入校园网,应该是属于局域网或者物理网络,集群的使用是只能电脑连接网线接入校园网后,才能通过xshell连接到集群;如果是通过wifi连接校园网并不能连接到集群;只需要通过网线接入校园网就可以连接到集群,无Internet连接也可以。
最后,感谢老师的耐心阅读!

作者
Author:
qchem    时间: 2024-3-28 22:39
内存占满,那Gaussian作业里少设一内存呢?
作者
Author:
吃西瓜的佩奇    时间: 2024-3-29 08:55
qchem 发表于 2024-3-28 22:39
内存占满,那Gaussian作业里少设一内存呢?

尝试过将Gaussian任务的内存设小一些进行计算,是可以运行的。但还是想解决突然崩溃的问题,避免以后长时间计算的任务突然中止,前面的计算资源浪费
作者
Author:
qchem    时间: 2024-3-31 16:41
256G的内存,给gaussian用251.4G?
你分个240G试试




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3