计算化学公社

 找回密码 Forget password
 注册 Register
Views: 489|回复 Reply: 5
打印 Print 上一主题 Last thread 下一主题 Next thread

[集群维护] 请教老师:集群节点在执行Gaussian计算过程会突然崩溃,如何解决

[复制链接 Copy URL]

59

帖子

0

威望

475

eV
积分
534

Level 4 (黑子)

请教各位老师们:Linux服务器为32核内存,分为两个节点,各128核,集群是Sun Grid Engine(sge)调度系统。在计算Gaussian任务时,会突然出现某一个节点状态变成“down”,重启后仍可以正常运行。经过排查,并不是硬件原因(服务器硬件故障、网络与电源皆正常,同集群另一个节点是正常运行的状态),猜测可能是CPU load过高,计算任务把服务器内存占满,系统写不了日志文件或某些底层进程进行不下去,随后崩溃。但是在计算Groamcs任务时,Load为满负荷仍然可以正常运行。
Down之前的状态:Gaussian任务
Down之后的状态:Gaussian任务
Groamcs任务满负荷可以运行:
我的问题是:
1.为什么Gaussian和Gromacs任务对于Load有不同的要求,Load处于最高值仍然没有崩溃,是不是排查的原因并非如此?
2.怎么才能避免Gaussian任务计算时,节点突然崩溃?如果需要在节点上加内存,应该怎么做呢?
服务器配置方面是新手小白,感谢老师们不吝赐教~


2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

2#
发表于 Post on 2024-3-28 12:18:23 | 只看该作者 Only view this author
确认一件事情:

1. 集群是两个128核心的机器,配置256G内存?
有没单独的管理登录节点?

2. 根据描述来看,限定单个任务使用32核心?
3. 调度器的日志以及系统日志,在系统出现down的时间节点前后,
有报告什么信息吗?
4. 集群采用什么存储方案?
5. 集群采用什么网络?
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

59

帖子

0

威望

475

eV
积分
534

Level 4 (黑子)

3#
 楼主 Author| 发表于 Post on 2024-3-28 21:36:04 | 只看该作者 Only view this author
abin 发表于 2024-3-28 12:18
确认一件事情:

1. 集群是两个128核心的机器,配置256G内存?

感谢老师的回复,我的回复如下:
1、服务器配置为每个机器物理核心数128,实际配置内存256G,有一个单独的管理节点
2、对于单个任务并无核心数限制
3、 只是查看了系统日志,看起来系统down的时间并没有明显异常报错信息
4、 储存方案应当是本地储存,都是直接网线连接校园网后,通过Xftp程序连接集群实现文件的上传与下载
5、 集群是通过网线与交换机接入校园网,应该是属于局域网或者物理网络,集群的使用是只能电脑连接网线接入校园网后,才能通过xshell连接到集群;如果是通过wifi连接校园网并不能连接到集群;只需要通过网线接入校园网就可以连接到集群,无Internet连接也可以。
最后,感谢老师的耐心阅读!

202

帖子

0

威望

802

eV
积分
1004

Level 4 (黑子)

4#
发表于 Post on 2024-3-28 22:39:06 | 只看该作者 Only view this author
内存占满,那Gaussian作业里少设一内存呢?

59

帖子

0

威望

475

eV
积分
534

Level 4 (黑子)

5#
 楼主 Author| 发表于 Post on 2024-3-29 08:55:41 | 只看该作者 Only view this author
qchem 发表于 2024-3-28 22:39
内存占满,那Gaussian作业里少设一内存呢?

尝试过将Gaussian任务的内存设小一些进行计算,是可以运行的。但还是想解决突然崩溃的问题,避免以后长时间计算的任务突然中止,前面的计算资源浪费

202

帖子

0

威望

802

eV
积分
1004

Level 4 (黑子)

6#
发表于 Post on 2024-3-31 16:41:08 | 只看该作者 Only view this author
256G的内存,给gaussian用251.4G?
你分个240G试试

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 15:20 , Processed in 0.524726 second(s), 24 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list