计算化学公社

 找回密码 Forget password
 注册 Register

请教老师:集群节点在执行Gaussian计算过程会突然崩溃,如何解决

查看数: 487 | 评论数: 5 | 收藏 Add to favorites 0
关灯 | 提示:支持键盘翻页<-左 右->
    组图打开中,请稍候......
发布时间: 2024-3-28 11:17

正文摘要:

请教各位老师们:Linux服务器为32核内存,分为两个节点,各128核,集群是Sun Grid Engine(sge)调度系统。在计算Gaussian任务时,会突然出现某一个节点状态变成“down”,重启后仍可以正常运行。经过排查,并不是硬件 ...

回复 Reply

qchem 发表于 Post on 2024-3-31 16:41:08
256G的内存,给gaussian用251.4G?
你分个240G试试
吃西瓜的佩奇 发表于 Post on 2024-3-29 08:55:41
qchem 发表于 2024-3-28 22:39
内存占满,那Gaussian作业里少设一内存呢?

尝试过将Gaussian任务的内存设小一些进行计算,是可以运行的。但还是想解决突然崩溃的问题,避免以后长时间计算的任务突然中止,前面的计算资源浪费
qchem 发表于 Post on 2024-3-28 22:39:06
内存占满,那Gaussian作业里少设一内存呢?
吃西瓜的佩奇 发表于 Post on 2024-3-28 21:36:04
abin 发表于 2024-3-28 12:18
确认一件事情:

1. 集群是两个128核心的机器,配置256G内存?

感谢老师的回复,我的回复如下:
1、服务器配置为每个机器物理核心数128,实际配置内存256G,有一个单独的管理节点
2、对于单个任务并无核心数限制
3、 只是查看了系统日志,看起来系统down的时间并没有明显异常报错信息
4、 储存方案应当是本地储存,都是直接网线连接校园网后,通过Xftp程序连接集群实现文件的上传与下载
5、 集群是通过网线与交换机接入校园网,应该是属于局域网或者物理网络,集群的使用是只能电脑连接网线接入校园网后,才能通过xshell连接到集群;如果是通过wifi连接校园网并不能连接到集群;只需要通过网线接入校园网就可以连接到集群,无Internet连接也可以。
最后,感谢老师的耐心阅读!
abin 发表于 Post on 2024-3-28 12:18:23
确认一件事情:

1. 集群是两个128核心的机器,配置256G内存?
有没单独的管理登录节点?

2. 根据描述来看,限定单个任务使用32核心?
3. 调度器的日志以及系统日志,在系统出现down的时间节点前后,
有报告什么信息吗?
4. 集群采用什么存储方案?
5. 集群采用什么网络?

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 12:14 , Processed in 0.169101 second(s), 26 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list