计算化学公社

标题: xshell突然连不上服务器 [打印本页]

作者
Author:
Mr.zhen    时间: 2023-3-16 23:54
标题: xshell突然连不上服务器
服务器在计算过程中突然“失联”,上午还能用xshell正常链接,晚上就连不上了。去看了一下发现服务器散热器还在运转,电线网线也没有问题,重启了一下就能正常链接了,但是不知其原因是什么。配置是sob老师帖子里的“顶级双路服务器”配置,当时只在算一个任务,是一个26原子的有机体系的单点能计算,分配了60个核心,CCSD(T)/cc-pVTZ,持续算了一个多星期,会是因为计算量大内存之类的跟不上把服务器搞崩溃了吗?


作者
Author:
sobereva    时间: 2023-3-17 03:36
内存撑爆时可能导致网络连接无响应
内存别给得过于激进
作者
Author:
abin    时间: 2023-3-17 08:45
如果用的是slurm
可以扣除500MB给系统使用。

并行核心数,
建议采用
2^n
n=1,2,3,4,5,6等

作者
Author:
Mr.zhen    时间: 2023-3-17 11:05
sobereva 发表于 2023-3-17 03:36
内存撑爆时可能导致网络连接无响应
内存别给得过于激进

我在高斯输入文件写的是%mem=100GB,是不是不算太多,我看内存是16*16GB的
作者
Author:
Mr.zhen    时间: 2023-3-17 11:13
abin 发表于 2023-3-17 08:45
如果用的是slurm
可以扣除500MB给系统使用。

我的是CentOS 7.6系统,不知是否能单独设置系统内存
作者
Author:
iwait    时间: 2023-3-17 13:14
接个显示器看看屏幕输出 这样盲猜太难了 服务器有带外管理的话也可以看一下
作者
Author:
abin    时间: 2023-3-17 13:20
Mr.zhen 发表于 2023-3-17 11:13
我的是CentOS 7.6系统,不知是否能单独设置系统内存

如果你要用slurm接管资源的话,
当然可以。

不过你的计算任务,如果超过预设的内存量,
就会被停掉。
作者
Author:
sobereva    时间: 2023-3-17 14:47
Mr.zhen 发表于 2023-3-17 11:05
我在高斯输入文件写的是%mem=100GB,是不是不算太多,我看内存是16*16GB的

如果当前就一个计算任务在跑,并不多
如果没开超线程的话,核数分配的时候可以尝试刻意留一个核,免得所有核都完全被占满导致无响应
作者
Author:
Mr.zhen    时间: 2023-3-17 15:29
iwait 发表于 2023-3-17 13:14
接个显示器看看屏幕输出 这样盲猜太难了 服务器有带外管理的话也可以看一下

当时服务器还在工作,接显示器之后也没有显示,就只能重启了一下
作者
Author:
Mr.zhen    时间: 2023-3-17 15:31
sobereva 发表于 2023-3-17 14:47
如果当前就一个计算任务在跑,并不多
如果没开超线程的话,核数分配的时候可以尝试刻意留一个核,免得所 ...

那或许是其他原因吧,因为服务器是96核的,我只用了60核,看起来也不是这个问题
作者
Author:
iwait    时间: 2023-3-18 23:02
Mr.zhen 发表于 2023-3-17 15:29
当时服务器还在工作,接显示器之后也没有显示,就只能重启了一下

晃晃鼠标……键盘按一下上下左右……




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3