计算化学公社

标题: 服务器性能衰减,重启后又可以恢复 [打印本页]

作者
Author:
zwt1990920    时间: 2024-12-9 09:16
标题: 服务器性能衰减,重启后又可以恢复
求助!
我的服务器配置如下:在运行VASP、高斯等计算软件大概一个月左右时,计算性能衰减很厉害!拔电源重启后,性能恢复!运行一段时间后又衰减!各种测试方法均尝试过过了,没有发现硬件问题!请各位老师指教!

作者
Author:
sobereva    时间: 2024-12-9 09:51
查不出原因就重装系统
作者
Author:
sunlin3685    时间: 2024-12-9 10:27
重启之后;重新启动软件看下内存是否占满还是其它问题?针对性改善长期运行性能低下的问题;
作者
Author:
abin    时间: 2024-12-9 10:37
如果机器没有调度器,
或者不限定各程序的内存占用,
请先定内存使用……不要使用SWAP.

作者
Author:
BangbooCat    时间: 2024-12-9 11:34
考虑一下是否存在内存泄漏问题,内存被逐渐耗尽会引起系统频繁使用swap,显著降低性能;
另一个可能性是IO问题,inode 或 dentry 缓存在长时间高频小文件创建读写下被干爆耗尽了;
两个原因都会因为重启被暂时性解决
作者
Author:
KAIMISITERUI    时间: 2024-12-9 12:14
用top看看有没有什么不应该存在的进程,如果有可能是中病毒了,我们组最近服务器就中病毒了,搞了半天才解决。
作者
Author:
llzz0309    时间: 2024-12-9 23:09
高温降频了。速度降低后,你用cat   /proc/cpuinfo | grep MHz查下评率大概率显示400MHz。拔电后,会重置警报,解除降频。所以断电开机后问题就解决了。
大概率cpu供电散热问题,进bmc或者用ipmitool sensor list 监控供电温度VRCPU啥的,找到问题后给厂家反馈解决


作者
Author:
zwt1990920    时间: 2024-12-10 14:47
sobereva 发表于 2024-12-9 09:51
查不出原因就重装系统

老师,系统重新装过了,还是不行。我们对所有硬件惊醒了整体检测,都没有发现问题。另外,我们把该节点作用单机使用,还是出现上述问题,经过监测发现长时间计算任务提交后,硬盘和内存之间的数据交互速度下降很厉害。目前把990pro的固态换成了Intel的S4520企业级固态。
作者
Author:
zwt1990920    时间: 2024-12-10 14:54
llzz0309 发表于 2024-12-9 23:09
高温降频了。速度降低后,你用cat   /proc/cpuinfo | grep MHz查下评率大概率显示400MHz。拔电后,会重置警 ...

经过监测没有发现高温之类的问题。

作者
Author:
zwt1990920    时间: 2024-12-10 14:57
BangbooCat 发表于 2024-12-9 11:34
考虑一下是否存在内存泄漏问题,内存被逐渐耗尽会引起系统频繁使用swap,显著降低性能;
另一个可能性是IO ...

我们把其中一台机器的990PRO换成了企业级的固态,正在监测。
作者
Author:
mingkun    时间: 2024-12-10 16:20
运行过程中使用超微的BMC 工具IPMI_CFG或者bmc管理网页监控CPU及VRM温度,超微的H11主板是容易CPU_VRM高温的,高温报警后容易降频降速的
作者
Author:
五十八    时间: 2024-12-28 23:36
epyc 2代的可能会遇到bug,对照手册检查下系统设置




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3