epyc 2代的可能会遇到bug,对照手册检查下系统设置 |
运行过程中使用超微的BMC 工具IPMI_CFG或者bmc管理网页监控CPU及VRM温度,超微的H11主板是容易CPU_VRM高温的,高温报警后容易降频降速的 |
BangbooCat 发表于 2024-12-9 11:34 我们把其中一台机器的990PRO换成了企业级的固态,正在监测。 |
llzz0309 发表于 2024-12-9 23:09 经过监测没有发现高温之类的问题。 |
sobereva 发表于 2024-12-9 09:51 老师,系统重新装过了,还是不行。我们对所有硬件惊醒了整体检测,都没有发现问题。另外,我们把该节点作用单机使用,还是出现上述问题,经过监测发现长时间计算任务提交后,硬盘和内存之间的数据交互速度下降很厉害。目前把990pro的固态换成了Intel的S4520企业级固态。 |
高温降频了。速度降低后,你用cat /proc/cpuinfo | grep MHz查下评率大概率显示400MHz。拔电后,会重置警报,解除降频。所以断电开机后问题就解决了。 大概率cpu供电散热问题,进bmc或者用ipmitool sensor list 监控供电温度VRCPU啥的,找到问题后给厂家反馈解决 |
用top看看有没有什么不应该存在的进程,如果有可能是中病毒了,我们组最近服务器就中病毒了,搞了半天才解决。 |
考虑一下是否存在内存泄漏问题,内存被逐渐耗尽会引起系统频繁使用swap,显著降低性能; 另一个可能性是IO问题,inode 或 dentry 缓存在长时间高频小文件创建读写下被干爆耗尽了; 两个原因都会因为重启被暂时性解决 |
如果机器没有调度器, 或者不限定各程序的内存占用, 请先定内存使用……不要使用SWAP. |
重启之后;重新启动软件看下内存是否占满还是其它问题?针对性改善长期运行性能低下的问题; |
查不出原因就重装系统 |
手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图
GMT+8, 2025-8-12 08:46 , Processed in 0.265008 second(s), 31 queries , Gzip On.