计算化学公社
标题:
服务器两块CPU,运行任务,总是有1个比另外1个热
[打印本页]
作者Author:
shifan
时间:
2023-10-24 18:33
标题:
服务器两块CPU,运行任务,总是有1个比另外1个热
请教一下, 我们有一台 Dell服务器,装了两块 CPU,运行GROMACS,其中一个CPU的温度总是比另外1个高。
我之后想排查到底是散热的问题、还是CPU 和 主板的问题。
1、我先调换了两个CPU塔(散热)的位置,风扇正常转,散热互不影响,运行任务,靠近电源线的CPU热。
2、调换了两块CPU的位置,风扇正常转,但是鼠标、键盘不通电,无法远程操作,所以这次没法运行任务,但是我一开机,靠近电源线的CPU就开始热。(有可能是我没有把CPU装好)
我之后会再重新调换一下CPU试试能不能正常开机,再提交一下任务看看,如果还是靠近电源线的CPU 热,那就是主板的问题。
运行GROMACS,其中一个CPU的温度总是比另外1个高,请问大家这种情况最有可能是什么问题导致的 或者还有什么检测的方法,能测出来是主板问题还是CPU问题 ???
作者Author:
shifan
时间:
2023-10-25 10:36
标题:
服务器两块CPU,运行任务,总是有1个比另外1个热
请教一下, 我们有一台 Dell服务器(
型号:G4GM6H2
),装了两块 CPU(
CPU型号:Intel(R) Xeon(R) CPU E5-4669 v4
@ 2.20GHz
),
运行GROMACS,
其中一个CPU的温度总是比另外1个高(如下图,红色圈是温度更高的CPU)。
(, 下载次数 Times of downloads: 28)
上传 Uploaded
点击下载Click to download
我用两种方式去检测温度:
1、手摸
2、安装了
lm_sensors,
用命令
sensors
去看
我之后想排查到底是散热的问题、还是CPU 和 主板的问题。
1、我先调换了两个
CPU塔(散热)的位置
,风扇正常转,
满核运行任务
, 靠近电源线的CPU更热(就是上图的红圈)。
sensors查看温度,显示 CPU1(80左右) 比 CPU0(65左右) 高15度 ,用手摸是 红色圈的 CPU 更热。
所以我认为左边的CPU 是 0,红色圈的 CPU 是 1。
另外我之后还尝试了
只用 6 个核 运行任务
,平均分配 到每个CPU 就是 3个核, 红色圈位置的CPU 依旧更热。
2、调换了两块
CPU的位置
,风扇正常转,满核运行任务,依旧是靠近电源线的CPU更热。
sensors查看温度,显示 CPU1(80左右) 比 CPU0(60左右) 高 20 度 ,用手摸是 红色圈的 CPU 更热。
但是我不确定CPU编号是不是按照CPU卡槽编的,
我认为是按照 CPU 卡槽 编 的
,因为 sensors 查看和手摸都是红色圈位置的 CPU 热,
如果不是按照CPU卡槽编的,那么 应该是 左边的 CPU 热。
我们目前的推论是 主板有问题,因为 不管CPU 是否调换位置,总是固定的红色圈位置 温度 更高。
根据以上情况,想知道以下几个问题:
1、主板坏的概率有多大(主板较贵,但是主板确实有问题的话,我们还是要换的)?
2、CPU 是否有 问题 ?
3、满核运行,红色圈的CPU 达到80度左右,没有满核运行时,红色圈的CPU 就达到了 70 度,这个温度是正常的吗 ?
4、看其他帖子,有说可以改一下系统 BIOS,两个CPU 温度就 一致 了,这个可行吗?
5、能不能改造一下,例如 冷凝管一类的,让 CPU 散热更快 ,但是dell 经销商 说没法改善散热性能了。
作者Author:
lmch
时间:
2023-10-25 12:03
机箱风道目测前进后出,cpu1吃cpu0尾气,自然热,勤换硅脂吧
作者Author:
shifan
时间:
2023-10-25 15:09
我们1个月前刚涂完硅胶,我拆的时候看了,还有硅胶
作者Author:
tiandikuoyuan
时间:
2023-10-25 15:11
如果温度最高只到80的话不算高;你可以用Gaussian指定使用哪个核心进行计算,看下CPU1单独运行的时候温度怎么样
作者Author:
shifan
时间:
2023-10-25 15:22
tiandikuoyuan 发表于 2023-10-25 15:11
如果温度最高只到80的话不算高;你可以用Gaussian指定使用哪个核心进行计算,看下CPU1单独运行的时候温度怎 ...
好的,我们之前测过 gromacs,只把红圈的CPU核占满,温度最高就 80 左右
作者Author:
shifan
时间:
2023-10-25 15:29
想问下,如果一直满核 运行 gromacs,这个温度还会再升高吗?会导致机器 自动关机吗?
我之前用了40个核(我们两个 cpu 总共44个核),跑了3天左右的 gromacs,我输入 nvidia-smi,
出现
unable to determine the device handle for GPU0000:03:00.0:Unkown Error
我跑过去看了机器,当时整个机器感觉都冒着热气,红圈那个CPU 尤其热,我把电脑关机,又重新开机后,又能显示
nvidia-smi 了,请问这个原因是温度太高导致的吗
作者Author:
chrinide
时间:
2023-10-26 18:55
服务器硬件里面 最容易坏的第一 内存条,第二就是 主板;在我有限的硬件经历里,主板坏的几率非常高,几乎不亚于内存,最近十年的主板坏的几率越来越高,可能和CPU和GPU现在的平均工作温度越来越高有关,主板的温度也是越来越高
作者Author:
Graphite
时间:
2023-10-26 21:59
风扇靠近CPU0,CPU1的风扇吃CPU0吹出来的热气,当然换热效率低,使CPU1更易积热。正常的,无需担心。
而且,满载就80度,热啥,放心大胆用。
除非你换张交错放置CPU的主板,不过那也没啥意义。
欢迎光临 计算化学公社 (http://bbs.keinsci.com/)
Powered by Discuz! X3.3