计算化学公社

 找回密码 Forget password
 注册 Register
Views: 1187|回复 Reply: 8
打印 Print 上一主题 Last thread 下一主题 Next thread

[硬件相关] 服务器两块CPU,运行任务,总是有1个比另外1个热

[复制链接 Copy URL]

25

帖子

0

威望

159

eV
积分
184

Level 3 能力者

请教一下, 我们有一台 Dell服务器,装了两块 CPU,运行GROMACS,其中一个CPU的温度总是比另外1个高。

我之后想排查到底是散热的问题、还是CPU 和 主板的问题。

1、我先调换了两个CPU塔(散热)的位置,风扇正常转,散热互不影响,运行任务,靠近电源线的CPU热。
2、调换了两块CPU的位置,风扇正常转,但是鼠标、键盘不通电,无法远程操作,所以这次没法运行任务,但是我一开机,靠近电源线的CPU就开始热。(有可能是我没有把CPU装好)


我之后会再重新调换一下CPU试试能不能正常开机,再提交一下任务看看,如果还是靠近电源线的CPU 热,那就是主板的问题。

运行GROMACS,其中一个CPU的温度总是比另外1个高,请问大家这种情况最有可能是什么问题导致的 或者还有什么检测的方法,能测出来是主板问题还是CPU问题 ???

25

帖子

0

威望

159

eV
积分
184

Level 3 能力者

2#
 楼主 Author| 发表于 Post on 2023-10-25 10:36:22 | 只看该作者 Only view this author

服务器两块CPU,运行任务,总是有1个比另外1个热

请教一下, 我们有一台 Dell服务器(型号:G4GM6H2),装了两块 CPU(CPU型号:Intel(R) Xeon(R) CPU E5-4669 v4 @ 2.20GHz),
运行GROMACS,其中一个CPU的温度总是比另外1个高(如下图,红色圈是温度更高的CPU)。



我用两种方式去检测温度:
1、手摸
2、安装了 lm_sensors,用命令 sensors 去看

我之后想排查到底是散热的问题、还是CPU 和 主板的问题。

1、我先调换了两个CPU塔(散热)的位置,风扇正常转,满核运行任务, 靠近电源线的CPU更热(就是上图的红圈)。
sensors查看温度,显示 CPU1(80左右) 比 CPU0(65左右) 高15度 ,用手摸是 红色圈的 CPU 更热。
所以我认为左边的CPU 是 0,红色圈的 CPU 是 1。
另外我之后还尝试了 只用 6 个核 运行任务,平均分配 到每个CPU 就是 3个核, 红色圈位置的CPU 依旧更热。

2、调换了两块CPU的位置,风扇正常转,满核运行任务,依旧是靠近电源线的CPU更热。
sensors查看温度,显示 CPU1(80左右) 比 CPU0(60左右) 高 20 度 ,用手摸是 红色圈的 CPU 更热。
但是我不确定CPU编号是不是按照CPU卡槽编的,我认为是按照 CPU 卡槽 编 的,因为 sensors 查看和手摸都是红色圈位置的 CPU 热,
如果不是按照CPU卡槽编的,那么 应该是 左边的 CPU 热。

我们目前的推论是 主板有问题,因为 不管CPU 是否调换位置,总是固定的红色圈位置 温度 更高。

根据以上情况,想知道以下几个问题:

1、主板坏的概率有多大(主板较贵,但是主板确实有问题的话,我们还是要换的)?
2、CPU 是否有 问题 ?
3、满核运行,红色圈的CPU 达到80度左右,没有满核运行时,红色圈的CPU 就达到了 70 度,这个温度是正常的吗 ?
4、看其他帖子,有说可以改一下系统 BIOS,两个CPU 温度就 一致 了,这个可行吗?
5、能不能改造一下,例如 冷凝管一类的,让 CPU 散热更快 ,但是dell 经销商 说没法改善散热性能了。


46

帖子

0

威望

928

eV
积分
974

Level 4 (黑子)

3#
发表于 Post on 2023-10-25 12:03:00 | 只看该作者 Only view this author
机箱风道目测前进后出,cpu1吃cpu0尾气,自然热,勤换硅脂吧

评分 Rate

参与人数
Participants 1
eV +1 收起 理由
Reason
wangyj + 1 我很赞同

查看全部评分 View all ratings

25

帖子

0

威望

159

eV
积分
184

Level 3 能力者

4#
 楼主 Author| 发表于 Post on 2023-10-25 15:09:35 | 只看该作者 Only view this author
我们1个月前刚涂完硅胶,我拆的时候看了,还有硅胶

195

帖子

0

威望

4029

eV
积分
4224

Level 6 (一方通行)

5#
发表于 Post on 2023-10-25 15:11:33 | 只看该作者 Only view this author
如果温度最高只到80的话不算高;你可以用Gaussian指定使用哪个核心进行计算,看下CPU1单独运行的时候温度怎么样

25

帖子

0

威望

159

eV
积分
184

Level 3 能力者

6#
 楼主 Author| 发表于 Post on 2023-10-25 15:22:25 | 只看该作者 Only view this author
tiandikuoyuan 发表于 2023-10-25 15:11
如果温度最高只到80的话不算高;你可以用Gaussian指定使用哪个核心进行计算,看下CPU1单独运行的时候温度怎 ...

好的,我们之前测过 gromacs,只把红圈的CPU核占满,温度最高就 80 左右

25

帖子

0

威望

159

eV
积分
184

Level 3 能力者

7#
 楼主 Author| 发表于 Post on 2023-10-25 15:29:39 | 只看该作者 Only view this author
想问下,如果一直满核 运行 gromacs,这个温度还会再升高吗?会导致机器 自动关机吗?
我之前用了40个核(我们两个 cpu 总共44个核),跑了3天左右的 gromacs,我输入 nvidia-smi,
出现 unable to determine the device handle for GPU0000:03:00.0:Unkown Error
我跑过去看了机器,当时整个机器感觉都冒着热气,红圈那个CPU 尤其热,我把电脑关机,又重新开机后,又能显示
nvidia-smi 了,请问这个原因是温度太高导致的吗

339

帖子

0

威望

4999

eV
积分
5338

Level 6 (一方通行)

8#
发表于 Post on 2023-10-26 18:55:14 来自手机 | 只看该作者 Only view this author
服务器硬件里面 最容易坏的第一 内存条,第二就是 主板;在我有限的硬件经历里,主板坏的几率非常高,几乎不亚于内存,最近十年的主板坏的几率越来越高,可能和CPU和GPU现在的平均工作温度越来越高有关,主板的温度也是越来越高

290

帖子

7

威望

3187

eV
积分
3617

Level 5 (御坂)

石墨

9#
发表于 Post on 2023-10-26 21:59:47 | 只看该作者 Only view this author
风扇靠近CPU0,CPU1的风扇吃CPU0吹出来的热气,当然换热效率低,使CPU1更易积热。正常的,无需担心。
而且,满载就80度,热啥,放心大胆用。
除非你换张交错放置CPU的主板,不过那也没啥意义。
镜像空间计算模拟

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-24 07:43 , Processed in 0.217627 second(s), 27 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list