计算化学公社

标题: 求助主板PCIE通道阻塞 [打印本页]

作者
Author:
zfb601    时间: 2025-8-23 12:29
标题: 求助主板PCIE通道阻塞
组内两台工作站,具体配置如下:

主机1:
主板:技嘉MZ72-HB2
CPU:2*EPYC7763
GPU:4*4090-48G
内存:512G
SSD:致态4T

主机1反复出现IO报错,起初以为是SSD质量有问题,后来察觉到是主板吞吐不够。BIOS将4个GPU的PCIE通道从Gen4 x16调整到Gen4 x8,后稳定运行。但是极限满负载仍然有报错的可能。


近期又购入另一台主机,具体配置如下:
主板:ASrock ROME2D16-2T P3.70
CPU:2*EPYC7763
GPU:4*5090
内存:512G
SSD:致态4T


现在满载测试发现主机总是异常重启。查阅相关日志,经AI分析发现仍然是主板pcie通道不足所致,遂在BIOS中将主演调整到Gen3 x16。满载测试24小时无异常,但随后突然再次异常重启,遂调整成Gen4 x8。目前仍在调优过程中。

所有的GPU都是通过延长线连接主板的,一度怀疑是这些延长线质量有问题或速度不达标。但是总是不能抓到实锤证据。现在两台机器只要不是极限满载就能保持稳定运行。

不知论坛中各位大佬是否有此类机器的调优经验,愿与各位大佬交流

作者
Author:
David_R    时间: 2025-8-24 08:16
I recommend checking the integrity of the GPUs by using the gpu_burn utility. It's very good at spotting defects in GPUs that would otherwise remain hidden.

I also presume you are providing enough power for the system? Four GPUs of this spec in a dual-socket system will demand a huge amount of power, possibly more than a single residential circuit can provide. You could also try power-limiting the GPUs a little - considerably fewer watts can be consumed for a very minor decrease in performance.
作者
Author:
zfb601    时间: 2025-8-25 10:17
谢谢你的回复!
我会用 gpu_burn试一下看看系统是不是稳定。
根据系统和记录的一些log文件,可以初步判断是,PCIE链路不稳定。这是我把log文件喂给chaotGPT之后,他给我的一些回复:“症结不像是“主板总带宽不够”,而更像是 PCIe 信号完整性(SI)/链路裕量在四卡同时高负载+延长线场景下被吃光了,所以出现 AER 的 Data Link 层报错(BadTLP、Timeout),最终把某条 GPU 链路拖垮并触发重启”
主机配备了两个2600W的电源,每个电源分配两张显卡,应该不至于出现电源功率不足的情况。
作者
Author:
AKUNServer    时间: 2025-8-25 11:11
本帖最后由 AKUNServer 于 2025-8-25 11:13 编辑

很明显是主板的问题, PCIe 接口在数据传输速率和带宽上存在限制,GPU之间的通信会直接影响性能,4张双宽48G 的GPU一般是可以直接选择4GPU模块或者在有后期增加显卡的需求,会直接配备8GPU SWITCH计算模块,考虑到电源的降额裕量,可以在2600w电源上再增加些。
作者
Author:
zfb601    时间: 2025-8-26 23:45
本帖最后由 zfb601 于 2025-8-27 11:27 编辑
AKUNServer 发表于 2025-8-25 11:11
很明显是主板的问题, PCIe 接口在数据传输速率和带宽上存在限制,GPU之间的通信会直接影响性能,4张双宽48G ...

感谢回复!!
我也觉得像是主板的问题,可是我限制了pcie插槽的速度,仍然会异常重启,这就很迷惑了。

主板上有6个pcie槽,其中5个是gen4x16的。
log文件提示每次报错的都是GPU3-插在pcie1上
我把报错的CPU3换pice6 插槽,结果还是报错。
接下来我又交换了一下GPU1和GPU3,这次是交换过后的卡报错了。
我现在怀疑是pcie延长线的问题。我今天又给这条怀疑的延长线换了个插槽,现在把他插在pcie5上,控制一下变量,看看这次是哪里报错

我还发现了一个问题,四张显卡排排坐,所有的热量都吹到了最后一张卡那里,(正好就是报错的那张卡的位置),这张卡吹出来的风明显比其他卡温度高,但是nvidia-smi显示这张卡温度和其他卡类似,也没有特别高。还有可能是热量积压导致的。但是log文件里也没有记录到过热死机的信息。所以暂时还不能确定

还有一种可能就是pcie延长线和接口都位于其他卡热风的攻击范围,也有可能是线路是过热了???

anyway,等这次调换测试的结果出来,要是还不行,那就尽我甲方的职责,联系乙方行使权利了


--------------------------
第二天更新
还是异常重启了。报错提示还是pcie6这条线路有问题。也就是不管下游延长线和显卡怎么换,出错的都是pcie6这条线路。我现在怀疑是主板有问题了。
作者
Author:
zfb601    时间: 2025-8-26 23:47
AKUNServer 发表于 2025-8-25 11:11
很明显是主板的问题, PCIe 接口在数据传输速率和带宽上存在限制,GPU之间的通信会直接影响性能,4张双宽48G ...

我现在是在做初步的压力测试,就是在四张卡上跑了四个独立的动力学模拟,似乎只有GPU和CPU之间的通信吧?这也会涉及gpu卡与卡之间的通信吗?
作者
Author:
AKUNServer    时间: 2025-8-27 11:54
zfb601 发表于 2025-8-26 23:47
我现在是在做初步的压力测试,就是在四张卡上跑了四个独立的动力学模拟,似乎只有GPU和CPU之间的通信吧? ...

不会




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3