计算化学公社

标题: 搭载7950X、4090显卡计算服务器的长期使用稳定性如何?多谢~ [打印本页]

作者
Author:
bobosiji    时间: 2024-9-1 15:44
标题: 搭载7950X、4090显卡计算服务器的长期使用稳定性如何?多谢~
实验室近期计划购入一台新服务器,并入原有集群。主要运行Gromacs、Gaussian、LAMMPS、GPUMD,以及少量CP2K和VASP等计算任务。拟使用7950X处理器带1到2张4090(D)显卡,不知道7950X作为计算服务器长期使用的稳定性如何?
我们的使用场景如下:
  (1)高强度使用:服务器将全年365天*24小时开机,绝大部分时间都有任务执行。
  (2)每年最多允许宕机2~3次:服务器安置在专门的机房内,散热和供电条件良好。但距离实验室约20公里,有问题处理麻烦。

    想请教大家,
1、作为一款消费级CPU,7950X在上述长期高负荷运行的情况下稳定性如何?是否容易出现宕机、过热、频率下降或其他硬件问题?
2、涡轮版的4090卡会不会散热差一些,导致服务器稳定性也差一些?

另外,在长期运行中,为确保服务器稳定性,定期维护或监控方面有何建议?
    非常感谢各位的宝贵意见!

作者
Author:
牧生    时间: 2024-9-1 16:32
我的机子散热是用的利民风冷,显卡4090,就放在办公室,长期开机,无论夏天冬天,白天黑夜,虽然很烫,但是我都没care过,运行的还是挺好的,没觉得有任何不妥的地方。
作者
Author:
bobosiji    时间: 2024-9-1 16:47
本帖最后由 bobosiji 于 2024-9-1 16:48 编辑
牧生 发表于 2024-9-1 16:32
我的机子散热是用的利民风冷,显卡4090,就放在办公室,长期开机,无论夏天冬天,白天黑夜,虽然很烫,但是 ...

您机器长期开机,但绝大部分时间都有任务跑,甚至是满载跑嘛?另外,显卡是涡轮卡么?机器稳定运行多久了,夏天办公室的环境温度高不?多谢提点~
作者
Author:
牧生    时间: 2024-9-1 17:41
本帖最后由 牧生 于 2024-9-1 17:42 编辑

我的CPU是13900K,是智障的大小核设计。我一般是6核CPU+4090在跑一个gmx任务,或者16个CPU核跑一个CP2K任务。少数时候也两个任务同时跑。但同时跑的情况下,两者速度都明显下降。

显卡是主动散热的,稳定运行一年。夏天的成都超级热。周末没有空调的情况下,室温大概也有35度吧。
作者
Author:
bobosiji    时间: 2024-9-1 17:54
牧生 发表于 2024-9-1 17:41
我的CPU是13900K,是智障的大小核设计。我一般是6核CPU+4090在跑一个gmx任务,或者16个CPU核跑一个CP2K任务 ...

那就是,几乎不关机,绝大部分都有上述2种重负荷任务中的一个跑?再问问,您的显卡是三槽PCie宽度(https://item.jd.com/100092422745.html#crumb-wrap   也叫公版显卡),还是双槽PCie的涡轮卡(https://item.jd.com/100101602076.html#crumb-wrap)?多谢~
作者
Author:
wakakasa    时间: 2024-9-1 19:24
牧生 发表于 2024-9-1 17:41
我的CPU是13900K,是智障的大小核设计。我一般是6核CPU+4090在跑一个gmx任务,或者16个CPU核跑一个CP2K任务 ...

若插两张4090,是不是核就全部充分用上了?
作者
Author:
Entropy.S.I    时间: 2024-9-1 19:57
本帖最后由 Entropy.S.I 于 2024-9-1 19:58 编辑
bobosiji 发表于 2024-9-1 17:54
那就是,几乎不关机,绝大部分都有上述2种重负荷任务中的一个跑?再问问,您的显卡是三槽PCie宽度(https ...

绝对不要使用“涡轮卡”,这都是从正经3风扇游戏卡上拆芯片做的,做工和用料极差,散热也极差,故障率高得惊人。4090(D)在server行业的口碑完全是被涡轮卡败坏掉的。我半年前跟进并部署的一单8卡4090涡轮卡服务器(基于“大厂准系统”的方案)的采购,其中2片都有问题,但是我跟进并部署的其他正规型号4090(D),加起来已经有好几十片,没有一片出问题。
作者
Author:
bobosiji    时间: 2024-9-1 21:15
本帖最后由 bobosiji 于 2024-9-1 21:35 编辑
Entropy.S.I 发表于 2024-9-1 19:57
绝对不要使用“涡轮卡”,这都是从正经3风扇游戏卡上拆芯片做的,做工和用料极差,散热也极差,故障率高 ...


作者
Author:
Entropy.S.I    时间: 2024-9-2 00:23
本帖最后由 Entropy.S.I 于 2024-9-2 00:32 编辑
bobosiji 发表于 2024-9-1 21:15
**** 本内容被作者隐藏 ****

不要碰任何“涡轮卡”。即使JD提供售后,你能忍受三天两头故障吗?或者运气好,没有故障,但是过保准时坏,你能忍受吗?“涡轮卡”甚至不能算是合格的GPU,还在卖只是因为市场客户对其认知有偏差,同时工厂可以通过抬高价格、收紧保修来cover风险成本。
作者
Author:
Satoru    时间: 2024-9-2 02:24
最近看到了这个东西:https://wiki.sipeed.com/hardware/en/kvm/NanoKVM/introduction.html,可以给没有ipmi的主板提供远程kvm(远程开关机、改bios甚至装系统)。成本上比之前基于树莓派的要低不少。

我买了一个,还没收到,到时可跟进。供参考
作者
Author:
Huschein    时间: 2024-9-2 05:13
还行吧 感觉没那么容易坏
作者
Author:
牧生    时间: 2024-9-2 07:06
wakakasa 发表于 2024-9-1 19:24
若插两张4090,是不是核就全部充分用上了?

我的4090是三个散热风扇的,就是很常规的游戏卡。

虽然我的机箱已经是很大,但是仍然没法塞两个卡,只要装上4090,那么空间就没有了,连1080TI都塞不下。
作者
Author:
r1ck    时间: 2024-9-2 09:20
我们7950X+4090(七彩虹战斧),机房空调(24℃),上的360水冷。GPU300W功耗风扇30%大概50℃左右。
作者
Author:
sss668800    时间: 2024-9-2 11:26
牧生 发表于 2024-9-1 17:41
我的CPU是13900K,是智障的大小核设计。我一般是6核CPU+4090在跑一个gmx任务,或者16个CPU核跑一个CP2K任务 ...

你需要担心13900k缩缸,4090做好散热问题不大
作者
Author:
牧生    时间: 2024-9-2 14:51
sss668800 发表于 2024-9-2 11:26
你需要担心13900k缩缸,4090做好散热问题不大

我担心也没用。下一次坚决AMD
作者
Author:
sss668800    时间: 2024-9-2 14:55
牧生 发表于 2024-9-2 14:51
我担心也没用。下一次坚决AMD

确实

我当时纯粹是因为不想要大小核,选了7950x
作者
Author:
sss668800    时间: 2024-9-2 19:19
Entropy.S.I 发表于 2024-9-1 19:57
绝对不要使用“涡轮卡”,这都是从正经3风扇游戏卡上拆芯片做的,做工和用料极差,散热也极差,故障率高 ...

4090有些厂家出过原装涡轮卡,故障率和三风扇比没高。

但是现在市面上的4090涡轮卡,99%以上是拆核心重植到涡扇PCB上面弄出来的,那故障率就高了几十倍都不止了
作者
Author:
Entropy.S.I    时间: 2024-9-2 19:37
sss668800 发表于 2024-9-2 19:19
4090有些厂家出过原装涡轮卡,故障率和三风扇比没高。

但是现在市面上的4090涡轮卡,99%以上是拆核心 ...

客户买涡轮卡的目的是高密度安装,高密度安装导致侧面进风口几乎被堵死,即使有本身的离心风扇+服务器暴力风扇,也非常容易过热,所以涡轮卡故障率远高于三风扇卡。三风扇卡组装8卡机完全没问题,只是大部分人迷信“大厂准系统”,不肯用小厂定制的方案
作者
Author:
baisl    时间: 2024-9-3 10:44
如果要保障系统稳定性,绝对不要在内存上省钱,去买什么杂牌内存。有些内存频率标的很高,实际原生频率很低,是开XMP或者EXPO超频超上去的,厂家宣称“稳定超频”那也是在传统消费级平台上而言。电脑莫名死机蓝屏,重启就恢复,多半就和这种不稳定的内存有极大关系。
作者
Author:
sss668800    时间: 2024-9-3 15:23
本帖最后由 sss668800 于 2024-9-3 15:46 编辑
Entropy.S.I 发表于 2024-9-2 19:37
客户买涡轮卡的目的是高密度安装,高密度安装导致侧面进风口几乎被堵死,即使有本身的离心风扇+服务器暴 ...

3风扇8卡就只能去小厂定制了,因为3风扇4090要4pcie槽位,相当于32槽位,宽度已经超过65厘米,机箱外壳得70厘米。
而标准机柜60厘米宽度,支持的机箱不超过50厘米,通常就20个pcie槽位极限10张双宽卡。上不了通用机柜就没法走托管了。

PS:实际上有些厂家在做4090的3风扇8卡整机+大厂准系统,方案就是把4090的外壳和3风扇拆了(剩余散热片2pcie槽位),通过暴力风扇做被动散热,也还是会出现过热情况。
作者
Author:
AIchaosuan666    时间: 2024-9-3 16:25
个人看法哈 所谓涡轮卡完全是为生产力设计的 个人建议如果上少量的卡(1-2张)或者要放在办公室最好选择三风扇的游戏卡,如果要多卡并行且放在一台机器里那没办法必须得用涡轮卡
涡轮卡故障率其实就还好 最大的缺点就是噪音大 寿命肯定比三风扇的短  干的活也不一样
作者
Author:
bobosiji    时间: 2024-9-3 17:25
sss668800 发表于 2024-9-3 15:23
3风扇8卡就只能去小厂定制了,因为3风扇4090要4pcie槽位,相当于32槽位,宽度已经超过65厘米,机箱外壳得 ...

“方案就是把4090的外壳和3风扇拆了(剩余散热片2pcie槽位),通过暴力风扇做被动散热”:意思是,4090没风扇,靠机箱的风扇散热?
作者
Author:
wm275165355    时间: 2024-9-6 11:58
4090 三风扇游戏版本改的涡轮卡,在国内有很多厂,工艺水平参差不齐。
作者
Author:
激发态的Xe    时间: 2024-9-18 22:50
牧生 发表于 2024-9-1 16:32
我的机子散热是用的利民风冷,显卡4090,就放在办公室,长期开机,无论夏天冬天,白天黑夜,虽然很烫,但是 ...

请问使用利民风冷的噪音如何呢
作者
Author:
牧生    时间: 2024-9-19 07:18
激发态的Xe 发表于 2024-9-18 22:50
请问使用利民风冷的噪音如何呢

机子放在距离我不到1米的地方,觉得还好吧,仔细听,当然能听到风扇声音,但是大多时候也不会去注意到。本来办公室也是有些噪音的
作者
Author:
wxyhgk    时间: 2024-9-19 10:12
没什么建议,花钱买贵的好的就稳定。

电源:海韵/振华
机箱:太阳神/创世神
风扇:猫扇
内存:皇家戟

作者
Author:
c00jsw00    时间: 2024-9-26 16:13
個人的經驗..我大概有10台自組裝的server 大概放在學校冷氣房裡面除非停電(有的運行很多年了)..幾乎都很穩定
作者
Author:
biogon    时间: 2024-9-26 16:29
bobosiji 发表于 2024-9-3 17:25
“方案就是把4090的外壳和3风扇拆了(剩余散热片2pcie槽位),通过暴力风扇做被动散热”:意思是,4090没风 ...

是的,这样的效果也还可以,但是不是所有服务器都能装这么高的卡
作者
Author:
二分音符    时间: 2024-10-11 10:48
实验室4台7950X+4090,普通游戏卡,不关机,长期跑满。只有水冷的支架断过(纯物料问题,淘宝十几块解决),没有出现过其他问题。
作者
Author:
激发态的Xe    时间: 2024-12-24 12:49
牧生 发表于 2024-9-19 07:18
机子放在距离我不到1米的地方,觉得还好吧,仔细听,当然能听到风扇声音,但是大多时候也不会去注意到。 ...

谢谢解答!不好意思才看到
作者
Author:
sunlin3685    时间: 2024-12-25 16:26
实话说,按照之前我采购的经验来说,你买的都是家用级别的,不是用来7*24小时工作的,cpu,主板,内存,显卡,都是,我打个比方,例如4090设计寿命是3年,每天工作6-8小时,这样算的话,如果你是7*24小时工作的话,4090一年就用光三年寿命;所以这个也就是为什么一些商家对于4090长时间跑模型或者计算的客户,缩短质保周期;




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3