机器学习训练GPU购买求助

znbu · 发表于 Post on 2025-11-6 21:19:06

组内需要购买GPU来训练机器学习模型，目前有两个选择，一是RTX 5880 Ada，二是两张RTX4090并行，显存都是48G，请教各位老师哪个选择比较好。

DavyHou · 发表于 Post on 2025-11-28 15:53:13

个人测试感觉，如果只有几个GPU不如买大内存CPU速度更快（1T RAM内存CPU服务器），当然你如果有千核GPU当我什么都没说。

Entropy.S.I · 发表于 Post on 2025-11-13 00:53:56

本帖最后由 Entropy.S.I 于 2025-11-13 00:58 编辑

目前还不会计算发表于 2025-11-11 16:57
他这个用的家用的9950x 3d cpu，竟然也能实现4卡的nvlink 300g。我记得大佬你的方案用的是单路服务器cpu ...

SAI就是我全栈自主设计的超算，通过PCIe Gen4 switch底板实现了9950X3D带4卡V100 NVLink 300G，并且单机和超算都申请了专利。SAI的V100性能相当于市面上的A100，同时支持千卡高效并行计算单个任务，这种能力在市面上基本找不到第二个。

目前还不会计算 · 发表于 Post on 2025-11-11 16:57:56

Entropy.S.I 发表于 2025-11-7 16:26
使用SAI，支持千卡并行，软件全部预装，提供脚本模板，开箱即用。
训练DeePMD机器学习势场景下，每块改进 ...

他这个用的家用的9950x 3d cpu，竟然也能实现4卡的nvlink 300g。我记得大佬你的方案用的是单路服务器cpu才可以

wxyhgk · 发表于 Post on 2025-11-7 19:13:50

你这个问题说得太笼统了，没法直接比较。

得先看你要训练的是什么模型——比如是图像、语言还是分子模拟？

不同任务对显存、带宽和并行效率的要求完全不一样。

比如有的模型吃显存，有的更依赖高带宽，有的又对多卡通信要求高。

如具体说明模型类型、batch size、大致参数量，才能帮你判断哪种方案更划算

Entropy.S.I · 发表于 Post on 2025-11-7 16:26:40

使用SAI，支持千卡并行，软件全部预装，提供脚本模板，开箱即用。
训练DeePMD机器学习势场景下，每块改进型V100性能与市面的A100持平。
每卡时综合￥1~1.5。
https://vcnn7siwx4yx.feishu.cn/wiki/LleawhoLoisgSTkLuejcJ6vFnLb
http://bbs.keinsci.com/thread-55926-1-1.html

Entropy.S.I · 发表于 Post on 2025-11-7 16:22:30

tywangyin 发表于 2025-11-7 10:53
首先，5880双精度浮点性能达 384 GFLOPS,4090双精度性能 3.84 TFLOPS,及时4090*2，双精度性能也才只有单卡5 ...

1. RTX 5880 Ada不支持NVLink，只论PCIe P2P，4090通过简单破解后同样支持，效率完全取决于服务器整机硬件拓扑以及算法设计。

2. 对于自购这种价位的服务器，电费几乎可以忽略不计，许多高校甚至用电免费。

3. 训练LLM对于科学计算行业是不存在的需求，看到“训练机器学习模型”就狭隘地认定为“训练LLM”是非常外行的行为

tywangyin · 发表于 Post on 2025-11-7 10:53:29

首先，5880双精度浮点性能达 384 GFLOPS,4090双精度性能 3.84 TFLOPS,及时4090*2，双精度性能也才只有单卡5880的 6.7%
5880支持 NVLink，假如以后你有条件增加一片，可以拥有900GB的带宽，4090不支持 NVLink，只有PCIE，带宽相对来说惨不忍睹。
虽然5880只有48G，但是不需要在双GPU显存间复杂分配运算，效能仅这一点提升20%左右
5880经过一坨严格的ISV认证，4090是臭打游戏的，蓝屏死机都在许可范围内
5880功耗300W，双4090应该是900W，一年就是600*24*365=5256度电。。。
还有后期扩展啊什么的，5880*8可以训练千亿模型，4090.。。。。。

David_R · 发表于 Post on 2025-11-6 21:48:01

How large are the models, and what floating point precision are you using?

If the plan is to train a single model across two RTX 4090s, this may be severely limited by communication between the two cards via the PCIe bus, unless there are some specific features of your training pipeline that can mitigate this.

If you are dealing with smaller models, and are performing several training runs in parallel (e.g. for hyperparameter optimisation), then the two RTX 4090s will have vastly superior performance to that of a single RTX 5880 Ada.

Another advantage of using a single RTX 5880 Ada is a much lower power consumption (and heat generation). 285W vs. 900W!

		自动登录 Automatic login	找回密码 Forget password
密码 Password			注册 Register

[配置讨论] 机器学习训练GPU购买求助

浏览过的版块