计算化学公社

 找回密码 Forget password
 注册 Register
Views: 1014|回复 Reply: 8
打印 Print 上一主题 Last thread 下一主题 Next thread

[配置讨论] 机器学习训练GPU购买求助

[复制链接 Copy URL]

1

帖子

0

威望

324

eV
积分
325

Level 3 能力者

跳转到指定楼层 Go to specific reply
楼主
组内需要购买GPU来训练机器学习模型,目前有两个选择,一是RTX 5880 Ada,二是两张RTX4090并行,显存都是48G,请教各位老师哪个选择比较好。

67

帖子

0

威望

4684

eV
积分
4751

Level 6 (一方通行)

9#
发表于 Post on 2025-11-28 15:53:13 | 只看该作者 Only view this author
个人测试感觉,如果只有几个GPU不如买大内存CPU速度更快(1T RAM内存CPU服务器),当然你如果有千核GPU当我什么都没说。

878

帖子

17

威望

5403

eV
积分
6621

Level 6 (一方通行)

小屁孩

8#
发表于 Post on 2025-11-13 00:53:56 | 只看该作者 Only view this author
本帖最后由 Entropy.S.I 于 2025-11-13 00:58 编辑
目前还不会计算 发表于 2025-11-11 16:57
他这个用的家用的9950x 3d cpu,竟然也能实现4卡的nvlink  300g。我记得大佬你的方案用的是单路服务器cpu ...

SAI就是我全栈自主设计的超算,通过PCIe Gen4 switch底板实现了9950X3D带4卡V100 NVLink 300G,并且单机和超算都申请了专利。SAI的V100性能相当于市面上的A100,同时支持千卡高效并行计算单个任务,这种能力在市面上基本找不到第二个。
- 向着虚无前进 -

33

帖子

0

威望

623

eV
积分
656

Level 4 (黑子)

7#
发表于 Post on 2025-11-11 16:57:56 | 只看该作者 Only view this author
Entropy.S.I 发表于 2025-11-7 16:26
使用SAI,支持千卡并行,软件全部预装,提供脚本模板,开箱即用。
训练DeePMD机器学习势场景下,每块改进 ...

他这个用的家用的9950x 3d cpu,竟然也能实现4卡的nvlink  300g。我记得大佬你的方案用的是单路服务器cpu才可以

246

帖子

7

威望

2020

eV
积分
2406

Level 5 (御坂)

6#
发表于 Post on 2025-11-7 19:13:50 | 只看该作者 Only view this author
你这个问题说得太笼统了,没法直接比较。

得先看你要训练的是什么模型——比如是图像、语言还是分子模拟?

不同任务对显存、带宽和并行效率的要求完全不一样。

比如有的模型吃显存,有的更依赖高带宽,有的又对多卡通信要求高。

如具体说明模型类型、batch size、大致参数量,才能帮你判断哪种方案更划算

878

帖子

17

威望

5403

eV
积分
6621

Level 6 (一方通行)

小屁孩

5#
发表于 Post on 2025-11-7 16:26:40 | 只看该作者 Only view this author
使用SAI,支持千卡并行,软件全部预装,提供脚本模板,开箱即用。
训练DeePMD机器学习势场景下,每块改进型V100性能与市面的A100持平。
每卡时综合¥1~1.5。
https://vcnn7siwx4yx.feishu.cn/wiki/LleawhoLoisgSTkLuejcJ6vFnLb
http://bbs.keinsci.com/thread-55926-1-1.html
- 向着虚无前进 -

878

帖子

17

威望

5403

eV
积分
6621

Level 6 (一方通行)

小屁孩

4#
发表于 Post on 2025-11-7 16:22:30 | 只看该作者 Only view this author
tywangyin 发表于 2025-11-7 10:53
首先,5880双精度浮点性能达 384 GFLOPS,4090双精度性能 3.84 TFLOPS,及时4090*2,双精度性能也才只有单卡5 ...

1. RTX 5880 Ada不支持NVLink,只论PCIe P2P,4090通过简单破解后同样支持,效率完全取决于服务器整机硬件拓扑以及算法设计。

2. 对于自购这种价位的服务器,电费几乎可以忽略不计,许多高校甚至用电免费。

3. 训练LLM对于科学计算行业是不存在的需求,看到“训练机器学习模型”就狭隘地认定为“训练LLM”是非常外行的行为
- 向着虚无前进 -

3

帖子

0

威望

21

eV
积分
24

Level 1 能力者

3#
发表于 Post on 2025-11-7 10:53:29 | 只看该作者 Only view this author
首先,5880双精度浮点性能达 384 GFLOPS,4090双精度性能 3.84 TFLOPS,及时4090*2,双精度性能也才只有单卡5880的 6.7%
5880支持 NVLink,假如以后你有条件增加一片,可以拥有900GB的带宽,4090不支持 NVLink,只有PCIE,带宽相对来说惨不忍睹。
虽然5880只有48G,但是不需要在双GPU显存间复杂分配运算,效能仅这一点提升20%左右
5880经过一坨严格的ISV认证,4090是臭打游戏的,蓝屏死机都在许可范围内
5880功耗300W,双4090应该是900W,一年就是600*24*365=5256度电。。。
还有后期扩展啊什么的,5880*8可以训练千亿模型,4090.。。。。。

44

帖子

3

威望

550

eV
积分
654

Level 4 (黑子)

2#
发表于 Post on 2025-11-6 21:48:01 | 只看该作者 Only view this author
How large are the models, and what floating point precision are you using?

If the plan is to train a single model across two RTX 4090s, this may be severely limited by communication between the two cards via the PCIe bus, unless there are some specific features of your training pipeline that can mitigate this.

If you are dealing with smaller models, and are performing several training runs in parallel (e.g. for hyperparameter optimisation), then the two RTX 4090s will have vastly superior performance to that of a single RTX 5880 Ada.

Another advantage of using a single RTX 5880 Ada is a much lower power consumption (and heat generation). 285W vs. 900W!

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2026-1-24 04:40 , Processed in 0.188468 second(s), 22 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list