悲报：NVIDIA取消了计算卡以外GPU产品的NVLink支持

Entropy.S.I · 发表于 Post on 2022-9-21 04:58:15

本帖最后由 Entropy.S.I 于 2022-9-21 05:36 编辑

众所周知，老黄于北京时间2022年9月20日晚11点公布了新一代GPU架构Ada Lovelace，发布了以下几款GPU：GeForce RTX 4090; GeForce RTX 4080 16GB; GeForce RTX 4080 12GB; RTX 6000 Ada。

其中GeForce游戏卡的在中国的售价分别为￥12999、￥9499、￥7199，详细规格如下（来源：VideoCardz.com）：

显然，对于GPU加速MD模拟的用途，RTX4090性价比很高，目前预估其性能比RTX3090 Ti高1倍（前提是CPU无明显瓶颈）。

但最令人失望的是，这3款GPU全部不支持NVLink，这意味着用户不能将2块GPU合成1块使用，而这一需求在AI模型训练、GPU加速MD模拟等生产力应用中是非常普遍的。
其中NVLink在GPU加速MD模拟中的作用，本论坛中就有详细介绍：http://bbs.keinsci.com/thread-27072-1-1.html （4楼）。
遥望上一代的Ampere架构游戏卡，高端系列RTX3090和RTX3090Ti均支持NVLink，显然，NVIDIA在新一代GPU中有意取消了这个功能。

再来看RTX 6000 Ada：

我们依然可以发现，作为顶级专业图形卡的RTX 6000 Ada竟然也取消了NVLink，这简直令人大跌眼镜。

很显然，在如今NVIDIA最新的GPU产品中，只剩下Hopper架构计算卡支持NVLink，其余产品线的NVLink功能已完全被取消。（由于美国的禁令，顶级计算卡H100和A100将无法在中国购买。）

这一重大变动最明显的影响就是：从今往后，购买游戏卡的贫穷团队与购买计算卡乃至DGX System的富裕团队，能跑的模型规模差距更大了，这就是所谓“马太效应”吧。

总之，我们有理由相信，NVIDIA正在强迫对NVLink有需求的用户选择其昂贵的计算卡产品，利用其已建立的霸权地位对全球用户进行收割。这是非常令人悲伤的消息。

gog · 发表于 Post on 2023-1-23 21:30:47

beowulf 发表于 2023-1-23 17:30
A100都有官方的A800作为替代了，到时候H100去越南、马来西亚一带洗个澡一样的。
办法总比困难多的。

H100,货值太高，要申报海关。如果出关方允许转售到大陆，就方便多了。私货的风险太大。

beowulf · 发表于 Post on 2023-1-23 17:30:14

gog 发表于 2022-10-18 21:33
用不用nvlink，都不重要了。高端计算加速卡，不准销往中国。得绕道了。玩游戏和办公，以及lammps计算，支 ...

A100都有官方的A800作为替代了，到时候H100去越南、马来西亚一带洗个澡一样的。
办法总比困难多的。

bornkilled · 发表于 Post on 2023-1-11 00:51:09

Picardo 发表于 2022-10-21 11:11
我的意思是游戏显卡有支持nvlink的嘛，

应该是只剩下3090和3090TI是游戏卡带nvlink的绝唱了

Picardo · 发表于 Post on 2022-10-21 11:11:30

gog 发表于 2022-10-18 21:33
用不用nvlink，都不重要了。高端计算加速卡，不准销往中国。得绕道了。玩游戏和办公，以及lammps计算，支 ...

我的意思是游戏显卡有支持nvlink的嘛，

gog · 发表于 Post on 2022-10-18 21:33:21

Picardo 发表于 2022-10-15 10:31
没有啥误导，我也不是很清楚，我自己没测试过，听油管上别人说的

用不用nvlink，都不重要了。高端计算加速卡，不准销往中国。得绕道了。玩游戏和办公，以及lammps计算，支持国产。

Picardo · 发表于 Post on 2022-10-15 10:31:30

Entropy.S.I 发表于 2022-10-13 18:57
最近亲自试了Lammps，确实是用1核带1卡比较合适，误导你了，抱歉…

没有啥误导，我也不是很清楚，我自己没测试过，听油管上别人说的

Entropy.S.I · 发表于 Post on 2022-10-13 18:57:23

Picardo 发表于 2022-10-9 17:31
谢谢赐教，具体我也不太清楚，

最近亲自试了Lammps，确实是用1核带1卡比较合适，误导你了，抱歉…

Picardo · 发表于 Post on 2022-10-9 17:31:19

Entropy.S.I 发表于 2022-9-29 18:39
GPU加速GMX，启用-update gpu后，CPU负载主要是每n(n为正整数，通过mdp文件指定)步收集一次GPU上跑出来的 ...

谢谢赐教，具体我也不太清楚，

Entropy.S.I · 发表于 Post on 2022-9-29 18:39:04

Picardo 发表于 2022-9-29 13:43
请问这个cpu的瓶颈是主频还是核数还是带宽什么的，没用过gromacs，lammps的话，用gpu跑的话，我参照别人 ...

GPU加速GMX，启用-update gpu后，CPU负载主要是每n(n为正整数，通过mdp文件指定)步收集一次GPU上跑出来的数据，经过计算后把能量、坐标信息写入硬盘。此时一般使用1个MPI Rank，其中每个OpenMP线程都会参与通信和计算，算是一种特殊的IO密集型任务，对PCIe总线带宽/延迟、核间通信带宽/延迟以及多核浮点性能同时有需求。但实际上根据我以前用5950X+3080Ti进行的测试，PCIe带宽是跑不满的，CPU功耗也比较低，即CPU浮点计算压力不大。这2项可探测的关键负载都没有跑满，但增加核数（从12核到16核）还是能明显提升GPU使用率和任务运行速度，所以目前不清楚到底是哪个环节出现了瓶颈。

带4090具体选什么CPU需要仔细测试，比如intel 8375C全核性能略弱于AMD 7950X，但前者核心数量多一倍，需测试实际用来带4090跑GMX时到底哪个能发挥出更多的GPU性能。

至于Lammps，如果我没记错，这不是采用“纯GPU”方案的程序，不应该只用1个CPU核心。

Picardo · 发表于 Post on 2022-9-29 13:43:49

Entropy.S.I 发表于 2022-9-21 05:33
30系相较于20系，FP32翻1倍以上，实际跑MD速度恰好翻1倍。测出来不翻倍是因为CPU有瓶颈，要让3090跑GMX的 ...

请问这个cpu的瓶颈是主频还是核数还是带宽什么的，没用过gromacs，lammps的话，用gpu跑的话，我参照别人的意见，还是用的cpu 单核

Entropy.S.I · 发表于 Post on 2022-9-26 16:01:35

八月的雨季发表于 2022-9-26 11:04
翻不了倍的，很直观的对比，我的膜蛋白体系10W原子左右，Amber纯GPU跑，2080ti 70~80 ns一天，1080ti 40~50 ...

这次不一定哦

八月的雨季 · 发表于 Post on 2022-9-26 11:04:50

翻不了倍的，很直观的对比，我的膜蛋白体系10W原子左右，Amber纯GPU跑，2080ti 70~80 ns一天，1080ti 40~50 ns一天，3090非ti 100~110 ns一天。

Entropy.S.I · 发表于 Post on 2022-9-25 22:38:00

sun35mr 发表于 2022-9-25 21:49
我今年换成 3060Ti，结果用gpu跑lammps的速度也就比之前的960 4g快了不到1倍，cpu是R5 2600，是因为CPU到 ...

是。也建议使用最新版驱动，并用最新版CUDA Toolkit编译较新版Lammps。

sun35mr · 发表于 Post on 2022-9-25 21:49:34

Entropy.S.I 发表于 2022-9-21 05:33
30系相较于20系，FP32翻1倍以上，实际跑MD速度恰好翻1倍。测出来不翻倍是因为CPU有瓶颈，要让3090跑GMX的 ...

我今年换成 3060Ti，结果用gpu跑lammps的速度也就比之前的960 4g快了不到1倍，cpu是R5 2600，是因为CPU到了瓶颈吗？

		自动登录 Automatic login	找回密码 Forget password
密码 Password			注册 Register

[其它] 悲报：NVIDIA取消了计算卡以外GPU产品的NVLink支持

评分 Rate