悲报：NVIDIA取消了计算卡以外GPU产品的NVLink支持

Entropy.S.I · 发表于 Post on 2022-9-21 04:58:15

本帖最后由 Entropy.S.I 于 2022-9-21 05:36 编辑

众所周知，老黄于北京时间2022年9月20日晚11点公布了新一代GPU架构Ada Lovelace，发布了以下几款GPU：GeForce RTX 4090; GeForce RTX 4080 16GB; GeForce RTX 4080 12GB; RTX 6000 Ada。

其中GeForce游戏卡的在中国的售价分别为￥12999、￥9499、￥7199，详细规格如下（来源：VideoCardz.com）：

显然，对于GPU加速MD模拟的用途，RTX4090性价比很高，目前预估其性能比RTX3090 Ti高1倍（前提是CPU无明显瓶颈）。

但最令人失望的是，这3款GPU全部不支持NVLink，这意味着用户不能将2块GPU合成1块使用，而这一需求在AI模型训练、GPU加速MD模拟等生产力应用中是非常普遍的。
其中NVLink在GPU加速MD模拟中的作用，本论坛中就有详细介绍：http://bbs.keinsci.com/thread-27072-1-1.html （4楼）。
遥望上一代的Ampere架构游戏卡，高端系列RTX3090和RTX3090Ti均支持NVLink，显然，NVIDIA在新一代GPU中有意取消了这个功能。

再来看RTX 6000 Ada：

我们依然可以发现，作为顶级专业图形卡的RTX 6000 Ada竟然也取消了NVLink，这简直令人大跌眼镜。

很显然，在如今NVIDIA最新的GPU产品中，只剩下Hopper架构计算卡支持NVLink，其余产品线的NVLink功能已完全被取消。（由于美国的禁令，顶级计算卡H100和A100将无法在中国购买。）

这一重大变动最明显的影响就是：从今往后，购买游戏卡的贫穷团队与购买计算卡乃至DGX System的富裕团队，能跑的模型规模差距更大了，这就是所谓“马太效应”吧。

总之，我们有理由相信，NVIDIA正在强迫对NVLink有需求的用户选择其昂贵的计算卡产品，利用其已建立的霸权地位对全球用户进行收割。这是非常令人悲伤的消息。

zhouoh · 发表于 Post on 2022-9-21 05:24:24

不知道具体跑MD速度咋样，30系也是说FP32翻倍，结果速度提升也就那样。

Entropy.S.I · 发表于 Post on 2022-9-21 05:33:52

本帖最后由 Entropy.S.I 于 2022-9-21 05:46 编辑

zhouoh 发表于 2022-9-21 05:24
不知道具体跑MD速度咋样，30系也是说FP32翻倍，结果速度提升也就那样。

30系相较于20系，FP32翻1倍以上，实际跑MD速度恰好翻1倍。测出来不翻倍是因为CPU有瓶颈，要让3090跑GMX的MD模拟速度相较于2080Ti翻倍，需要使用AMD Ryzen 5950X或更强的CPU。

此外，上一代纸面FP32性能提升幅度没有与实际MD模拟速度的提升幅度相同的另一个原因，是Ampere架构将FP32与INT32单元合并，这在实际应用中会损失一部分FP32性能。而Ada架构相较于Ampere架构维持了FP32的计数方法，其提升完全是基于频率和核心规模的“硬”提升，所以，只要CPU没有明显瓶颈，4090相较于3090Ti运行MD模拟的性能完全可以与纸面FP32性能的提升相对应。

RTX 4090公版的FP32是83TFLPOS，非公版超频空间极大（因为TGP上限是660W，比公版默认TGP 450W高得多，而且基于此前泄露可知，4090的核心有望运行在3GHz下），可能会逼近100TFLOPS，而上一代的RTX3090Ti仅有40TFLPOS。据此预估，要发挥RTX4090的大部分性能，至少需要AMD Ryzen 7950X或intel XEON 8375C，很可能这还不够，今后看实测即可。

zhouoh · 发表于 Post on 2022-9-21 05:50:16

问题是用纯GPU方案的amber和openmm提升也不到一倍。我这里一个蛋白体系，2080ti大概200ns/day，3080ti 也才270ns。感觉是显存制约了速度，不知道这一代加缓存能不能改善。

Entropy.S.I · 发表于 Post on 2022-9-21 06:42:50

zhouoh 发表于 2022-9-21 05:50
问题是用纯GPU方案的amber和openmm提升也不到一倍。我这里一个蛋白体系，2080ti大概200ns/day，3080ti 也才 ...

建议更新NVIDIA GPU驱动，使用最新的CUDA Toolkit编译，再测试。

我对我前面说的结论完全负责。此外，我也测试过5950X配RTX 3080Ti（GPU占用率~90%），速度是XEON 6130配2080Ti（GPU占用率~90%）的1.9倍。测试用的体系就是我之前发布的HPC benchmark所用体系。

牧生 · 发表于 Post on 2022-9-21 08:50:44

总体来说，GPU强，也必须要用足够强的CPU才能发挥足够好的性能。

真是个烧钱的玩意。

sss668800 · 发表于 Post on 2022-9-23 16:06:12

其实两年前30系发布那会就能看出来这事，nvlink早晚在游戏卡和图形卡被阉割掉，看这个帖子：
https://machbbs.com/chiphell/152497

turing和volta都是nvlink2.0，但是tesla v100是完整6通道300GB/s，quadro v100是4通道200GB/s，turing的通道数被砍到只剩2通道100GB/s，
p100用的才是nvlink1.0，完整4通道160GB/s

A100完整nvlink3.0，是600GB/s，而A6000直接砍到112GB/s，3090我没查到是多少，但是应该不会超过A6000带宽，和3090显存带宽936GB/s都相差了将近一个量级。

这波nvlink4.0直接阉割掉，也就不足为奇了

sun35mr · 发表于 Post on 2022-9-25 21:49:34

Entropy.S.I 发表于 2022-9-21 05:33
30系相较于20系，FP32翻1倍以上，实际跑MD速度恰好翻1倍。测出来不翻倍是因为CPU有瓶颈，要让3090跑GMX的 ...

我今年换成 3060Ti，结果用gpu跑lammps的速度也就比之前的960 4g快了不到1倍，cpu是R5 2600，是因为CPU到了瓶颈吗？

Entropy.S.I · 发表于 Post on 2022-9-25 22:38:00

sun35mr 发表于 2022-9-25 21:49
我今年换成 3060Ti，结果用gpu跑lammps的速度也就比之前的960 4g快了不到1倍，cpu是R5 2600，是因为CPU到 ...

是。也建议使用最新版驱动，并用最新版CUDA Toolkit编译较新版Lammps。

八月的雨季 · 发表于 Post on 2022-9-26 11:04:50

翻不了倍的，很直观的对比，我的膜蛋白体系10W原子左右，Amber纯GPU跑，2080ti 70~80 ns一天，1080ti 40~50 ns一天，3090非ti 100~110 ns一天。

Entropy.S.I · 发表于 Post on 2022-9-26 16:01:35

八月的雨季发表于 2022-9-26 11:04
翻不了倍的，很直观的对比，我的膜蛋白体系10W原子左右，Amber纯GPU跑，2080ti 70~80 ns一天，1080ti 40~50 ...

这次不一定哦

Picardo · 发表于 Post on 2022-9-29 13:43:49

Entropy.S.I 发表于 2022-9-21 05:33
30系相较于20系，FP32翻1倍以上，实际跑MD速度恰好翻1倍。测出来不翻倍是因为CPU有瓶颈，要让3090跑GMX的 ...

请问这个cpu的瓶颈是主频还是核数还是带宽什么的，没用过gromacs，lammps的话，用gpu跑的话，我参照别人的意见，还是用的cpu 单核

Entropy.S.I · 发表于 Post on 2022-9-29 18:39:04

Picardo 发表于 2022-9-29 13:43
请问这个cpu的瓶颈是主频还是核数还是带宽什么的，没用过gromacs，lammps的话，用gpu跑的话，我参照别人 ...

GPU加速GMX，启用-update gpu后，CPU负载主要是每n(n为正整数，通过mdp文件指定)步收集一次GPU上跑出来的数据，经过计算后把能量、坐标信息写入硬盘。此时一般使用1个MPI Rank，其中每个OpenMP线程都会参与通信和计算，算是一种特殊的IO密集型任务，对PCIe总线带宽/延迟、核间通信带宽/延迟以及多核浮点性能同时有需求。但实际上根据我以前用5950X+3080Ti进行的测试，PCIe带宽是跑不满的，CPU功耗也比较低，即CPU浮点计算压力不大。这2项可探测的关键负载都没有跑满，但增加核数（从12核到16核）还是能明显提升GPU使用率和任务运行速度，所以目前不清楚到底是哪个环节出现了瓶颈。

带4090具体选什么CPU需要仔细测试，比如intel 8375C全核性能略弱于AMD 7950X，但前者核心数量多一倍，需测试实际用来带4090跑GMX时到底哪个能发挥出更多的GPU性能。

至于Lammps，如果我没记错，这不是采用“纯GPU”方案的程序，不应该只用1个CPU核心。

Picardo · 发表于 Post on 2022-10-9 17:31:19

Entropy.S.I 发表于 2022-9-29 18:39
GPU加速GMX，启用-update gpu后，CPU负载主要是每n(n为正整数，通过mdp文件指定)步收集一次GPU上跑出来的 ...

谢谢赐教，具体我也不太清楚，

Entropy.S.I · 发表于 Post on 2022-10-13 18:57:23

Picardo 发表于 2022-10-9 17:31
谢谢赐教，具体我也不太清楚，

最近亲自试了Lammps，确实是用1核带1卡比较合适，误导你了，抱歉…

		自动登录 Automatic login	找回密码 Forget password
密码 Password			注册 Register

[其它] 悲报：NVIDIA取消了计算卡以外GPU产品的NVLink支持

评分 Rate

浏览过的版块