计算化学公社

标题: 悲报：NVIDIA取消了计算卡以外GPU产品的NVLink支持 [打印本页]

作者
Author: Entropy.S.I 时间: 2022-9-21 04:58
标题: 悲报：NVIDIA取消了计算卡以外GPU产品的NVLink支持
本帖最后由 Entropy.S.I 于 2022-9-21 05:36 编辑

众所周知，老黄于北京时间2022年9月20日晚11点公布了新一代GPU架构Ada Lovelace，发布了以下几款GPU：GeForce RTX 4090; GeForce RTX 4080 16GB; GeForce RTX 4080 12GB; RTX 6000 Ada。

其中GeForce游戏卡的在中国的售价分别为￥12999、￥9499、￥7199，详细规格如下（来源：VideoCardz.com）：
(, 下载次数 Times of downloads: 86)
显然，对于GPU加速MD模拟的用途，RTX4090性价比很高，目前预估其性能比RTX3090 Ti高1倍（前提是CPU无明显瓶颈）。
(, 下载次数 Times of downloads: 81)
但最令人失望的是，这3款GPU全部不支持NVLink，这意味着用户不能将2块GPU合成1块使用，而这一需求在AI模型训练、GPU加速MD模拟等生产力应用中是非常普遍的。
其中NVLink在GPU加速MD模拟中的作用，本论坛中就有详细介绍：http://bbs.keinsci.com/thread-27072-1-1.html （4楼）。
遥望上一代的Ampere架构游戏卡，高端系列RTX3090和RTX3090Ti均支持NVLink，显然，NVIDIA在新一代GPU中有意取消了这个功能。

再来看RTX 6000 Ada：
(, 下载次数 Times of downloads: 75) (, 下载次数 Times of downloads: 79) (, 下载次数 Times of downloads: 84)
我们依然可以发现，作为顶级专业图形卡的RTX 6000 Ada竟然也取消了NVLink，这简直令人大跌眼镜。

很显然，在如今NVIDIA最新的GPU产品中，只剩下Hopper架构计算卡支持NVLink，其余产品线的NVLink功能已完全被取消。（由于美国的禁令，顶级计算卡H100和A100将无法在中国购买。）

这一重大变动最明显的影响就是：从今往后，购买游戏卡的贫穷团队与购买计算卡乃至DGX System的富裕团队，能跑的模型规模差距更大了，这就是所谓“马太效应”吧。

总之，我们有理由相信，NVIDIA正在强迫对NVLink有需求的用户选择其昂贵的计算卡产品，利用其已建立的霸权地位对全球用户进行收割。这是非常令人悲伤的消息。

作者
Author: zhouoh 时间: 2022-9-21 05:24
不知道具体跑MD速度咋样，30系也是说FP32翻倍，结果速度提升也就那样。

作者
Author: Entropy.S.I 时间: 2022-9-21 05:33
本帖最后由 Entropy.S.I 于 2022-9-21 05:46 编辑

zhouoh 发表于 2022-9-21 05:24
不知道具体跑MD速度咋样，30系也是说FP32翻倍，结果速度提升也就那样。

30系相较于20系，FP32翻1倍以上，实际跑MD速度恰好翻1倍。测出来不翻倍是因为CPU有瓶颈，要让3090跑GMX的MD模拟速度相较于2080Ti翻倍，需要使用AMD Ryzen 5950X或更强的CPU。

此外，上一代纸面FP32性能提升幅度没有与实际MD模拟速度的提升幅度相同的另一个原因，是Ampere架构将FP32与INT32单元合并，这在实际应用中会损失一部分FP32性能。而Ada架构相较于Ampere架构维持了FP32的计数方法，其提升完全是基于频率和核心规模的“硬”提升，所以，只要CPU没有明显瓶颈，4090相较于3090Ti运行MD模拟的性能完全可以与纸面FP32性能的提升相对应。

RTX 4090公版的FP32是83TFLPOS，非公版超频空间极大（因为TGP上限是660W，比公版默认TGP 450W高得多，而且基于此前泄露可知，4090的核心有望运行在3GHz下），可能会逼近100TFLOPS，而上一代的RTX3090Ti仅有40TFLPOS。据此预估，要发挥RTX4090的大部分性能，至少需要AMD Ryzen 7950X或intel XEON 8375C，很可能这还不够，今后看实测即可。

作者
Author: zhouoh 时间: 2022-9-21 05:50
问题是用纯GPU方案的amber和openmm提升也不到一倍。我这里一个蛋白体系，2080ti大概200ns/day，3080ti 也才270ns。感觉是显存制约了速度，不知道这一代加缓存能不能改善。

作者
Author: Entropy.S.I 时间: 2022-9-21 06:42

zhouoh 发表于 2022-9-21 05:50
问题是用纯GPU方案的amber和openmm提升也不到一倍。我这里一个蛋白体系，2080ti大概200ns/day，3080ti 也才 ...

建议更新NVIDIA GPU驱动，使用最新的CUDA Toolkit编译，再测试。

我对我前面说的结论完全负责。此外，我也测试过5950X配RTX 3080Ti（GPU占用率~90%），速度是XEON 6130配2080Ti（GPU占用率~90%）的1.9倍。测试用的体系就是我之前发布的HPC benchmark所用体系。

作者
Author: 牧生 时间: 2022-9-21 08:50
总体来说，GPU强，也必须要用足够强的CPU才能发挥足够好的性能。

真是个烧钱的玩意。

作者
Author: sss668800 时间: 2022-9-23 16:06
其实两年前30系发布那会就能看出来这事，nvlink早晚在游戏卡和图形卡被阉割掉，看这个帖子：
https://machbbs.com/chiphell/152497

turing和volta都是nvlink2.0，但是tesla v100是完整6通道300GB/s，quadro v100是4通道200GB/s，turing的通道数被砍到只剩2通道100GB/s，
p100用的才是nvlink1.0，完整4通道160GB/s

A100完整nvlink3.0，是600GB/s，而A6000直接砍到112GB/s，3090我没查到是多少，但是应该不会超过A6000带宽，和3090显存带宽936GB/s都相差了将近一个量级。

这波nvlink4.0直接阉割掉，也就不足为奇了

作者
Author: sun35mr 时间: 2022-9-25 21:49

Entropy.S.I 发表于 2022-9-21 05:33
30系相较于20系，FP32翻1倍以上，实际跑MD速度恰好翻1倍。测出来不翻倍是因为CPU有瓶颈，要让3090跑GMX的 ...

我今年换成 3060Ti，结果用gpu跑lammps的速度也就比之前的960 4g快了不到1倍，cpu是R5 2600，是因为CPU到了瓶颈吗？

作者
Author: Entropy.S.I 时间: 2022-9-25 22:38

sun35mr 发表于 2022-9-25 21:49
我今年换成 3060Ti，结果用gpu跑lammps的速度也就比之前的960 4g快了不到1倍，cpu是R5 2600，是因为CPU到 ...

是。也建议使用最新版驱动，并用最新版CUDA Toolkit编译较新版Lammps。

作者
Author: 八月的雨季 时间: 2022-9-26 11:04
翻不了倍的，很直观的对比，我的膜蛋白体系10W原子左右，Amber纯GPU跑，2080ti 70~80 ns一天，1080ti 40~50 ns一天，3090非ti 100~110 ns一天。

作者
Author: Entropy.S.I 时间: 2022-9-26 16:01

八月的雨季发表于 2022-9-26 11:04
翻不了倍的，很直观的对比，我的膜蛋白体系10W原子左右，Amber纯GPU跑，2080ti 70~80 ns一天，1080ti 40~50 ...

这次不一定哦

作者
Author: Picardo 时间: 2022-9-29 13:43

Entropy.S.I 发表于 2022-9-21 05:33
30系相较于20系，FP32翻1倍以上，实际跑MD速度恰好翻1倍。测出来不翻倍是因为CPU有瓶颈，要让3090跑GMX的 ...

请问这个cpu的瓶颈是主频还是核数还是带宽什么的，没用过gromacs，lammps的话，用gpu跑的话，我参照别人的意见，还是用的cpu 单核

作者
Author: Entropy.S.I 时间: 2022-9-29 18:39

Picardo 发表于 2022-9-29 13:43
请问这个cpu的瓶颈是主频还是核数还是带宽什么的，没用过gromacs，lammps的话，用gpu跑的话，我参照别人 ...

GPU加速GMX，启用-update gpu后，CPU负载主要是每n(n为正整数，通过mdp文件指定)步收集一次GPU上跑出来的数据，经过计算后把能量、坐标信息写入硬盘。此时一般使用1个MPI Rank，其中每个OpenMP线程都会参与通信和计算，算是一种特殊的IO密集型任务，对PCIe总线带宽/延迟、核间通信带宽/延迟以及多核浮点性能同时有需求。但实际上根据我以前用5950X+3080Ti进行的测试，PCIe带宽是跑不满的，CPU功耗也比较低，即CPU浮点计算压力不大。这2项可探测的关键负载都没有跑满，但增加核数（从12核到16核）还是能明显提升GPU使用率和任务运行速度，所以目前不清楚到底是哪个环节出现了瓶颈。

带4090具体选什么CPU需要仔细测试，比如intel 8375C全核性能略弱于AMD 7950X，但前者核心数量多一倍，需测试实际用来带4090跑GMX时到底哪个能发挥出更多的GPU性能。

至于Lammps，如果我没记错，这不是采用“纯GPU”方案的程序，不应该只用1个CPU核心。

作者
Author: Picardo 时间: 2022-10-9 17:31

Entropy.S.I 发表于 2022-9-29 18:39
GPU加速GMX，启用-update gpu后，CPU负载主要是每n(n为正整数，通过mdp文件指定)步收集一次GPU上跑出来的 ...

谢谢赐教，具体我也不太清楚，

作者
Author: Entropy.S.I 时间: 2022-10-13 18:57

Picardo 发表于 2022-10-9 17:31
谢谢赐教，具体我也不太清楚，

最近亲自试了Lammps，确实是用1核带1卡比较合适，误导你了，抱歉…

作者
Author: Picardo 时间: 2022-10-15 10:31

Entropy.S.I 发表于 2022-10-13 18:57
最近亲自试了Lammps，确实是用1核带1卡比较合适，误导你了，抱歉…

没有啥误导，我也不是很清楚，我自己没测试过，听油管上别人说的

作者
Author: gog 时间: 2022-10-18 21:33

Picardo 发表于 2022-10-15 10:31
没有啥误导，我也不是很清楚，我自己没测试过，听油管上别人说的

用不用nvlink，都不重要了。高端计算加速卡，不准销往中国。得绕道了。玩游戏和办公，以及lammps计算，支持国产。

作者
Author: Picardo 时间: 2022-10-21 11:11

gog 发表于 2022-10-18 21:33
用不用nvlink，都不重要了。高端计算加速卡，不准销往中国。得绕道了。玩游戏和办公，以及lammps计算，支 ...

我的意思是游戏显卡有支持nvlink的嘛，

作者
Author: bornkilled 时间: 2023-1-11 00:51

Picardo 发表于 2022-10-21 11:11
我的意思是游戏显卡有支持nvlink的嘛，

应该是只剩下3090和3090TI是游戏卡带nvlink的绝唱了

作者
Author: beowulf 时间: 2023-1-23 17:30

gog 发表于 2022-10-18 21:33
用不用nvlink，都不重要了。高端计算加速卡，不准销往中国。得绕道了。玩游戏和办公，以及lammps计算，支 ...

A100都有官方的A800作为替代了，到时候H100去越南、马来西亚一带洗个澡一样的。
办法总比困难多的。

作者
Author: gog 时间: 2023-1-23 21:30

beowulf 发表于 2023-1-23 17:30
A100都有官方的A800作为替代了，到时候H100去越南、马来西亚一带洗个澡一样的。
办法总比困难多的。

H100,货值太高，要申报海关。如果出关方允许转售到大陆，就方便多了。私货的风险太大。

欢迎光临计算化学公社 (http://bbs.keinsci.com/)