计算化学公社

标题: 悲报:NVIDIA取消了计算卡以外GPU产品的NVLink支持 [打印本页]

作者
Author:
Entropy.S.I    时间: 2022-9-21 04:58
标题: 悲报:NVIDIA取消了计算卡以外GPU产品的NVLink支持
本帖最后由 Entropy.S.I 于 2022-9-21 05:36 编辑

众所周知,老黄于北京时间2022年9月20日晚11点公布了新一代GPU架构Ada Lovelace,发布了以下几款GPU:GeForce RTX 4090; GeForce RTX 4080 16GB; GeForce RTX 4080 12GB; RTX 6000 Ada。

其中GeForce游戏卡的在中国的售价分别为¥12999、¥9499、¥7199,详细规格如下(来源:VideoCardz.com):
(, 下载次数 Times of downloads: 86)
显然,对于GPU加速MD模拟的用途,RTX4090性价比很高,目前预估其性能比RTX3090 Ti高1倍(前提是CPU无明显瓶颈)。
(, 下载次数 Times of downloads: 81)
但最令人失望的是,这3款GPU全部不支持NVLink,这意味着用户不能将2块GPU合成1块使用,而这一需求在AI模型训练、GPU加速MD模拟等生产力应用中是非常普遍的。
其中NVLink在GPU加速MD模拟中的作用,本论坛中就有详细介绍:http://bbs.keinsci.com/thread-27072-1-1.html (4楼)。
遥望上一代的Ampere架构游戏卡,高端系列RTX3090和RTX3090Ti均支持NVLink,显然,NVIDIA在新一代GPU中有意取消了这个功能。

再来看RTX 6000 Ada:
(, 下载次数 Times of downloads: 75) (, 下载次数 Times of downloads: 79) (, 下载次数 Times of downloads: 84)
我们依然可以发现,作为顶级专业图形卡的RTX 6000 Ada竟然也取消了NVLink,这简直令人大跌眼镜。

很显然,在如今NVIDIA最新的GPU产品中,只剩下Hopper架构计算卡支持NVLink,其余产品线的NVLink功能已完全被取消。(由于美国的禁令,顶级计算卡H100和A100将无法在中国购买。)

这一重大变动最明显的影响就是:从今往后,购买游戏卡的贫穷团队与购买计算卡乃至DGX System的富裕团队,能跑的模型规模差距更大了,这就是所谓“马太效应”吧。

总之,我们有理由相信,NVIDIA正在强迫对NVLink有需求的用户选择其昂贵的计算卡产品,利用其已建立的霸权地位对全球用户进行收割。这是非常令人悲伤的消息。

作者
Author:
zhouoh    时间: 2022-9-21 05:24
不知道具体跑MD速度咋样,30系也是说FP32翻倍,结果速度提升也就那样。
作者
Author:
Entropy.S.I    时间: 2022-9-21 05:33
本帖最后由 Entropy.S.I 于 2022-9-21 05:46 编辑
zhouoh 发表于 2022-9-21 05:24
不知道具体跑MD速度咋样,30系也是说FP32翻倍,结果速度提升也就那样。

30系相较于20系,FP32翻1倍以上,实际跑MD速度恰好翻1倍。测出来不翻倍是因为CPU有瓶颈,要让3090跑GMX的MD模拟速度相较于2080Ti翻倍,需要使用AMD Ryzen 5950X或更强的CPU。


此外,上一代纸面FP32性能提升幅度没有与实际MD模拟速度的提升幅度相同的另一个原因,是Ampere架构将FP32与INT32单元合并,这在实际应用中会损失一部分FP32性能。而Ada架构相较于Ampere架构维持了FP32的计数方法,其提升完全是基于频率和核心规模的“硬”提升,所以,只要CPU没有明显瓶颈,4090相较于3090Ti运行MD模拟的性能完全可以与纸面FP32性能的提升相对应。

RTX 4090公版的FP32是83TFLPOS,非公版超频空间极大(因为TGP上限是660W,比公版默认TGP 450W高得多,而且基于此前泄露可知,4090的核心有望运行在3GHz下),可能会逼近100TFLOPS,而上一代的RTX3090Ti仅有40TFLPOS。据此预估,要发挥RTX4090的大部分性能,至少需要AMD Ryzen 7950X或intel XEON 8375C,很可能这还不够,今后看实测即可。




作者
Author:
zhouoh    时间: 2022-9-21 05:50
问题是用纯GPU方案的amber和openmm提升也不到一倍。我这里一个蛋白体系,2080ti大概200ns/day,3080ti 也才270ns。感觉是显存制约了速度,不知道这一代加缓存能不能改善。
作者
Author:
Entropy.S.I    时间: 2022-9-21 06:42
zhouoh 发表于 2022-9-21 05:50
问题是用纯GPU方案的amber和openmm提升也不到一倍。我这里一个蛋白体系,2080ti大概200ns/day,3080ti 也才 ...

建议更新NVIDIA GPU驱动,使用最新的CUDA Toolkit编译,再测试。

我对我前面说的结论完全负责。此外,我也测试过5950X配RTX 3080Ti(GPU占用率~90%),速度是XEON 6130配2080Ti(GPU占用率~90%)的1.9倍。测试用的体系就是我之前发布的HPC benchmark所用体系。
作者
Author:
牧生    时间: 2022-9-21 08:50
总体来说,GPU强,也必须要用足够强的CPU才能发挥足够好的性能。

真是个烧钱的玩意。
作者
Author:
sss668800    时间: 2022-9-23 16:06
其实两年前30系发布那会就能看出来这事,nvlink早晚在游戏卡和图形卡被阉割掉,看这个帖子:
https://machbbs.com/chiphell/152497

turing和volta都是nvlink2.0,但是tesla v100是完整6通道300GB/s,quadro v100是4通道200GB/s,turing的通道数被砍到只剩2通道100GB/s,
p100用的才是nvlink1.0,完整4通道160GB/s

A100完整nvlink3.0,是600GB/s,而A6000直接砍到112GB/s,3090我没查到是多少,但是应该不会超过A6000带宽,和3090显存带宽936GB/s都相差了将近一个量级。

这波nvlink4.0直接阉割掉,也就不足为奇了
作者
Author:
sun35mr    时间: 2022-9-25 21:49
Entropy.S.I 发表于 2022-9-21 05:33
30系相较于20系,FP32翻1倍以上,实际跑MD速度恰好翻1倍。测出来不翻倍是因为CPU有瓶颈,要让3090跑GMX的 ...

我今年换成 3060Ti,结果用gpu跑lammps的速度也就比之前的960 4g快了不到1倍,cpu是R5 2600,是因为CPU到了瓶颈吗?
作者
Author:
Entropy.S.I    时间: 2022-9-25 22:38
sun35mr 发表于 2022-9-25 21:49
我今年换成 3060Ti,结果用gpu跑lammps的速度也就比之前的960 4g快了不到1倍,cpu是R5 2600,是因为CPU到 ...

是。也建议使用最新版驱动,并用最新版CUDA Toolkit编译较新版Lammps。
作者
Author:
八月的雨季    时间: 2022-9-26 11:04
翻不了倍的,很直观的对比,我的膜蛋白体系10W原子左右,Amber纯GPU跑,2080ti 70~80 ns一天,1080ti 40~50 ns一天,3090非ti 100~110 ns一天。
作者
Author:
Entropy.S.I    时间: 2022-9-26 16:01
八月的雨季 发表于 2022-9-26 11:04
翻不了倍的,很直观的对比,我的膜蛋白体系10W原子左右,Amber纯GPU跑,2080ti 70~80 ns一天,1080ti 40~50 ...

这次不一定哦
作者
Author:
Picardo    时间: 2022-9-29 13:43
Entropy.S.I 发表于 2022-9-21 05:33
30系相较于20系,FP32翻1倍以上,实际跑MD速度恰好翻1倍。测出来不翻倍是因为CPU有瓶颈,要让3090跑GMX的 ...

请问这个cpu的瓶颈是主频还是核数还是带宽什么的,没用过gromacs,lammps的话,用gpu跑的话,我参照别人的意见,还是用的cpu 单核
作者
Author:
Entropy.S.I    时间: 2022-9-29 18:39
Picardo 发表于 2022-9-29 13:43
请问这个cpu的瓶颈是主频还是核数还是带宽什么的,没用过gromacs,lammps的话,用gpu跑的话,我参照别人 ...

GPU加速GMX,启用-update gpu后,CPU负载主要是每n(n为正整数,通过mdp文件指定)步收集一次GPU上跑出来的数据,经过计算后把能量、坐标信息写入硬盘。此时一般使用1个MPI Rank,其中每个OpenMP线程都会参与通信和计算,算是一种特殊的IO密集型任务,对PCIe总线带宽/延迟、核间通信带宽/延迟以及多核浮点性能同时有需求。但实际上根据我以前用5950X+3080Ti进行的测试,PCIe带宽是跑不满的,CPU功耗也比较低,即CPU浮点计算压力不大。这2项可探测的关键负载都没有跑满,但增加核数(从12核到16核)还是能明显提升GPU使用率和任务运行速度,所以目前不清楚到底是哪个环节出现了瓶颈。

带4090具体选什么CPU需要仔细测试,比如intel 8375C全核性能略弱于AMD 7950X,但前者核心数量多一倍,需测试实际用来带4090跑GMX时到底哪个能发挥出更多的GPU性能。

至于Lammps,如果我没记错,这不是采用“纯GPU”方案的程序,不应该只用1个CPU核心。
作者
Author:
Picardo    时间: 2022-10-9 17:31
Entropy.S.I 发表于 2022-9-29 18:39
GPU加速GMX,启用-update gpu后,CPU负载主要是每n(n为正整数,通过mdp文件指定)步收集一次GPU上跑出来的 ...

谢谢赐教,具体我也不太清楚,
作者
Author:
Entropy.S.I    时间: 2022-10-13 18:57
Picardo 发表于 2022-10-9 17:31
谢谢赐教,具体我也不太清楚,

最近亲自试了Lammps,确实是用1核带1卡比较合适,误导你了,抱歉…
作者
Author:
Picardo    时间: 2022-10-15 10:31
Entropy.S.I 发表于 2022-10-13 18:57
最近亲自试了Lammps,确实是用1核带1卡比较合适,误导你了,抱歉…

没有啥误导,我也不是很清楚,我自己没测试过,听油管上别人说的
作者
Author:
gog    时间: 2022-10-18 21:33
Picardo 发表于 2022-10-15 10:31
没有啥误导,我也不是很清楚,我自己没测试过,听油管上别人说的

用不用nvlink,都不重要了。高端计算加速卡,不准销往中国。得绕道了。玩游戏和办公,以及lammps计算,支持国产。
作者
Author:
Picardo    时间: 2022-10-21 11:11
gog 发表于 2022-10-18 21:33
用不用nvlink,都不重要了。高端计算加速卡,不准销往中国。得绕道了。玩游戏和办公,以及lammps计算,支 ...

我的意思是游戏显卡有支持nvlink的嘛,
作者
Author:
bornkilled    时间: 2023-1-11 00:51
Picardo 发表于 2022-10-21 11:11
我的意思是游戏显卡有支持nvlink的嘛,

应该是只剩下3090和3090TI是游戏卡带nvlink的绝唱了
作者
Author:
beowulf    时间: 2023-1-23 17:30
gog 发表于 2022-10-18 21:33
用不用nvlink,都不重要了。高端计算加速卡,不准销往中国。得绕道了。玩游戏和办公,以及lammps计算,支 ...

A100都有官方的A800作为替代了,到时候H100去越南、马来西亚一带洗个澡一样的。
办法总比困难多的。
作者
Author:
gog    时间: 2023-1-23 21:30
beowulf 发表于 2023-1-23 17:30
A100都有官方的A800作为替代了,到时候H100去越南、马来西亚一带洗个澡一样的。
办法总比困难多的。

H100,货值太高,要申报海关。如果出关方允许转售到大陆,就方便多了。私货的风险太大。




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3