计算化学公社

 找回密码 Forget password
 注册 Register
Views: 6523|回复 Reply: 20
打印 Print 上一主题 Last thread 下一主题 Next thread

[其它] 悲报:NVIDIA取消了计算卡以外GPU产品的NVLink支持

[复制链接 Copy URL]

846

帖子

16

威望

4653

eV
积分
5819

Level 6 (一方通行)

小屁孩

本帖最后由 Entropy.S.I 于 2022-9-21 05:36 编辑

众所周知,老黄于北京时间2022年9月20日晚11点公布了新一代GPU架构Ada Lovelace,发布了以下几款GPU:GeForce RTX 4090; GeForce RTX 4080 16GB; GeForce RTX 4080 12GB; RTX 6000 Ada。

其中GeForce游戏卡的在中国的售价分别为¥12999、¥9499、¥7199,详细规格如下(来源:VideoCardz.com):

显然,对于GPU加速MD模拟的用途,RTX4090性价比很高,目前预估其性能比RTX3090 Ti高1倍(前提是CPU无明显瓶颈)。

但最令人失望的是,这3款GPU全部不支持NVLink,这意味着用户不能将2块GPU合成1块使用,而这一需求在AI模型训练、GPU加速MD模拟等生产力应用中是非常普遍的。
其中NVLink在GPU加速MD模拟中的作用,本论坛中就有详细介绍:http://bbs.keinsci.com/thread-27072-1-1.html (4楼)。
遥望上一代的Ampere架构游戏卡,高端系列RTX3090和RTX3090Ti均支持NVLink,显然,NVIDIA在新一代GPU中有意取消了这个功能。

再来看RTX 6000 Ada:

我们依然可以发现,作为顶级专业图形卡的RTX 6000 Ada竟然也取消了NVLink,这简直令人大跌眼镜。

很显然,在如今NVIDIA最新的GPU产品中,只剩下Hopper架构计算卡支持NVLink,其余产品线的NVLink功能已完全被取消。(由于美国的禁令,顶级计算卡H100和A100将无法在中国购买。)

这一重大变动最明显的影响就是:从今往后,购买游戏卡的贫穷团队与购买计算卡乃至DGX System的富裕团队,能跑的模型规模差距更大了,这就是所谓“马太效应”吧。

总之,我们有理由相信,NVIDIA正在强迫对NVLink有需求的用户选择其昂贵的计算卡产品,利用其已建立的霸权地位对全球用户进行收割。这是非常令人悲伤的消息。

评分 Rate

参与人数
Participants 3
eV +13 收起 理由
Reason
ProAce4396 + 3 赞!
Picardo + 5 欢迎讨论
含光君 + 5 精品内容

查看全部评分 View all ratings

- 向着虚无前进 -

32

帖子

0

威望

3323

eV
积分
3355

Level 5 (御坂)

2#
发表于 Post on 2022-9-21 05:24:24 | 只看该作者 Only view this author
不知道具体跑MD速度咋样,30系也是说FP32翻倍,结果速度提升也就那样。

846

帖子

16

威望

4653

eV
积分
5819

Level 6 (一方通行)

小屁孩

3#
 楼主 Author| 发表于 Post on 2022-9-21 05:33:52 | 只看该作者 Only view this author
本帖最后由 Entropy.S.I 于 2022-9-21 05:46 编辑
zhouoh 发表于 2022-9-21 05:24
不知道具体跑MD速度咋样,30系也是说FP32翻倍,结果速度提升也就那样。

30系相较于20系,FP32翻1倍以上,实际跑MD速度恰好翻1倍。测出来不翻倍是因为CPU有瓶颈,要让3090跑GMX的MD模拟速度相较于2080Ti翻倍,需要使用AMD Ryzen 5950X或更强的CPU。


此外,上一代纸面FP32性能提升幅度没有与实际MD模拟速度的提升幅度相同的另一个原因,是Ampere架构将FP32与INT32单元合并,这在实际应用中会损失一部分FP32性能。而Ada架构相较于Ampere架构维持了FP32的计数方法,其提升完全是基于频率和核心规模的“硬”提升,所以,只要CPU没有明显瓶颈,4090相较于3090Ti运行MD模拟的性能完全可以与纸面FP32性能的提升相对应。

RTX 4090公版的FP32是83TFLPOS,非公版超频空间极大(因为TGP上限是660W,比公版默认TGP 450W高得多,而且基于此前泄露可知,4090的核心有望运行在3GHz下),可能会逼近100TFLOPS,而上一代的RTX3090Ti仅有40TFLPOS。据此预估,要发挥RTX4090的大部分性能,至少需要AMD Ryzen 7950X或intel XEON 8375C,很可能这还不够,今后看实测即可。



- 向着虚无前进 -

32

帖子

0

威望

3323

eV
积分
3355

Level 5 (御坂)

4#
发表于 Post on 2022-9-21 05:50:16 | 只看该作者 Only view this author
问题是用纯GPU方案的amber和openmm提升也不到一倍。我这里一个蛋白体系,2080ti大概200ns/day,3080ti 也才270ns。感觉是显存制约了速度,不知道这一代加缓存能不能改善。

846

帖子

16

威望

4653

eV
积分
5819

Level 6 (一方通行)

小屁孩

5#
 楼主 Author| 发表于 Post on 2022-9-21 06:42:50 | 只看该作者 Only view this author
zhouoh 发表于 2022-9-21 05:50
问题是用纯GPU方案的amber和openmm提升也不到一倍。我这里一个蛋白体系,2080ti大概200ns/day,3080ti 也才 ...

建议更新NVIDIA GPU驱动,使用最新的CUDA Toolkit编译,再测试。

我对我前面说的结论完全负责。此外,我也测试过5950X配RTX 3080Ti(GPU占用率~90%),速度是XEON 6130配2080Ti(GPU占用率~90%)的1.9倍。测试用的体系就是我之前发布的HPC benchmark所用体系。
- 向着虚无前进 -

1379

帖子

0

威望

3994

eV
积分
5373

Level 6 (一方通行)

6#
发表于 Post on 2022-9-21 08:50:44 | 只看该作者 Only view this author
总体来说,GPU强,也必须要用足够强的CPU才能发挥足够好的性能。

真是个烧钱的玩意。
又菜又爱玩

78

帖子

0

威望

585

eV
积分
663

Level 4 (黑子)

7#
发表于 Post on 2022-9-23 16:06:12 | 只看该作者 Only view this author
其实两年前30系发布那会就能看出来这事,nvlink早晚在游戏卡和图形卡被阉割掉,看这个帖子:
https://machbbs.com/chiphell/152497

turing和volta都是nvlink2.0,但是tesla v100是完整6通道300GB/s,quadro v100是4通道200GB/s,turing的通道数被砍到只剩2通道100GB/s,
p100用的才是nvlink1.0,完整4通道160GB/s

A100完整nvlink3.0,是600GB/s,而A6000直接砍到112GB/s,3090我没查到是多少,但是应该不会超过A6000带宽,和3090显存带宽936GB/s都相差了将近一个量级。

这波nvlink4.0直接阉割掉,也就不足为奇了

85

帖子

0

威望

396

eV
积分
481

Level 3 能力者

8#
发表于 Post on 2022-9-25 21:49:34 | 只看该作者 Only view this author
Entropy.S.I 发表于 2022-9-21 05:33
30系相较于20系,FP32翻1倍以上,实际跑MD速度恰好翻1倍。测出来不翻倍是因为CPU有瓶颈,要让3090跑GMX的 ...

我今年换成 3060Ti,结果用gpu跑lammps的速度也就比之前的960 4g快了不到1倍,cpu是R5 2600,是因为CPU到了瓶颈吗?

846

帖子

16

威望

4653

eV
积分
5819

Level 6 (一方通行)

小屁孩

9#
 楼主 Author| 发表于 Post on 2022-9-25 22:38:00 | 只看该作者 Only view this author
sun35mr 发表于 2022-9-25 21:49
我今年换成 3060Ti,结果用gpu跑lammps的速度也就比之前的960 4g快了不到1倍,cpu是R5 2600,是因为CPU到 ...

是。也建议使用最新版驱动,并用最新版CUDA Toolkit编译较新版Lammps。
- 向着虚无前进 -

64

帖子

0

威望

1918

eV
积分
1982

Level 5 (御坂)

10#
发表于 Post on 2022-9-26 11:04:50 | 只看该作者 Only view this author
翻不了倍的,很直观的对比,我的膜蛋白体系10W原子左右,Amber纯GPU跑,2080ti 70~80 ns一天,1080ti 40~50 ns一天,3090非ti 100~110 ns一天。

846

帖子

16

威望

4653

eV
积分
5819

Level 6 (一方通行)

小屁孩

11#
 楼主 Author| 发表于 Post on 2022-9-26 16:01:35 | 只看该作者 Only view this author
八月的雨季 发表于 2022-9-26 11:04
翻不了倍的,很直观的对比,我的膜蛋白体系10W原子左右,Amber纯GPU跑,2080ti 70~80 ns一天,1080ti 40~50 ...

这次不一定哦
- 向着虚无前进 -

190

帖子

0

威望

867

eV
积分
1057

Level 4 (黑子)

12#
发表于 Post on 2022-9-29 13:43:49 | 只看该作者 Only view this author
Entropy.S.I 发表于 2022-9-21 05:33
30系相较于20系,FP32翻1倍以上,实际跑MD速度恰好翻1倍。测出来不翻倍是因为CPU有瓶颈,要让3090跑GMX的 ...

请问这个cpu的瓶颈是主频还是核数还是带宽什么的,没用过gromacs,lammps的话,用gpu跑的话,我参照别人的意见,还是用的cpu 单核

846

帖子

16

威望

4653

eV
积分
5819

Level 6 (一方通行)

小屁孩

13#
 楼主 Author| 发表于 Post on 2022-9-29 18:39:04 | 只看该作者 Only view this author
Picardo 发表于 2022-9-29 13:43
请问这个cpu的瓶颈是主频还是核数还是带宽什么的,没用过gromacs,lammps的话,用gpu跑的话,我参照别人 ...

GPU加速GMX,启用-update gpu后,CPU负载主要是每n(n为正整数,通过mdp文件指定)步收集一次GPU上跑出来的数据,经过计算后把能量、坐标信息写入硬盘。此时一般使用1个MPI Rank,其中每个OpenMP线程都会参与通信和计算,算是一种特殊的IO密集型任务,对PCIe总线带宽/延迟、核间通信带宽/延迟以及多核浮点性能同时有需求。但实际上根据我以前用5950X+3080Ti进行的测试,PCIe带宽是跑不满的,CPU功耗也比较低,即CPU浮点计算压力不大。这2项可探测的关键负载都没有跑满,但增加核数(从12核到16核)还是能明显提升GPU使用率和任务运行速度,所以目前不清楚到底是哪个环节出现了瓶颈。

带4090具体选什么CPU需要仔细测试,比如intel 8375C全核性能略弱于AMD 7950X,但前者核心数量多一倍,需测试实际用来带4090跑GMX时到底哪个能发挥出更多的GPU性能。

至于Lammps,如果我没记错,这不是采用“纯GPU”方案的程序,不应该只用1个CPU核心。
- 向着虚无前进 -

190

帖子

0

威望

867

eV
积分
1057

Level 4 (黑子)

14#
发表于 Post on 2022-10-9 17:31:19 | 只看该作者 Only view this author
Entropy.S.I 发表于 2022-9-29 18:39
GPU加速GMX,启用-update gpu后,CPU负载主要是每n(n为正整数,通过mdp文件指定)步收集一次GPU上跑出来的 ...

谢谢赐教,具体我也不太清楚,

846

帖子

16

威望

4653

eV
积分
5819

Level 6 (一方通行)

小屁孩

15#
 楼主 Author| 发表于 Post on 2022-10-13 18:57:23 | 只看该作者 Only view this author
Picardo 发表于 2022-10-9 17:31
谢谢赐教,具体我也不太清楚,

最近亲自试了Lammps,确实是用1核带1卡比较合适,误导你了,抱歉…
- 向着虚无前进 -

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-27 08:53 , Processed in 0.496509 second(s), 25 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list