计算化学公社

 找回密码 Forget password
 注册 Register
Views: 8043|回复 Reply: 20
打印 Print 上一主题 Last thread 下一主题 Next thread

[其它] 悲报:NVIDIA取消了计算卡以外GPU产品的NVLink支持

[复制链接 Copy URL]

859

帖子

16

威望

5082

eV
积分
6261

Level 6 (一方通行)

小屁孩

本帖最后由 Entropy.S.I 于 2022-9-21 05:36 编辑

众所周知,老黄于北京时间2022年9月20日晚11点公布了新一代GPU架构Ada Lovelace,发布了以下几款GPU:GeForce RTX 4090; GeForce RTX 4080 16GB; GeForce RTX 4080 12GB; RTX 6000 Ada。

其中GeForce游戏卡的在中国的售价分别为¥12999、¥9499、¥7199,详细规格如下(来源:VideoCardz.com):

显然,对于GPU加速MD模拟的用途,RTX4090性价比很高,目前预估其性能比RTX3090 Ti高1倍(前提是CPU无明显瓶颈)。

但最令人失望的是,这3款GPU全部不支持NVLink,这意味着用户不能将2块GPU合成1块使用,而这一需求在AI模型训练、GPU加速MD模拟等生产力应用中是非常普遍的。
其中NVLink在GPU加速MD模拟中的作用,本论坛中就有详细介绍:http://bbs.keinsci.com/thread-27072-1-1.html (4楼)。
遥望上一代的Ampere架构游戏卡,高端系列RTX3090和RTX3090Ti均支持NVLink,显然,NVIDIA在新一代GPU中有意取消了这个功能。

再来看RTX 6000 Ada:

我们依然可以发现,作为顶级专业图形卡的RTX 6000 Ada竟然也取消了NVLink,这简直令人大跌眼镜。

很显然,在如今NVIDIA最新的GPU产品中,只剩下Hopper架构计算卡支持NVLink,其余产品线的NVLink功能已完全被取消。(由于美国的禁令,顶级计算卡H100和A100将无法在中国购买。)

这一重大变动最明显的影响就是:从今往后,购买游戏卡的贫穷团队与购买计算卡乃至DGX System的富裕团队,能跑的模型规模差距更大了,这就是所谓“马太效应”吧。

总之,我们有理由相信,NVIDIA正在强迫对NVLink有需求的用户选择其昂贵的计算卡产品,利用其已建立的霸权地位对全球用户进行收割。这是非常令人悲伤的消息。

评分 Rate

参与人数
Participants 4
eV +18 收起 理由
Reason
zhujiabao + 5 正解
ProAce4396 + 3 赞!
Picardo + 5 欢迎讨论
含光君 + 5 精品内容

查看全部评分 View all ratings

- 向着虚无前进 -

356

帖子

0

威望

2249

eV
积分
2605

Level 5 (御坂)

21#
发表于 Post on 2023-1-23 21:30:47 | 只看该作者 Only view this author
beowulf 发表于 2023-1-23 17:30
A100都有官方的A800作为替代了,到时候H100去越南、马来西亚一带洗个澡一样的。
办法总比困难多的。

H100,货值太高,要申报海关。如果出关方允许转售到大陆,就方便多了。私货的风险太大。

81

帖子

0

威望

1427

eV
积分
1508

Level 5 (御坂)

20#
发表于 Post on 2023-1-23 17:30:14 | 只看该作者 Only view this author
gog 发表于 2022-10-18 21:33
用不用nvlink,都不重要了。高端计算加速卡,不准销往中国。得绕道了。玩游戏和办公,以及lammps计算,支 ...

A100都有官方的A800作为替代了,到时候H100去越南、马来西亚一带洗个澡一样的。
办法总比困难多的。

3

帖子

0

威望

259

eV
积分
262

Level 3 能力者

19#
发表于 Post on 2023-1-11 00:51:09 | 只看该作者 Only view this author
Picardo 发表于 2022-10-21 11:11
我的意思是游戏显卡有支持nvlink的嘛,

应该是只剩下3090和3090TI是游戏卡带nvlink的绝唱了

209

帖子

0

威望

943

eV
积分
1152

Level 4 (黑子)

18#
发表于 Post on 2022-10-21 11:11:30 | 只看该作者 Only view this author
gog 发表于 2022-10-18 21:33
用不用nvlink,都不重要了。高端计算加速卡,不准销往中国。得绕道了。玩游戏和办公,以及lammps计算,支 ...

我的意思是游戏显卡有支持nvlink的嘛,

356

帖子

0

威望

2249

eV
积分
2605

Level 5 (御坂)

17#
发表于 Post on 2022-10-18 21:33:21 | 只看该作者 Only view this author
Picardo 发表于 2022-10-15 10:31
没有啥误导,我也不是很清楚,我自己没测试过,听油管上别人说的

用不用nvlink,都不重要了。高端计算加速卡,不准销往中国。得绕道了。玩游戏和办公,以及lammps计算,支持国产。

209

帖子

0

威望

943

eV
积分
1152

Level 4 (黑子)

16#
发表于 Post on 2022-10-15 10:31:30 | 只看该作者 Only view this author
Entropy.S.I 发表于 2022-10-13 18:57
最近亲自试了Lammps,确实是用1核带1卡比较合适,误导你了,抱歉…

没有啥误导,我也不是很清楚,我自己没测试过,听油管上别人说的

859

帖子

16

威望

5082

eV
积分
6261

Level 6 (一方通行)

小屁孩

15#
 楼主 Author| 发表于 Post on 2022-10-13 18:57:23 | 只看该作者 Only view this author
Picardo 发表于 2022-10-9 17:31
谢谢赐教,具体我也不太清楚,

最近亲自试了Lammps,确实是用1核带1卡比较合适,误导你了,抱歉…
- 向着虚无前进 -

209

帖子

0

威望

943

eV
积分
1152

Level 4 (黑子)

14#
发表于 Post on 2022-10-9 17:31:19 | 只看该作者 Only view this author
Entropy.S.I 发表于 2022-9-29 18:39
GPU加速GMX,启用-update gpu后,CPU负载主要是每n(n为正整数,通过mdp文件指定)步收集一次GPU上跑出来的 ...

谢谢赐教,具体我也不太清楚,

859

帖子

16

威望

5082

eV
积分
6261

Level 6 (一方通行)

小屁孩

13#
 楼主 Author| 发表于 Post on 2022-9-29 18:39:04 | 只看该作者 Only view this author
Picardo 发表于 2022-9-29 13:43
请问这个cpu的瓶颈是主频还是核数还是带宽什么的,没用过gromacs,lammps的话,用gpu跑的话,我参照别人 ...

GPU加速GMX,启用-update gpu后,CPU负载主要是每n(n为正整数,通过mdp文件指定)步收集一次GPU上跑出来的数据,经过计算后把能量、坐标信息写入硬盘。此时一般使用1个MPI Rank,其中每个OpenMP线程都会参与通信和计算,算是一种特殊的IO密集型任务,对PCIe总线带宽/延迟、核间通信带宽/延迟以及多核浮点性能同时有需求。但实际上根据我以前用5950X+3080Ti进行的测试,PCIe带宽是跑不满的,CPU功耗也比较低,即CPU浮点计算压力不大。这2项可探测的关键负载都没有跑满,但增加核数(从12核到16核)还是能明显提升GPU使用率和任务运行速度,所以目前不清楚到底是哪个环节出现了瓶颈。

带4090具体选什么CPU需要仔细测试,比如intel 8375C全核性能略弱于AMD 7950X,但前者核心数量多一倍,需测试实际用来带4090跑GMX时到底哪个能发挥出更多的GPU性能。

至于Lammps,如果我没记错,这不是采用“纯GPU”方案的程序,不应该只用1个CPU核心。
- 向着虚无前进 -

209

帖子

0

威望

943

eV
积分
1152

Level 4 (黑子)

12#
发表于 Post on 2022-9-29 13:43:49 | 只看该作者 Only view this author
Entropy.S.I 发表于 2022-9-21 05:33
30系相较于20系,FP32翻1倍以上,实际跑MD速度恰好翻1倍。测出来不翻倍是因为CPU有瓶颈,要让3090跑GMX的 ...

请问这个cpu的瓶颈是主频还是核数还是带宽什么的,没用过gromacs,lammps的话,用gpu跑的话,我参照别人的意见,还是用的cpu 单核

859

帖子

16

威望

5082

eV
积分
6261

Level 6 (一方通行)

小屁孩

11#
 楼主 Author| 发表于 Post on 2022-9-26 16:01:35 | 只看该作者 Only view this author
八月的雨季 发表于 2022-9-26 11:04
翻不了倍的,很直观的对比,我的膜蛋白体系10W原子左右,Amber纯GPU跑,2080ti 70~80 ns一天,1080ti 40~50 ...

这次不一定哦
- 向着虚无前进 -

67

帖子

0

威望

2067

eV
积分
2134

Level 5 (御坂)

10#
发表于 Post on 2022-9-26 11:04:50 | 只看该作者 Only view this author
翻不了倍的,很直观的对比,我的膜蛋白体系10W原子左右,Amber纯GPU跑,2080ti 70~80 ns一天,1080ti 40~50 ns一天,3090非ti 100~110 ns一天。

859

帖子

16

威望

5082

eV
积分
6261

Level 6 (一方通行)

小屁孩

9#
 楼主 Author| 发表于 Post on 2022-9-25 22:38:00 | 只看该作者 Only view this author
sun35mr 发表于 2022-9-25 21:49
我今年换成 3060Ti,结果用gpu跑lammps的速度也就比之前的960 4g快了不到1倍,cpu是R5 2600,是因为CPU到 ...

是。也建议使用最新版驱动,并用最新版CUDA Toolkit编译较新版Lammps。
- 向着虚无前进 -

89

帖子

0

威望

482

eV
积分
571

Level 4 (黑子)

8#
发表于 Post on 2022-9-25 21:49:34 | 只看该作者 Only view this author
Entropy.S.I 发表于 2022-9-21 05:33
30系相较于20系,FP32翻1倍以上,实际跑MD速度恰好翻1倍。测出来不翻倍是因为CPU有瓶颈,要让3090跑GMX的 ...

我今年换成 3060Ti,结果用gpu跑lammps的速度也就比之前的960 4g快了不到1倍,cpu是R5 2600,是因为CPU到了瓶颈吗?

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2025-8-13 01:38 , Processed in 0.687405 second(s), 31 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list