计算化学公社

 找回密码 Forget password
 注册 Register

悲报:NVIDIA取消了计算卡以外GPU产品的NVLink支持

查看数: 6503 | 评论数: 20 | 收藏 Add to favorites 4
关灯 | 提示:支持键盘翻页<-左 右->
    组图打开中,请稍候......
发布时间: 2022-9-21 04:58

正文摘要:

本帖最后由 Entropy.S.I 于 2022-9-21 05:36 编辑 众所周知,老黄于北京时间2022年9月20日晚11点公布了新一代GPU架构Ada Lovelace,发布了以下几款GPU:GeForce RTX 4090; GeForce RTX 4080 16GB; GeForce RTX 40 ...

回复 Reply

gog 发表于 Post on 2023-1-23 21:30:47
beowulf 发表于 2023-1-23 17:30
A100都有官方的A800作为替代了,到时候H100去越南、马来西亚一带洗个澡一样的。
办法总比困难多的。

H100,货值太高,要申报海关。如果出关方允许转售到大陆,就方便多了。私货的风险太大。
beowulf 发表于 Post on 2023-1-23 17:30:14
gog 发表于 2022-10-18 21:33
用不用nvlink,都不重要了。高端计算加速卡,不准销往中国。得绕道了。玩游戏和办公,以及lammps计算,支 ...

A100都有官方的A800作为替代了,到时候H100去越南、马来西亚一带洗个澡一样的。
办法总比困难多的。
bornkilled 发表于 Post on 2023-1-11 00:51:09
Picardo 发表于 2022-10-21 11:11
我的意思是游戏显卡有支持nvlink的嘛,

应该是只剩下3090和3090TI是游戏卡带nvlink的绝唱了
Picardo 发表于 Post on 2022-10-21 11:11:30
gog 发表于 2022-10-18 21:33
用不用nvlink,都不重要了。高端计算加速卡,不准销往中国。得绕道了。玩游戏和办公,以及lammps计算,支 ...

我的意思是游戏显卡有支持nvlink的嘛,
gog 发表于 Post on 2022-10-18 21:33:21
Picardo 发表于 2022-10-15 10:31
没有啥误导,我也不是很清楚,我自己没测试过,听油管上别人说的

用不用nvlink,都不重要了。高端计算加速卡,不准销往中国。得绕道了。玩游戏和办公,以及lammps计算,支持国产。
Picardo 发表于 Post on 2022-10-15 10:31:30
Entropy.S.I 发表于 2022-10-13 18:57
最近亲自试了Lammps,确实是用1核带1卡比较合适,误导你了,抱歉…

没有啥误导,我也不是很清楚,我自己没测试过,听油管上别人说的
Entropy.S.I 发表于 Post on 2022-10-13 18:57:23
Picardo 发表于 2022-10-9 17:31
谢谢赐教,具体我也不太清楚,

最近亲自试了Lammps,确实是用1核带1卡比较合适,误导你了,抱歉…
Picardo 发表于 Post on 2022-10-9 17:31:19
Entropy.S.I 发表于 2022-9-29 18:39
GPU加速GMX,启用-update gpu后,CPU负载主要是每n(n为正整数,通过mdp文件指定)步收集一次GPU上跑出来的 ...

谢谢赐教,具体我也不太清楚,
Entropy.S.I 发表于 Post on 2022-9-29 18:39:04
Picardo 发表于 2022-9-29 13:43
请问这个cpu的瓶颈是主频还是核数还是带宽什么的,没用过gromacs,lammps的话,用gpu跑的话,我参照别人 ...

GPU加速GMX,启用-update gpu后,CPU负载主要是每n(n为正整数,通过mdp文件指定)步收集一次GPU上跑出来的数据,经过计算后把能量、坐标信息写入硬盘。此时一般使用1个MPI Rank,其中每个OpenMP线程都会参与通信和计算,算是一种特殊的IO密集型任务,对PCIe总线带宽/延迟、核间通信带宽/延迟以及多核浮点性能同时有需求。但实际上根据我以前用5950X+3080Ti进行的测试,PCIe带宽是跑不满的,CPU功耗也比较低,即CPU浮点计算压力不大。这2项可探测的关键负载都没有跑满,但增加核数(从12核到16核)还是能明显提升GPU使用率和任务运行速度,所以目前不清楚到底是哪个环节出现了瓶颈。

带4090具体选什么CPU需要仔细测试,比如intel 8375C全核性能略弱于AMD 7950X,但前者核心数量多一倍,需测试实际用来带4090跑GMX时到底哪个能发挥出更多的GPU性能。

至于Lammps,如果我没记错,这不是采用“纯GPU”方案的程序,不应该只用1个CPU核心。
Picardo 发表于 Post on 2022-9-29 13:43:49
Entropy.S.I 发表于 2022-9-21 05:33
30系相较于20系,FP32翻1倍以上,实际跑MD速度恰好翻1倍。测出来不翻倍是因为CPU有瓶颈,要让3090跑GMX的 ...

请问这个cpu的瓶颈是主频还是核数还是带宽什么的,没用过gromacs,lammps的话,用gpu跑的话,我参照别人的意见,还是用的cpu 单核
Entropy.S.I 发表于 Post on 2022-9-26 16:01:35
八月的雨季 发表于 2022-9-26 11:04
翻不了倍的,很直观的对比,我的膜蛋白体系10W原子左右,Amber纯GPU跑,2080ti 70~80 ns一天,1080ti 40~50 ...

这次不一定哦
八月的雨季 发表于 Post on 2022-9-26 11:04:50
翻不了倍的,很直观的对比,我的膜蛋白体系10W原子左右,Amber纯GPU跑,2080ti 70~80 ns一天,1080ti 40~50 ns一天,3090非ti 100~110 ns一天。
Entropy.S.I 发表于 Post on 2022-9-25 22:38:00
sun35mr 发表于 2022-9-25 21:49
我今年换成 3060Ti,结果用gpu跑lammps的速度也就比之前的960 4g快了不到1倍,cpu是R5 2600,是因为CPU到 ...

是。也建议使用最新版驱动,并用最新版CUDA Toolkit编译较新版Lammps。
sun35mr 发表于 Post on 2022-9-25 21:49:34
Entropy.S.I 发表于 2022-9-21 05:33
30系相较于20系,FP32翻1倍以上,实际跑MD速度恰好翻1倍。测出来不翻倍是因为CPU有瓶颈,要让3090跑GMX的 ...

我今年换成 3060Ti,结果用gpu跑lammps的速度也就比之前的960 4g快了不到1倍,cpu是R5 2600,是因为CPU到了瓶颈吗?

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 15:00 , Processed in 0.244340 second(s), 33 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list