|
nVidia专业卡RTX 6000D 84GB的完整折腾过程 Complete process of purchasing, modifying the cooling system, and using the nVidia RTX 6000D 84GB professional card
文/Sobereva@北京科音 2026-Jul-1
0 前言
本文完整记录笔者购买和折腾nVidia的RTX 6000D 84GB专业GPU的全过程,包括购买背景和过程、散热改造,以及软件层面的各种鼓捣。对于打算入同样GPU或高度类似的GPU(如RTX PRO 6000 Blackwell Server Edition)的人会有很大帮助。
这个卡被我插在了《淘宝上购买的双路EPYC 7R32 96核服务器的使用感受和杂谈》(http://sobereva.com/653)介绍的我的双路7R32服务器上。原本这机子的电源是海韵1000W,为了供电足够从容,并且能提供这卡需要的12V-2x6 PCI-E供电头而避免用转接线,我把电源换成了很扎实的振华LEADEX III P1300W(1100元入手)。
1 选择RTX 6000D 84GB的原因以及与其它产品的对比
这一节先说说我花5万多RMB购买这卡的背景,并且顺带点评一下被关注较多的其它东西。这年头开源LLM、视频生成模型百花齐放,本地跑这些模型重中之重就是显存容量和显存带宽,前者决定能跑多大规模的模型、能否并发跑多个等,后者对速度起关键性影响。目前大陆正规渠道销售的消费级GPU中显存最大的就是RTX5090 v2,我在2026年5月11日在淘宝上买的技嘉RTX5090D v2 GAMING OC 24G 魔鹰花费17645元(含开专票费用),性价比很高。但其24GB显存跑很多较大尺寸模型捉襟见肘,需要花费一些精力折腾,往往还不得不以牺牲结果质量、增加耗时、减少上下文长度为代价,或者完全没法跑(例如重量级视频生成模型Wan)。用双卡凑48GB又忒折腾而且很多情况效果不好,而且48 GB依然无法实现显存自由。至于买非行货的或者自己去海外买RTX5090带回来,也只有区区32 GB显存,而且如今卖到3万多RMB已严重溢价,也没有行货的质保便利。RTX4090D 24GB山寨魔改48GB那种东西做工差、故障率高(尤其是显存虚焊多发)、质保难(除非为了质保顺利而多花几千在jd上买自营的),比较拼rp,而且售价25000左右也不便宜,大多还都是涡轮卡满载噪音很大(虽然目前也已经有商家卖水冷版,但山寨厂出品有漏液隐患),性能也显著弱于RTX5090且架构更老。RTX PRO 5000 Blackwell 48GB卖三万五左右,性能相对于RTX5090阉割太多,而且也不过48GB而已,高不成低不就。它还有72GB版,价格卖到5万,还不如花同样的钱买显存更大、性能更好的RTX 6000D咧!RTX PRO 6000 Blackwell具有96GB显存和核心略胜于RTX5090的强大性能,是跑本地AI模型的财力有限者的最终幻想(至于绝对脱离群众的Data center系列不在本文话题范围内),其近期价格涨了几万,相对便宜的主动散热的工作站版价格接近10万,而被动散热的服务器版价格达到12万,实在太离谱了,价格过于虚高。
相较之下,RTX 6000D有极为杰出性价比!!!先说说这个型号是怎么回事。按照美国商务部的规定,RTX PRO 6000 Blackwell的GPU算力超过了对中国禁售的阈值,于是nVidia为了能赚钱,就出了其阉割版RTX 6000D作为中国特供品。这阉割程度较少,流处理器从24064降到了19968个,显存容量从96GB降到了84GB,显存位宽从512bit降到了448bit而显存频率未变,总的来说跑AI模型的性能(主要看显存带宽)也就降低了百分之十几而已。而RTX 6000D的服务器版,也就是本文说的这个卡,在2026年六月fourth日淘宝上仅仅卖52000元(含13%专票的价格)。即只花大约RTX PRO 6000 Blackwell一半的价格就能近乎享受到这个卡带来的一切,实在超值!而84GB显存和96GB对于跑AI来说基本没什么差距,因为都已远远超过显存容量受限而浑身不自在的坎了。我一直都觉得RTX 6000D当前这个售价是由于被关注太少而价值被严重低估,连很多内行人对这个卡都闻所未闻、youtube上都几乎看不到相关视频,我之前也是极为偶然才发现有这货。若什么时候突然因为某个爆款视频之类使之受到广泛关注,或者有公司突然大量买入,暴涨到7万多都是情理之中。在大陆能买到这个卡,我觉得是因祸(禁售)得福(地区特供的极高性价比产品)。其实RTX5090D v2也是属于因祸得福的产品,在别的国家想买这么高性价比的卡还买不到(说不定得等到坊间传闻的RTX5080 SUPER上市才可能有24GB的产品)。相比RTX 6000D,定位更低的RTX PRO 5000 Blackwell就被阉割得太多了,流处理器仅有14080个,显存位宽只有384 bit,性能和性价比都显著不如RTX 6000D。
顺带一提统一内存的产品。说到大显存容量自然有人会想到AMD AI Max+ 395迷你主机、nVidia DGX Spark迷你主机那类东西。我在2025年12月花一万五入了一个零刻AI Max+ 395带128GB统一内存的迷你主机(2026年6月已经涨到两万五左右),只留32 GB当内存的话其集成的GPU Radeon 8060S就有96 GB显存,从显存容量上无疑看起来很爽,但显存带宽256 GB/s远远低于RTX 6000D的1.57 TB/s,GPU性能也相差十分悬殊(约RTX4070的水准),所以虽然AI Max+ 395能跑很大的模型、能做到LLM上下文自由等等,但由于性能孱弱,主要适合打辅助、跑MoE那类对性能要求低的模型等场景,较为鸡肋。DGX Spark的性能比它也没好太多,显存带宽273 GB/s,而且x86/x64程序都没法跑(因为CPU部分是ARM架构的)。现在苹果也有提供128 GB统一内存的M5 Max笔记本,虽然纸面上带宽有不错的614 GB/s,性能明显好于AI Max+ 395,但苹果目前的AI生态方面都远不如AMD,更别提和nVidia比了,而且我个人超超超讨厌苹果的电脑(不仅严重溢价而且反人类的设计太多)。
本地直接用CPU结合大内存跑LLM也不是不可以,而且由于内存容量能达到很高,有可能跑巨大模型,但情况很尴尬。跑不小的稠密模型的话,需要很高的内存带宽,但消费级CPU的内存带宽达不到。虽然用支持高频DDR5的内存通道很多的服务器CPU来跑确实能达到挺高的内存带宽,但无论带宽还是算力都和RTX5090档次远远没法比,而且DDR5当前价格贵得离谱,所有内存通道都插满也需要花很多钱。类似于上面说的统一内存产品,这种情况跑跑激活参数量不太大、对性能要求低的MoE模型倒还是可以。此外,对于本地跑Deepseek V4 flash这样巨大MoE模型(284B总参数/13B激活),用内存容量大且内存带宽不低的主机搭配一个性能不错的消费级GPU是老百姓能承受价格范围内的近乎唯一选择,具体来说是llama.cpp把专家层权重加载到内存里,注意力层加载到显存里。
现在还有二手Tesla V100 32GB那种东西在卖,就三千多块钱,而且显存带宽高(HBM2显存,带宽900 GB/s),看似超值,但对于AI目的切勿轻易入手。那是2017年发布的东西,其Volta架构忒老,都不支持AI领域目前标准的BF16浮点,AI应用方面会遇到很多兼容性问题需要折腾或性能损失严重(比如跑架构不古老的视频生成模型),更几乎无法用于训练非极小尺寸的LLM模型。网上的测试中V100跑LLM的吐字速度约为RTX 4070 SUPER的水平、约RTX5090速度的1/3,仅当你对价格非常敏感、对速度不敏感,要有个达能到32GB显存的卡用LLM吐字(还得是用诸如Q4量化版,原生的BF16不被其支持),这卡才有意义。顺带一提和AI方面无关的一点:V100的双精度性能很不错,是RTX PRO 6000 Blackwell的3.5倍,但V100的单精度性能比其低将近一个数量级。
现在网上还有提供租云端GPU机子的商家,包括大显存的GPU。我对这种服务没兴趣,高端GPU每天租赁价格也不低,而且数据没有隐私性可言。仅当你在短期内有极高GPU使用需求、对数据的隐私性不敏感的情况下可以考虑。
顺带扩展说一下,总有外行人觉得,现在在线AI服务那么丰富(还有OpenRouter等便利的模型聚合云服务),而且诸如Deepseek V4的API还是白菜价(特别是缓存命中量大时),还有一些白薅猪毛的方法,像笔者这样自己花大价钱买专业卡本地跑模型有什么意义?意义多了去了:
(1)本地可以跑任意开源模型,自由度极高
(2)可以使用去审查化的大语言/图像/视频模型。特别是当你体验过uncensored aggressive模型后会感觉打开了新世界的大门,这是在线服务永远不可能给你带来的享受。而在线模型在反馈信息时则不敢越雷池一步、始终带着紧箍咒,容易拒绝生成,或者生成一大堆说教的P话而不说真话
(3)信息完全保密,并且利用AI干什么完全随心所欲(特别是搭配uncensored模型时)
(4)可以构建稳定的工作流、不必担心在线服务提供方的版本变动、服务中断导致自己的工作受损
(5)可以自己训练/微调模型
(6)省去了调用费用而只花电费。特别是在线视频生成模型价格普遍很高,长期做较多视频的人难以承受,或者频繁遇到配额上限。
(7)灵活可控。比如较小模型调优后速度能做到比在线服务还快得多、响应延迟低得多
另外,这年头比较魔幻,好多高端GPU不跌价,反倒由于AI算力需求旺盛还涨价。因此买对的卡不仅是保值率的问题,甚至在一段期间内还可能有升值潜力。高端算力在AI时代已成为一般等价物。
一个不能回避的事实是开源模型比在线提供的顶级闭源模型差。然而,顶级闭源模型的token都相当贵,重度使用成本太高,而二线模型(如Deepseek V4 flash、OpenAI/Google提供的轻量级模型版本)和目前的中等尺寸的开源模型如Qwen 3.6 27B的能力水准相仿佛。84 GB显存能跑的顶级开源模型和顶级闭源模型的差距基本上也就在一年左右而已,随着模型进步的速度愈发有限,体感差距还会明显越来越小。
2 购买过程和卡的外观
京东上买显卡明显普遍比淘宝上贵,特别是对高端专业卡往往能差好几千,淘宝上只要找到合适的商家就不会踩雷。我找的是淘宝上在店铺里主要卖nVidia专业卡、评分达到5.0、有不少成交记录和卖家真实评价、能开发票的一个广东卖家。在淘宝上沟通顺畅,回复较快,承诺三年质保(但不能自己直接送厂家修,需要经由他们送修)。我在淘宝上拍下来付款后,当天卖家发顺丰空运,从广东到北京那么远距离,第二天就收到了,包装完好。开箱时我拍了完整视频。在淘宝上确认收货后,不久后就收到了他们开的专票,包含了卡的型号明细。
这卡是真正的100%原封。一旦封条撕开,封条与防静电袋粘贴处会留下底印。
这是快递盒子和纸盒工包包装。里面除了卡以外还有个备用的显卡挡板(不知为何要附带)。
拆掉防静电袋后的照片如下所示。用之前需要把散热器上的膜撕掉。可见RTX 6000D完全被平整光滑、方方正正的金属覆盖。
这是RTX 6000D和我的技嘉RTX5090D v2 GAMING OC 24G 魔鹰放在一起的照片,可见块头相差极为悬殊,重量相差约两倍。这在于被动散热的RTX 6000D的散热器比较简单,就是包裹整个卡的金属壳,里面的鳍片构成左右贯通的风道。
如果对这个卡内部结构感兴趣的话,可以参考RTX PRO 6000 Blackwell服务器版的拆解+换水冷的视频:https://www.youtube.com/watch?v=DEOOA3__7P4。
3 散热改造与安装
貌似现在也已经有主动散热的RTX 6000D工作站版卖了,但我当时买这卡的时候只有被动散热的RTX 6000D服务器版这唯一选择,本文说的RTX 6000D一律都是指服务器版。
发热量巨大、满载功耗最高可达600W的RTX 6000D必须有足够强劲的散热才能正常使用。只依赖于自带的被动散热器直接用的话,我实测任务跑起来后没两分钟就会因为核心过热导致触发保护机制而掉卡,即GPU设备突然消失、nvidia-smi无法检测到,需要重启机子才能恢复。本身RTX 6000D这样的服务器GPU最适合放在有极高转速暴力扇提供的非常强劲气流的专门服务器机箱里(这种服务器必须有专门的机房,否则吵得要命)。而放在我的双路7R32服务器用的追风者614PC这样的普通服务器机箱里就必须做散热改造。散热效果最佳的方式无疑是用水冷,能确保600W满载还不会遇到温度墙而降频,但这需要在淘宝上花多达1900块钱买适用于RTX PRO 6000 Blackwell Server的水冷(兼容与之版型一样的RTX 6000D),得把原配被动散热器拆开替换成水冷头,这会导致卡失去质保,并且万一失手导致显卡损坏的话财力损失过大,并且还有漏液风险(尽管买一体式水冷风险相对小)。笔者还是选择了廉价、安全的基于风冷的散热改造方法。
这个是进风口的特写,可见有两个螺丝可以固定导风罩。并且仔细看会看到在入口处有缝隙很大的一排鳍片,而在里面一定距离处有非常密集的鳍片。
给RTX 6000D灌风可以用导风罩结合一个涡轮散热器,或结合两个小尺寸暴力扇,或结合一个12厘米风扇。前两种选择虽然体积小,但风扇尺寸小,达到足够散热效果必然需要极高的转速,噪音会巨大,需要有专门的机房,或者放家里的话需要放在阳台等地方(否则哪怕自己受得了,也会影响到楼上楼下,特别是夜晚时)。而我的机子要放在斜前方一米处,因此噪音控制是重要问题,唯一选择就是导风罩结合12厘米风扇。
下图是我在淘宝上买的导风罩,配一个12厘米静音风扇共75块钱(导风罩单买65块钱)。把12厘米风扇用四个螺丝固定在导风罩上,再把导风罩固定在RTX 6000D入风口上,风就可以吹进去了。这导风罩是卖家(估计是网上找的免费的模型)用3D打印机打印的硬塑料制品,质量很一般,表面摸起来是一丝丝的,个别地方还有翘起(都被我打磨掉了)。其实不太值这个价,但也没有其它选择,我手头也没3D打印机。
选择当前目的的12厘米风扇非常有讲究,绝对不能随便买个就完事,不同风扇的风量、风压、转速、噪音、厚度、叶片设计、材质、轴承等方面都有区别。用于当前目的最关键的是一定要选择风压很大的。RTX 6000D里面非常密集而且很长的鳍片的风阻很大,风压不够大的话根本吹不透(即实际吹出去的风量小),风扇在无风阻下最大风量相对来说则是次要因素(而机箱风扇最看重的是最大风量)。前面说了还需要考虑噪音问题,因此能提供很大风压的前提下必须选择满转速时也不能吵得离谱的风扇,那些完全不考虑噪音的转速>=4000 rpm的12cm大功率暴力扇完全不在考虑范围内。我一开始听信了Gemini的推荐,花161元买了猫头鹰NF-F12 industrialPPC-3000,这是一款最高转速3000 rpm、静压高达7.63 mm H2O的12 cm风扇。实际体验后感觉中等转速的噪音还可以,但满转速时候噪音尖锐、刺耳。后来研究发现追风者T30才是首选,遂花了189元买了这个,那个猫扇就算是白买了。这个T30的设计注重性能和噪音的平衡,最高转速也是3000 rpm,静压可达7.11 mm H2O,满转速时虽然也会吵,但还不至于那么尖锐,因而更容易接受。T30能有这样的优势一定程度也得益于它是3 cm厚度的风扇因而叶片能做得更宽大,而NF-F12 industrialPPC-3000的厚度是2.5 cm。下图是T30风扇和盒子里的附件(风扇螺丝、一个延长线)。
要注意的是这风扇有静音的Hybrid模式(最大转速1200 rpm)、Performance模式(最大转速2000 rpm)、Advanced模式(最大转速3000 rpm),上图里风扇标签上标注了调节的位置,有一个小开关决定处于哪种。买来时默认是Performance模式,为了能达到最高转速,我手动改成了Advanced模式。我觉得这开关对大多数用户来说是多余的,直接靠自定义转速-温度曲线通过PWM调节转速就完了。
RTX 6000D在背面是有显存的,满载时背板极其烫手。背面显存温度据说会比核心还要高十几度,核心达到85度的温度墙时背面显存大概已经到了约100度,长期在这么高温下有损寿命,特别是容易导致虚焊。因此背板散热是必须要考虑的。起初我花十几块钱买了个可以弯曲的万向磁吸散热风扇支架,把那个导风罩自带的风扇对着背板吹,但后来感觉效果不行,毕竟背板就是纯平的金属板,散热面积太小。于是我花了190块钱在淘宝上买了纯铜显卡背板散热器片(还挺沉,350 g),附带2个9cm的超频三旋风F92风扇、固定螺丝和导热贴,如下所示。这样大面积、5 mm厚的纯铜散热片就是很贵,价格远高于铝散热片,而相应地导热也更好。但如果财力不足,用铝散热片也足够。
RTX 6000D满载时我还感觉金色外壳也很烫,为了散热更充分,我又花了23块钱在淘宝上买了150*85*12 mm的铝制散热片(毕竟这个相对次要,就用便宜的铝散热片了),附带导热垫片,如下所示。图中右侧是前述的导风罩自带的风扇,我要用这个风扇吹这个铝散热片,随便给点风就远比没风强得多。
为了把RTX 6000D和外加的散热片牢牢固定在一起,我在淘宝上花12块钱买了刚好够用的40厘米长的尼龙扎带(两根就够,但无奈250根起卖,只好一次买了一袋子),固定好之后如下所示。图中还可以看到接近挡板的地方装了温度探头,后面会具体说这个。
装上导风罩和风扇后就是下图这个样子。必须先把GPU的电源线插上去再装导风罩,否则先装导风罩的话电源线就插不上去了,其卡头会被导风罩挡住。导风罩是用两个内六角螺丝拧上去的,要用卖家提供的很细的L型扳手慢慢拧上去,需要非常有耐心。
这个导风罩设计得不好,如下图紫色标注区域所示,在电源口旁边缺一块,我发现运行的时候这里会明显往外漏风,这无疑会减弱吹散热鳍片的风压。而且如下图红色标注区域所示,在侧面也有明显缝隙。
为解决以上问题,如下所示,我把具有一定厚度的3M双面胶剪成小块粘在了合适位置,并且用胶把其中一个小块与周围连接处粘牢避免小块被吹跑,还对一处缝隙做了封闭避免漏风。
下面再来说导风罩上的12厘米风扇的转速控制,显然不能让风扇什么时候都处于3000 rpm满转速下吵闹地运行,应根据GPU温度自动调节转速。虽然据说也有办法在Linux下通过某软件基于GPU温度实现风扇PWM控速,但比较折腾。我用的是比较简单的策略,在淘宝上花16块钱买了带螺耳金属温度探头的风扇调速器,花了12.7元买了卡夫特导热硅胶的快干版本(不要买成不会固化的硅脂),如下所示。金属控温探头需要用导热硅胶粘在GPU上尽可能热的位置,直接粘的话会弄脏背板而且也不好拆,因此我花了4.6元买了卡普顿耐高温且绝缘的很薄的胶带(必须是耐高温的,不应当用普通的胶带),先把胶带粘到背板合适位置上,再把温度探头粘在胶带上就行了,参考前文的图。
具体说一下这个调速器,下图是背面。调速器需要5V供电,由下图红黑黄线接的3 pin头提供。鉴于主板上风扇口数目吃紧,我花10块钱在淘宝买了根大D型口转4 pin母口(实际只有正负极两针),将调速器的供电头接到这上面。下图的调速器上的白色两针头连接的是温度探头。调速器上的4 pin插座是用来接要根据温度调速的12 cm风扇的。但原先的这个插座的设计十分愚蠢,挡片明显太宽,导致普通风扇的4 pin头根本插不上去,因此我对其进行了切割(用美工刀就可以),切割的位置如下头箭头所示,这样就能插进去了。
为了给粘在RTX 6000D上的铝制散热片吹风,我把具有一定厚度的3M双面胶剪成三角,粘在了导风罩自带的风扇四周,如下所示,然后粘在了机箱底部的电源上
下图就是都装好之后的最终形态!调速器交替显示当前探测头温度和风扇转速。
下图是从机箱另一侧看过去。追风者614PC有非常占地方的机械硬盘架子,必须像我这样将之拆掉后才能把带导风罩的RTX 6000D放进去,此时导风罩上的风扇距离前面板有充裕的距离。没了硬盘架子,我的机械硬盘就用3M双面胶帖在硬盘四周粘在机箱底部了,很理想。
我的主板是技嘉MZ72-HB0,有三个PCI-E 4.0 16x口,原则上都可以插RTX 6000D,但对于我改造后的这个卡只能插在最靠下的那个。因为挺大个的导风罩头部正好会压在主板上四个SATA口位置,我当前需要插两个SATA头,但即便是用很矮的弯头SATA线,若把RTX 6000D插到靠上的PCI-E 16x口上,都会导致SATA插头和导风罩之间存在位阻,使得RTX 6000D的PCI-E右半边的金手指无法完全插深入,导致PCI-E只有8x(nvidia-smi -q会看到Line width里current为8x)。而插在靠下的PCI-E 16x口上时则恰好可以完全插进去、能识别成16x。并且此时靠3M双面胶固定在电源上方的风扇离铝制散热片很近,能充分吹风给其散热。
调速器上面有三个按钮,+、-、OK。调速器有供电时,按住OK几秒,就会进入设置下限温度(L)状态,再按一下OK就会进入设置上限温度(H)状态,再按一下OK就会进入设置风扇停转温度(C)状态,再按一下OK就会离开设置模式并回到温度和转速交替显示状态。设置状态下可以用+、-按钮调节温度阈值。在传感器温度低于C时风扇是不转的,在L到H温度区间内PWM信号令风扇转速由低到高线性变化,温度>=H时风扇就是全转速。C必须低于L至少两度。另外,短按一下OK后可以直接手动设置当前风扇转速是百分之多少。
这种调速器的一个很显著问题是温度检测灵敏度低,和GPU核心实际温度相差巨大,这是因为核心和探测头离得较远、间隔较多。一方面传温速度有限,另一方面探头、散热器本身也都有热容。GPU满载后核心温度会迅速上升,而探头的温度只是非常缓慢地一点点增加。开机后,令核心满载刚达到温度墙85度时,探头的温度往往也就刚升到40度多一点,因此风扇还远没达到全速。而连续跑一阵子后,即便风扇一直满转速、核心还维持在温度墙85度,温度探头也超不过50度。当GPU负载结束、核心温度已大幅回落,探头温度还会处于较高温度,下降缓慢,因此风扇还会以高转速吵一阵子。根据反复尝试,最终我决定把阈值设成C=30、L=34、H=48。H设得看似较低,可以确保GPU满载一会儿后风扇就转速拉满,L设得不是很低可以使得待机一会儿后T30风扇转速能降到1500 rpm左右不怎么吵的程度。这风扇即便在2000 rpm时噪音也比较温和,达到3000 rpm全速时呼呼呼的声音略吵但不尖锐,机子放在人旁边尚属于能接受的程度,此时RTX 6000D的出风口会猛烈吹出比较烫手的热风。噪音不都是风扇自己的原因,官方声称T30全速时是40分贝而已。吵的很大一部分原因是吹出来的风和导风罩以及RTX 6000D非常密集的鳍片摩擦碰撞的声音,无论用什么风扇都不可避免。但无论如何,都比用风压比T30大1/10的NF-F12 industrialPPC-3000更好,光是这风扇自身全速运行时的较尖锐噪音都令我难以呆得住。
最终散热效果:功耗墙被我改为350W(见后文),用llama.cpp跑qwen 3.6 27B模型写长篇作文持续满载时,一开始GPU频率是2400多MHz,当温度上升到默认的温度墙85度后,会触发核心降频(显存频率不变)。风扇升到满转速后,核心频率会在1600 MHz左右波动。看似降频不少,但由于LLM吐字速度关键看显存带宽,因此实际速度没降低多少。qwen 3.6 27B Q4量化版在RTX 6000D未触发温度墙时写作文速度是51 t/s,达到温度墙一会儿后速度降到46 t/s,也就损失10%的性能而已。实际在使用Hermes agent结合本地LLM等情况时(也是我常用场景),是频繁短输出、中间穿插大量等待时间,RTX 6000D的平均负载注定远达不到连续写长篇作文的程度,因此不可能触发温度墙降频。散热改造能做到这样就已经令我满意了。
我还试了用这个卡跑GROMACS 2026,跑一个三万原子出头的体系,很大程度由于7R32单核性能太烂,再加上体系又小,GPU利用率也就60%多,此时功耗平均也就200W,完全触及不到温度墙。这个组合结合-nt 16 -pin on的速度是930多ns/day,而我的9950X搭配RTX5090D v2则能跑到1700多ns/day。
据说再做一种改造可以让这卡在100%负载时也触及不到温度墙,就是在出风口处加装抽风设备,像下面这个泰安服务器这样。reddit上有人自己用3D打印做了个类似的抽风罩并装了抽风风扇,结合两个暴力进风扇,号称令RTX PRO 6000 Blackwell Server满载时只有70多度。但由于我没有3D打印机、淘宝上没有现成的卖,并且加了小尺寸高转速抽风扇肯定很吵,而且当前散热情况已经足够了,我就不再试图折腾了。
顺带一提,不要觉得nVidia官方给RTX 6000D设的85度温度墙太高,这实际上是很安全、有足够冗余的阈值。GPU核心在85度并且给背面显存做前述的主动降温处理,长期运行是完全没有问题的。若为了把温度降到更低而不惜代价换水冷,或者在风冷框架下换上大功率极高转速暴力扇从而带来难以忍受的噪音(除非有专门的不惧噪音的地方放置),都是很不明智的。
背板散热片上固定的那两个超频三F92风扇本身都是静音机箱风扇,最大转速只有1200 rpm,此时噪音都微乎其微,所以都是让它们满转速运行。本身这10块钱的廉价风扇也是3 pin的不支持PWM调速。虽然这风扇性能拉胯,但毕竟不起到重要角色,能给点风就行,我就不换更好风扇了,而且那纯铜背板散热器只有5 mm厚,也不会有吹不透的问题。
至于导风罩自带的那个就值10块钱的所谓的静音12 cm风扇,我发现其最大转速是3000 rpm,全速下也颇吵。它是4 pin的,我就在技嘉MZ72-HB0的BMC管理面板中将它连的SYS_FAN3口的转速设为50%,此时1500 rpm下就完全不吵了,着实静音。从前面的机器侧面的照片里可以看到这个12 cm破风扇比RTX 6000D高出一截,从这一截吹出来的风还能顺便吹到卡的顶端起到微末的散热效果。
4 启动显示输出功能、驱动
RTX 6000D在我用的Rocky Linux 10.1下安装驱动没什么好说的,很容易就装上了,然后nvidia-smi就可以正常看到卡的信息了,nvtop也可以正常监测运行情况。
RTX 6000D有一个讨厌的大坑!nVidia的RTX 6000D等一些专业卡的服务器版(不是workstation版)的所有显示输出口默认是关闭的,导致起初我用这卡的4个DP口连接显示器都无信号,还一度担心会不会是这卡的硬件有毛病。后来才发现有个官方小程序叫NVIDIA Display Mode Selector Tool,必须用这东西才能开启显示输出口。用这个程序要有root权限,会更改GPU固件信息。用这玩意的时候令我回想起中学时候我给自己的显卡刷BIOS的情景,内心比较忐忑。不过弄失败了也问题不大,返厂重新刷一下就解决了。
去https://developer.nvidia.com/displaymodeselector下载Display Mode Selector Tool,下载之前居然会让填一大堆信息来注册nvidia开发者账户,虽然麻烦,但填就行了,并不需要人工审核,当即就能注册好,然后下载之。我下载的Linux版文件是NVIDIA-Display-Mode-Selector-Tool-1.76.0-May26.zip,42.7MB,放到Linux上解压。进入解压后得到的目录NVIDIA-Display-Mode-Selector-Tool-1.76.0-May26/linux/x64/,里面就有一个可执行文件displaymodeselector,用chmod给其增加可执行权限。我之前已经装了nVidia官方的GPU驱动,运行以下命令停止图形界面和nVidia服务、卸载内核模块确保万无一失
systemctl stop gdm
systemctl stop nvidia-persistenced.service
systemctl isolate multi-user.target
rmmod nvidia_uvm nvidia_drm nvidia_modeset nvidia
在前述的目录下运行./displaymodeselector --gpumode,然后按如下截图操作
之后关机,并且给机子彻底断电。过一分钟后重新开机,终于DP连接的屏幕能显示了!注:不用重新装驱动。并且nvidia-smi -q会看到Display Active从以前的Disabled状态成为了Enabled(如果还显示Disabled,再关机开机一遍肯定就好了)。
我发现这么弄完后nvidia-smi里Volatile Uncorr. ECC成为了off状态,并且nvidia-smi -q里ECC Mode也成了diabled,看来如上处理后显存ECC确实是关了。这对于普通应用来说无妨。单机单卡的工作站环境关掉ECC几乎没有任何可感知的负面影响,甚至因为少了校验的开销,显存的读写吞吐速度还会微微提升一点。重新开启ECC的话再用NVIDIA Display Mode Selector Tool把模式改回原先的就完了。
我在Win 11上死活装不上RTX 6000D的驱动。这个卡的Windows驱动需要用专门的NVIDIA RTX Driver而不能用GeForce的,可以在nVidia官网上找到。我在完全新装的Win 11上装了这驱动(596.72-quadro-rtx-desktop-notebook-win10-win11-64bit-international-dch-whql.exe),然后在设备管理器里看到显示黄色叹号的RTX 6000D,故障代码43,此时只能以基础VGA驱动低分辨率地显示,nvidia-smi无法认卡。后来我各种折腾,包括尝试其它版本驱动、尝试关闭Resizable BAR等做法都无法解决。有可能按照Display Mode Selector Tool里自带的pdf文档说的用nvidia-smi.exe -fdm 0命令把默认的驱动模式从MCDM改成Windows Display Driver Model (WDDM)能解决,但是nvidia-smi目前都不认卡,这个命令也就没法用。大概率用Display Mode Selector Tool改回原本的纯计算模式能解决,但这样会导致DP端口被关闭,在Linux上都没法显示图像了,得不偿失,因此作罢。本身用RTX 6000D也没什么必要用Windows系统。
5 功耗墙设置
对于没有水冷或者暴力扇+抽风扇的强劲散热的情况来说,官方默认的600W功耗上限太高了,主动散热的RTX PRO 6000 Blackwell Max-Q的默认功耗墙才只有300W。600W功耗上限容易令GPU功耗冲得太高并带来急剧发热,进一步使得在到达温度墙时降频太厉害。在当前散热条件下,功耗墙改为350W甚至300W是比较合适的选择。
Linux下运行以下命令开启nVidia官方持久化服务
systemctl enable nvidia-persistenced
systemctl start nvidia-persistenced
把功耗限制命令nvidia-smi -pl 350加到开机脚本/etc/rc.local中,运行chmod +x /etc/rc.local确保开机脚本有执行权限,重启后功耗墙设置就生效了,在nvidia-smi里能看到当前的功耗墙。
|