本帖最后由 Geyer 于 2020-12-19 09:55 编辑
一 引子
放在两年前写的话,估计这贴子还能比较有价值;但放在0202年马上要结束的现在,你问我愿不愿意专门多啰嗦几句介绍下牙膏家族,那我第一反应肯定是不干的。毕竟milan和icelake都已经流片至正式版步进,陆陆续续开始向各大企业级用户与数据中心供货;vermeer更是在桌面端把cml-s捶得渣都不剩,只能降价应对。谁都看得出来,skl这个2015年推出的老架构已经是秋后的蚂蚱,蹦跶不了几天了。说的不客气点,期货死人快到该写讣告的时候了还给他整名片和求职信干啥?
于是在我满怀期待去向圈内某著名玩家(同时也是老板)打听啥时候能买到38c的icelake-sp的时候,却被浇了兜头一盘冷水:
icl目前渠道能流进来的只有早期步进版,核少频低不说,有无bug只有牙膏知道,毕竟大部分人没板子点不亮。想要板子?左转tb某LGA4189四路准系统,盛惠45000,光一个板子和一个箱子哦~
问正常的eatx和ssi-eeb主板啥时候能到,答曰明年年底(吧)
再回头一看某鱼满地3000+的24-28核一代铂金和同样3000左右的双路主板。得嘞,接下来这大半年,估计苦逼磕盐民工还得守着这帮老家伙过日子喽。
那这介绍信还能咋办?写......就写⑧
分割线分割线分割线
严肃认真地说一下,这篇帖子主要是大略介绍一下目前的时间点(2020.12)上Intel skylake架构(及其换汤不换药衍生品)的基本特性,谈及部分值得购买的产品及其购买安装与使用过程中的注意事项;分为MSDT(MainStreamDesktop)、HEDT(HighEndDesktop)和Server(包括Workstation序列的Xeon-W)三个部分,每个部分的最后我都会给出几个比较实惠的推荐配置,算是给论坛里反复出现过的一些关于硬件选购的问题做个集中解答。最后会粗略讨论一些可能会被拿来作为对比的平台,根据自己和周围人的使用体验谈一下感受,并对用于科研用途的计算机硬件配置发展趋势做一些简单的预测。自己也是一步一个坑踩过来的,希望能为各位同僚尽可能提供一些有益的信息与帮助。
二 MSDT篇
MSDT其实没有什么特别好说的,毕竟任何一个游戏打多了的阿宅对于那几个顶级桌面i7(后来加上i9)基本都能倒背如流。当然随着amd的步步紧逼,牙膏也被逼得一点一点往外挤,最后吃瓜群众发现今天i3(10100f)竟是当年i7(7700)(此处应有感叹号.jpg)。当然这种古老架构的反复迭代也带来一个好处,毕竟牙膏厂的规矩每次出新产品都要流片一堆不显+一堆正显哗啦啦发下去试,迭代多了到后面即使是早期步进的不显也完全安全稳定无bug,甚至还会带来一些小惊喜(后面会提到)。对于囊中羞涩又急缺算力的一般通过高年级本科生或是研究生新人后辈而言,这种情况意味着本来只能办公的台式机预算,也能在打打字做做ppt的同时充当一份可能不多却稳定的算力。囿于其定位在此不打算推荐价位太高的,就当作是sob大贴子 http://bbs.keinsci.com/thread-11041-1-1.html中【可用于简单计算的pc机推荐配置】的alternative chioce吧。
1. qqls(i9 9980hk es)
之前B站刷屏的魔改u,8核16线程,不锁可超倍频,带hd630核显。此u原是游戏本端顶级序列八核i9的es版,步进c修订p0,与9900k一致(看到这里就应该知道这玩意完全稳定无bug了)。由于散热空间受限,原则上用于笔记本产品线的晶圆部分体质一般好于桌面端的相应产品,因此qqls这玩意配合供电较强的魔改z370/z390基本盘全核过5无碍;但由于转接板会损失一部分内存信号,注定这玩意超内存是超不上去的,一般2800mhz左右封顶。
这款u在售的有两个版本,一个是始作俑者苏先生(又名闪电)出品的裸die+保护器版,售价1300;一个是闲鱼某卖家出品的带顶盖内封液金版,售价1250。个人装过两台,买的都是后者,主要原因在于苏先生本人实在太鸽忍无可忍,次要原因则在于裸die配合硅脂的散热效果实在没法看,液金直触俺又比较怂。选购主板时需要注意b150/z170等100系主板绝大多数不支持在bios内改动核心电压与倍频,不允许内存频率高于2133mhz(rog m8i实测可以,但有憨憨会用itx主板去带么?哦是我啊那没事了.jpg),只能在进入系统后用intel xtu拉,但那个玩意给的电压曲线偏差十分感人;z370/z390魔改bios的主板倒是可以改,问题如果你想给这玩意超5g那需要的供电条件和给9900k超5g那些顶级主板是一样的,千把块钱的老U显然不值得你再去添购千把块钱的旗舰板和千把块钱的分体水去给他超频,因此这玩意最好且唯一正确的用法就是搭配供电过关的b150/z170主板默频使用。如华硕b150 pro gaming,华擎b150 gaming k4等,都是相当不错的选择(本人用过的主板有华擎z170ex4和华硕rog m8i,实测默频下vrm散热片已经开始发烫,因此绝对禁止任何只有4相左右vcore供电的丐版100系主板上qqls)。具体的可以在买U之前咨询卖家,或者直接把板子买了寄过去给人魔改。
由于转接板的存在导致内存信号损失的问题,qqls安装的时候如果一次性插入两条内存,有相当几率主板会直接亮黄灯报55(memory not found)。正确姿势是先插入一条内存,开机进入bios后直接把vccio和vccsa分别给到1.25v和1.20v(无视bios给的电压过高警告),内存频率降到1333mhz,保存后重启关机插入第二条内存,再把内存频率慢慢升上来。如果遇到过不了自检的就拔掉一条内存重启,给内存加点电压(默认1.20v,一次加0.025v),保存后再插回去,直到回到2133mhz为止。其他所有参数和选项都不需要动,qqls默频就可以跑到全核4.4/ring4.1/avx offset0,比定位类似但价格更高的9900t/9900的各种不显正显正式版都强,满载大概130-140w(我会告诉你这玩意能压进4L的itx箱子里还能来点rgb么?)。
参考配置单: cpu qqls 1250元 内存 酷兽枭鲸协德之类都行,哪个便宜买哪个 ddr4 16g×2 约450元 主板 华硕b150 progaming或类似的b150/z170 约200元 电源 闲鱼随便收个400w的牌子货,安钛克鑫谷全汉侨威啥的都行约50元 机箱 atx机箱本地电脑城随便找个约50元 硬盘 pm981a 512g 380元 散热 利民fs140 双12特价109元 带tf7硅脂 共计 2489元,系统直接装win10 workstation,高斯就直接搁wsl里得了。 谁说的三千大洋做不了计算?
2. qtb1(i9 10900 es)
十代牙膏cml的超早期步进版,十核二十线程,睿频4.6全核4.1,正显版步进4正式版步进5但他步进是1。换做别的架构这么早的步进我铁定不碰,但别忘了这是万年牙膏skl,迭代到现在除了把1mm的die挫薄到0.4mm以改善散热外别的基本没差,bug那更是没有的了。就性价比而言此配置并不如上面说的qqls突出,但好处是不折腾,而且相较于正式版多出一个tsx指令集——幽灵熔断漏洞的不幸牺牲者。牙膏在没法完全修复幽灵熔断的情况下为图省事直接ban了新1200和2066平台上对缓存prefetch至关重要的tsx指令集,却在二代至强可扩展上予以保留,属实弟弟行为;也就造就了“测试版比正式版同频性能更强”这一申必情景。
参考配置单: cpu qtb1 1650元 内存 酷兽16g 2666×2 约450元 能不能拉上2933看天 主板 msi b460m迫击炮 pdd680 电源 航嘉WD400 69 硬盘 pm981a 512g 380元 散热 利民fs140 双12特价109元 带tf7硅脂 机箱 tb随便买个顺眼的算80 共计 3418元,系统同上 谁说的三千大洋做不了计算?啊,不好意思超了(挠头尴尬笑
三 HEDT篇
尽管搞计算的你大概率用的都是牙膏厂的U,但说到这里还是有必要喊一声AMD YES的;毕竟直到19年下,x299顶级序列的7980xe和9980xe之流长期保持在万元以上。而在zen2的3950x出炉后,7980xe便被直接腰斩,qs版本(qnfx)一度跌价到5000以下。其后随着用户发现Matisse的实际体验并没有宣传的那么美好,x299的价格出现了一段小幅回升;但当Vermeer带着先进一代的架构和大幅改善的晶圆体质在分体水冷下冲上16核全核5g时,任谁也看得出来X299这个千年老妖是真的油尽灯枯了。随之而来的便是skl-x在一个月内的全线腰斩,从7900x到7980xe均跌至一个月前价格的快一半;连带着Xeon-W序列的3175x也一起被腰斩,从1w5均价跌至现在的7500+。配合本就已经跌到千把块的各种二手x299主板,这个长期以来因为高高在上的cpu价格与不能使用大船skl-sp处理器的遗憾而被广大爱好者有意无意嘲讽的平台,突然之间就变得香了起来。
作为桌面端skl五世牙膏的延申,x299的产品序列大致也迭代了三代。抛去冠以i5/i7名头的7640x/7820x/9800x这些,我们主要关心的是标以至尊级的i9序列产品,即7900x-7980xe这一代的skl-x,9900x-9980xe这一代的skl-x refresh,以及10900x-10980xe这代的cascade lake-x。前两个的步进都是4(也就是说晶圆本体是一模一样的东西),区别仅仅在于refresh的九代hedt把导热材料从祖传牙膏换成了钎焊,以及把7900x的完整lcc die换成了9900x的阉割版hccdie,导致9900x的缓存性能相比7900x出现小幅下降。csl-x的步进是7,作为匆忙推出来应付Matisse的凶猛攻势的产物,pcie通道数由44增加至48,新增用于低延迟推断的avx512 vnni指令集,平均体质相比前两代也有了明显提升。目前来大船的主要是skl-x这一代,截止至发贴时7900x约1400,7920x约1500,7940x已经跌破1700,7960x直接冲破2000,7980xe则还在3000左右挣扎。9代和10代由于生命周期还没过去,加之钎焊导热在不明真相的吃瓜群众眼里还有点逼格,其价格目前还在勉强死撑,但大水冲垮龙王庙也只是个时间问题。
面对潮水般汹涌而来的大船skl-x,主流的玩法基本分为两派。一派是随便拿个丐板默认使用,几千块钱就能搞定的情况下本身也是个不错的家用机与工作站;另一派则是开盖液金三超(超北桥/超内存/超核心)使用。个人倾向于后一种,毕竟祖传14nm的超频潜力实在可观。即使不追求打造全核5g/mesh3.3g/内存四通道4000+的恐怖怪物,开盖上液金之后拿个顶级风冷压在全核4.5g/mesh3.2g/内存3600+实测问题还是不大的,对同价位的单路至强铂金和Matisse基本都是碾压优势,非常划算。体质与价钱相近的情况下同档次推荐顺序分别为7代>9代>10代,除开7代硅脂导热便于清理更换液金的因素,10代砍去了对于日常应用与科学计算领域具有相当影响的tsx指令集也是个减分点(幽灵熔断的不幸牺牲者×2),而多出来的4条pcie和avx512 vnni指令集对于100%的计算化学工作者和99.9%的化学信息学工作者来说都缺乏意义。但就平均体质而言10代比7代要强,因此这个见仁见智。
特别说明的是,对于所有x299cpu,无特殊情况一律建议开盖换液金,包括钎焊导热的9980xe/10980xe那些;牙膏厂的钎焊是硬度较低的铟合金,拿指甲都能刮下来的那种,导热性能不仅不如液态金属,冷却过程中由于液固相变体积收缩还容易在die与顶盖的空隙间留下空洞。本人现有大型分体水冷的10980xe工作站一台,第一次组装时cpu仅能跑在全核45倍频,后面加钱换了个体质好的也只能压在46倍频,满载工作时核心之间温差常常在10度以上,排查冷头水泵冷排散热等各部分后均无明显改善。怒而上开盖器后,赫然发现那层白得发惨的钎焊层之间,布满了密密麻麻的小空洞和几个较大的空泡,其下部分的die完全没和那层铟金属接触到,由此可见牙膏厂所谓“高级导热介质“的质量。如果顾及质保,盒装的9系和10系可以考虑不急着开;但如果你打算上这批腰斩的7系,那么本来就没质保的玩意怕他作甚?
参考配置单(1):默频使用配置 cpu7940x散片 约1700元 主板 微星 x299 raider 约1000元 其他支持44lane的便宜板子也都可以 内存 酷兽2666 16g×4 约900元 散热 九州风神大霜塔 219元 电源 长城巨龙1250w矿机拆机电源 约190元 机箱 本地电脑城随便捡个atx中塔 50元 硬盘 pm981a 512g+hgst 3t拆机盘380元+243元 显卡 亮机750ti 约250元 共计 4932元 默频使用,开不开盖都行
参考配置单(2):超频配置 cpu 7960x散片 约2000元 主板 evga x299 dark 约1600元 相近价位可替换为华硕r6a或者其他双8pin供电的旗舰板 内存 科赋bolt x 3600c18 djr颗粒16g×2套条 买两盒共64g 约780元×2 对自己能力比较自信的也可以拿各种cjr普条马甲条自己超,基本盘也有3600 这里给个省事的。当然DJR体质比CJR要强还能往上拉,而且也就贵几十块 散热 九州风神阿萨辛三代 天猫双12 599元 只考虑风冷。需要这个贴子的上水怕是必翻,会整分体水的也不需要我这配置单 电源 长城巨龙1250w矿机拆机电源 约190元 机箱 先马坦克3 天猫双十二券后239 硬盘 pm981a 512g+hgst 3t拆机盘 380元+243元 显卡 亮机750ti 约250元 共计 7061元,另加上78元酷冷博一代液金+约200元开盖器套装。 怕自己手抖的话tb上也有接收费开盖换液金的,我是自己开 基本盘超到4.5g全核/3.0g缓存/3600mhz的内存是没问题的。avx2 offset看着给,只用高斯的avx512 offset可以调低。(vasp能用上,散热范围内尽量拉高)
参考配置单(3):itx便携配置 主板 华擎x299e itx/ac 零售尾货约1200元 cpu 7960x 散片2000元 机箱 SGPC k70 129元 +风扇套装59元 散热 银箭130plus 399元 内存 三星bdie sodimm 2133 16g×4 约350元×4 可能不太好找,加压直接拉到3200 电源 侨威600w非模组sfx 349元 硬盘 pm981a 256g×3+hgst 2.5寸盘1t 约230×4 显卡 亮机卡rx574矿卡 约500元 共计 6956元,同样加上78元酷冷博一代液金+约200元开盖器套装 这套配置的超频幅度肯定不能和上一套比,基本全核40-42倍频左右就是极限
以上三个配置中的cpu可根据个人预算灵活替换
四 Server篇
前排预警:严禁任何新手小白自行购买安装LGA3647平台,严禁任何新手小白自行购买安装LGA3647平台,严禁任何新手小白自行购买安装LGA3647平台,重说三!!!LGA3647平台由于其安装特殊性,新手小白安装过程中大力出奇迹折弯基板/划掉电容/搞弯底座针脚等事故层出不穷。外加卖CPU奸商习惯看菜下饭看人卖货,常将各种补过电容/imc体质差/内存掉通道/硅脂流失的问题U卖给看起来啥都不懂的非玩家;这些CPU光是点亮看不出任何问题,真正使用过程中出现蓝屏死机温度过高内存加不上系统报错等问题后又会以售后过期等各种理由推诿,特别是一旦小白安装过程不规范致使CPU表面出现物理损伤,则奸商更会借口借题发挥,维权更是难上加难,白白损失大几千乃至上万。因此除非你自己有相关经验或是能找到有相关经验的圈内玩家,尽可能直接向商家购买组装好的整机,这样出任何问题你都直接去找他们负责。本文不对任何商家做出推荐,给出的配置单也不作为小白作死自己装机的依据,仅在各位对商家给出的配置单与报价的合理性进行评估时提供参考。
表中推荐顺序自上而下排列,以下不再赘述。
在选择cpu的思路上,可以大约遵循以下几个原则,按重要性高低分列如下:①高全核满载。由于同架构cpu的性能大致可以用核心数×全核满载频率进行比较,因而全核满载高的优势显而易见(但要注意不同架构的cpu不能这么比,如x79(c602)/x999(c612)/zen这些老架构显然不如skl),并且如果使用了能拉外频的主板这种优势会被进一步放大;②高tdp。由于服务器平台的cpu性能表现受到功耗限制,功耗越低的cpu在实际运行过程中越容易碰到功耗墙而降频,比如北桥负载上升或者出现avx负载的情况(这也就是为什么在部分渲染类测试中全核3.1的8259L常常比全核3.3的8268es强一小截。顺便表中185w的8171m qs版本在高负载状态下可能比表面参数一致的205w的8171m/8172m更早出现降频,只运行半分钟不到的CR15等渲染类测试软件通常是体现不出这种情况的);③多核心数。毕竟用至强平台图的就是双路平台下的全核性能,考虑到板子价格不菲,16核以下组双路性价比很低(不如挑个体质好点的7980xe超频),那些8核的金牌银牌铜牌则可直接归入电子垃圾范畴;④核心数尽量选择24核的那些。对于大多数人来说高斯算是绕不开的一个软件,而官方的标准配置就是一个核对应4g内存,24核的至强用16g内存插满6通道就刚好满足。
具体到cpu型号上,上表所推荐的那些在当下以及未来一段时间内都是综合了性能与价格要素的最优考虑。但也有一些不在上表内却常常在论坛中被提及的型号,在这里本人也稍作点评。首先是以8276m/8173m/8260m为代表的一系列多核低tdp正式版cpu,由于是高核心数正式版/正显版,常常被商家拿来推荐;但考虑到多核调度问题,这种核多满载频率低的cpu实际性能往往十分低劣,尤其是遇到avx负载的时候,性能瞬间降到电子垃圾级别,完全对不起其高昂的售价,故不在任何情况下推荐。其次是以8175m/8179m为代表的一系列240w高功耗,但满载基本在3.0-3.1左右,睿频3.5的cpu。这些u的性能大致可以参考上表中的8259L,但单价目前也比8259L贵出1000以上,显然不太划算,故暂时不做推荐。第三是以6139m/8260es/6240es为代表的一些大量出货版qs与高步进es,这些u我本来想把他们列入表内,但查询价格后发现其价格最近都有小幅上涨,与表中列出cpu相比显得不很划算,故亦不做推荐。第四是以8180正式版/8280各种正显正式版/8275CL/8279W/8274/8284/6154/6254为代表的这些顶级序列cpu,售价均在万元以上,有的可能还接近2w元,使得他们性价比不很突出,但如果你想要比表中所列cpu更强的单节点性能其实也没得选。需要指出的是8274和8284两个u均为240wtdp的高功耗cpu,而其Tjmax仅为65℃,低于其他型号的cpu,散热设施做不好的话分分钟降频。因此如果你选购了这两个型号,务必让卖家在发货前做好烤机测试保证运行过程中不出现撞温度墙降频情况。
主板选购时一般商家会推荐超微的X11系列衍生品,如X11dai-n或x11dpi-nt等,价格均在3000-3200左右;但我个人比较反感超微,主要原因在于其不支持205w以上的高功耗cpu,不支持8171m/8172m等定制版cpu,最近还把步进5的微码从bios中删掉了,这样一来很多实惠的cpu便与这块主板无缘,除非卖家能保证这块主板能点亮你手头205w以内的步进4/6/7的cpu,否则不作推荐。相较之下永擎的3647主板就厚道很多,如ep2c621d16-4LU或ep2c621d12ws,基本支持所有市面上你见得到的一代二代至强正式正显不显版,功耗不限,后者甚至还允许你拉点外频;代价仅仅只是报价上可能比超微主板贵出六七百,由此带来的宽得多的选择余地显然是值得的。至于华硕技嘉那些主板使用的人较少,价格也没有优势,有的甚至还只砍了cpu6通道中的两个,万一碰到问题往往卖家自己也不知道该怎么处理,故不做推荐。同理适用于某鱼上最近很火的“亚马逊3647拆机主板”,这玩意虽然便宜(约800-1200),但原生不支持大部分你能叫得上名字的cpu(似乎是为步进3那批准备的),大部分卖家都是回收之后自己琢磨魔改bios才能点亮,水平各有差异,难免出现掉盘掉内存cpu锁死功耗跑不满不睿频等各种乱七八糟小bug,给玩家折腾下还行,正常人用得烦死。以及不要高估这些cpu卖家的专业水准,他们装机子魔改bios很多时候能不把cpu搞坏正常点亮装上win10家庭版跑个r15就已经阿弥陀佛万事大吉;让这帮子受教育程度平均偏低的人去解决linux下出现的各种微码识别驱动适配显然是强人所难,更不消说让你的cpu发挥出最大性能满血满状态工作了。本人常常帮身边亲朋好友装工作站,采购cpu时遇上的野鸡卖家通常文化程度差一问三不知素质还低下,让他进bios改个选项调个电压或者跑个稳定性测试,人家干脆说我不认识英文不会改,只知道死记硬背所谓“标准测试流程”,有的handle不过来干脆让你关闭订单宁可不做这生意,实属心累。之后就宁可加价跟圈内玩家买了,至少沟通起来顺利些。
另外对于3647平台,由于最早一批产品保修期已过,加之受到Vermeer发布的冲击,先前高高在上的大火炉W-3175X价格瞬间腰斩,截止至目前已跌至7500左右,已经是一个非常划算的选择了。这块cpu功耗255w,最高睿频4.2全核满载3.8,配合epc621d8a或itx平台的epc621d4i-2m默频下使用已经相当不错;并且本身不锁倍频,配合4500-5000价位的永擎wc621d8a-2t主板与大型分体水或冷水机分分钟超上全核5.0,性能超越绝大部分双路3647,真正意义上的以一敌二,在需要兼顾单核性能与单节点全核性能的情况下确实是不二之选。至于定位类似的其他Xeon-W序列的cpu,不管是基于1151与1200接口的E-2100/E-2200/W-1000序列,还是基于2066接口的W-2100/W-2200序列或同样基于LGA3647接口的W3275m/3265m/3245等,由于其单节点性能无法与双路3647甚至是超频后的x299相比,价格又往往高高在上,故在此不作任何推荐。
以下给出一系列参考配置,以纯配件价格为标准,不含手工费服务费咨询费发票税费等。再次强调,给出的配置单不作为小白作死自己装机的依据,仅在各位对商家给出的配置单与报价的合理性进行评估时提供参考。
参考配置单(1):标准计算化学工作站 cpu 8268es 睿频3.7全核3.3 3500元×2 主板 永擎ep2c621d12ws 约3800元 内存 ddr4 16g rdimm 约220元×12 品牌不限,频率不限,哪个便宜买哪个。但颗粒必须一致,能拉多少看天 同价位优先选择三星bdie、镁光c9bjz/c9bkv/d9vpp、海力士cjr/djr等超频颗粒 硬盘 三星pm981a 512g 约380元×2 也可以用1t的(约700元),装系统时两条固态组成raid0加快读写速度 散热 6热管金钱豹 239元×2 电源 长城巨龙1250w矿机拆机电源约190元 机箱 先马坦克3 天猫双十二券后239 追求静音可用先马黑洞5,但是需要改铜柱孔位 共计15107元,机械盘和显卡看情况加,外频看着拉,一般102-103内微调 cpu可酌情替换为推荐列表里的其他cpu,务必要求店家做好南桥芯片和vrm的散热
参考配置单(2):高频水冷工作站 cpu 3175x 约7500 主板 wc621d8a-2t 约5000 内存 ddr4 16g rdimm 约220元×6 wc621d8a-2t不支持给内存加压,频率最高到3200。同样优先选择超频颗粒。 硬盘 pm983 960g 约600元×2 同样组成raid0加快读写速度 电源 长城巨龙1250w矿机拆机电源约190元 另需显卡6+2pin转cpu4+4pin转接线一条,让店家配即可 冷头 欧酷xpx pro 双12约366元 以上总计15576元。机箱与水冷方案看个人喜好,可选用360+480冷排+双d5泵的大型分体水或直接上800w北海冰神冷水机,成套方案一般控制在4000以内。3175x超频设置与x299类似,但由于28核的xcc die拓扑结构较复杂,vccio/vccsa/uncore offset/北桥电压/核心电压等参数通常略高于原生18核的hccdie。另外由于xcc die面积较大,硅脂散热不构成瓶颈,因此通常不需要开盖。这点与7980xe等不同。
也可搭配epc621d8a主板默频使用,或搭配ep621d4i-2m主板组建itx方案。后者原生4通道(6通道的epc621d6i未投产),已有高人魔改为满血6通道配置,搭配风冷或定制一体式冷头方案均可,有需要者留言,在此不再赘述。
听说有个A开头的sb软件按核心数收费?哈哈
五 聊聊skylake和他的小伙伴们
作为2015年下半年就推出的老架构,skylake一路扛了五年。伴随着英特尔tick-tock策略的终结,核心数的一路增加,14nm DUV工艺的日臻精进与频率的一路狂飙,以及钎焊的失而复得,初代skylake-s的6700k回首望去,已是今天的十代i3。从诞生之初的出道即巅峰,到zen1时的背后一凉,再到zen2推出时的墙倒众人推和如今zen3推出后的万人唾骂;skylake曾手握酷睿系列的接力棒立于巅峰,而今也不得不吞下牙膏厂阿三高管决策失误的苦果,在“火炉”“挤破牙膏管”“高频低能”的讥笑声中迎来自己生命周期的终结。试想如果在2018年出来迎战2700x的是4.2g的sunny cove而非8核全核5.0g的9900k,或许10nm superfin加持的多核willow cove就能如期飙上4.8g出来迎战zen3,继续稳坐单核性能与高ipc的宝座。而skylake将如他的前辈们一般,作为英特尔压着amd打的又一里程碑被人们铭记着。
可惜,历史没有如果。青山遮不住,毕竟东流去。扛住zen架构的凶猛攻势达五年之久,本身也说明了skylake的经典;但在tigerlake已经上市、rocket lake-s蓄势待发、icelake-sp陆续供货的如今,从移动端到桌面端再到服务器端的继任者都已做好了登上擂台迎战zen3的准备,也是时候给skylake盖棺定论了。
MSDT产品线上可讲的其实不多,毕竟skl-s这一生从上市到退役,基本都没有离开过聚光灯下。从之前相较于1400x的高端选择,到如今在5600x两千多的高价下凸显出的性价比,如今的skylake可以说是告别了桌面的高端领域,而是作为某种廉价的办公机或者入门工作机而存在。由于zen/zen+本身已是老迈不堪且缺乏支持的架构,而zen2推出仅一年,尚未到大规模掉价的时候,skl不论选择盒装正式版套装还是玩一手魔改不显u,都是廉价办公机与简单计算的一个好选择,可以说对面红队在这方面暂时是个空白。
HEDT和server方面,x299(c621)与之前的x99(c612)相比,除去六通道内存和mesh总线的引入外,一个重要的变化是引入了avx512系列指令集,并且对不同的浮点负载都给出了相应的offset。在haswell-ep最初引入avx2指令集时,牙膏就发现如果让avx2浮点指令与整数指令在相同的频率下执行,那么功耗会大大超标;但此时haswell-ep已经设计完成,因此牙膏选择了一个鸡贼的方法——即以avx2浮点负载下的频率为基准,强制整数负载也在该频率下运行,这实际上是在一定程度上浪费了cpu给出的功耗允许值。后来E5v3系cpu的“鸡血”玩法(通过修改bios使整数负载能跑满所给tdp,运行avx2浮点负载时功耗则在一定范围内提升)即来源于此。举个例子,一个E5 2686v4的cpu在运行avx2编译的vasp时,频率会稳定保持在2.7g,不论是执行整数计算还是浮点计算;而一个8268es的铂金cpu可能就会在3.3g(整数全核频率)和2.8g(avx2 offset下的全核频率)之间来回波动。这种情况下与其说8268es 3.3g的整数全核满载频率“极具误导性”,不如说是2686v4的整数负载从一开始就被人为限制了,发挥不出最大性能。习惯上仅关注整数全核负载、对至关重要的avx offset不作说明的做法确有不妥,但由此指责sse满载频率只是“听上去很美好”无疑是荒唐可笑的。在x299和一代3647已经大规模降价的如今,只要预算不是特别拮据,可以断言E5v2/v3已经不再具有作为计算化学工作平台的价值了;至于E5v4,那就是彻头彻尾的电子垃圾,不论从前还是现在还是今后都不值得买。
很多人可能会关注对面的zen2。毕竟刚刚推出的时候,zen2打爆skylake狗头的宣传可以说是铺天盖地,什么3950x(PBO on)“越级强杀”9980xe(默频)之类,不一而足。对于这类言论我已经反驳过太多次,以至于现在再见到已经没有任何耐心,但在此还是打算认真讨论一下。就笔者这边而言,综合各种渠道和各种用途的用户一年半间的使用反馈,可以明显地发现所谓【zen2的ipc强于skylake个位数百分点(从4%到9%不等,说法各异)】这一论调主要集中在购买6-8核处理器用于游戏、办公、轻度生产力的人群范围内,以牙膏厂的9400f-zen2的3600这个范围内的用户作为主力,测试依据也以游戏或是三级缓存调用较为激进的渲染类测试为主。但当对算力的需求与运算本身的复杂度趋向无穷大时,epyc/线程撕裂者与相应规格的LGA3647cpu相比就会露出疲态,甚至于在部分以商业用途的工程文件为基准的渲染测试中都出现了超频全核3.8的64核3990x被共48核满载3.6的双路8275CL吊锤的情况;此时LGA4094平台表现出来的ipc就大幅度落后于LGA3647平台了。
考察这两种架构的不同之处,当中原因其实不难理解:与各个核心/imc/qpi由mesh总线连接在同一个die上的skl-x/skl-sp相比,zen2架构io die与ccx分离的设计确实降低了成本方便堆核,但这种成本的降低其实是以内存/缓存的延迟与共享作为代价的。当核心数较少且执行的指令以单纯加法/单纯乘法为主、并且不产生对内存的频繁大规模访问(即不超出L3的buffer能力)时,zen2核心乘法器/加法器单元分离的特点就发挥出优势,这也是绝大多数办公软件与游戏的应用场景。但在大部分科学计算场景中,针对FMA单元的指令优化基本是标配,zen2分离乘加单元的设计带来的单核ipc优势就会被抹平甚至逆转;且当并行线程数与内存访问频率上升时,io die分离带来的巨大核心通讯延迟与内存访问延迟都将使得缓存与内存的命中率急剧下降,核心等待数据的时钟数激增,实际表现相较理论上的理想情况也就进一步下降。相比之下mesh总线不仅带宽更高,随着核心数的增加也尚能较好地控制住通讯延迟与访存延迟的增长(这也就是【可扩展至强】中【可扩展】一词的来源),并且qpi总线的存在也使得双路乃至四路的跨socket通讯更为从容(相比之下双路rome的效率损耗简直可以用惨不忍睹来形容)。家用的AM4平台上缓存设置较为激进,且可以通过超fclk并压缩内存时序来在一定程度上进行缓解(虽然依然受制于格罗方德的垃圾工艺且仍旧无法和skl-s或skl-x相比),然而在epyc平台上想要进行这样的操作几乎不可能。故对于zen2与skl-sp的选择思路可以概括如下:zen2的单线程表现在轻量级应用中与skl互有优劣,整体大致持平;但随着并行线程数的上升、算力消耗的扩大与代码的深度优化,zen2的实际效率相对skl将会出现幅度可观的衰减。当然可能有人会考虑在rome的节点上绑定对应物理ccd加载数个任务同时计算,对此我们可以算一笔账:
参考配置单:尽可能便宜的单路64核rome工作站 CPU:epyc 7742qs不显 b0步进12599元 选这玩意出来是因为它报价最低,正式版同步进 主板:超微h11ssl-I 1999元 内存:rdimm 32g 2133p 约455元×8 同理能拉多高看天 硬盘:pm983 960g 约600元 散热:6热管金钱豹SP3版 199元 电源:长城巨龙1250w矿机拆机电源 约190元 机箱:先马坦克3 天猫双十二券后239 64c128t满载2.8g,鉴于主板供电规模与散热器解热上限就不整rome不显超频这种花活了。共计19466元,差不多可以买8台MSDT篇中的8c16t满载4.4g的qqls主机。
自己看咯。非要整个把【8核算力】之类的指标论证rome值得买的话,只能说有钱难买爷开心,自己高兴就好对吧。顺便再次强调LGA4094这个插座及其散热器安装极其阴间,严禁新手小白自行组装,一个手抖分分钟搞坏板U。这套配置除了CFD/下棋软件/挖门罗币等少数特殊用途外不推荐任何人购买,有需要的话务必找店家买整机,方便售后处理。
所以对于打游戏的朋友个人一般无脑推荐3500x-3800x之类的家用级zen2,但考虑到这篇文章针对的是有着实打实科研需求的用户群体,那么选择已然清晰明了;加之skl-x大船已经下压到一个恐怖的价位,可以说3900x/3950x在下探到1500/2500元左右之前,已经没有任何选择的必要了。TR3000与rome处理器的情况类似,尽管本身的产品力并不能说差(残废CPU 3990x除外),但在铺天盖地大船至强不显正显正式版面前竞争力实在是低下,现阶段没有考虑他们的必要。
类似的思路可用于推测zen3家族随核心数增长的性能表现。根据AMD官方放出的ppt,桌面级上Vermeer相对于Matisse的19%ipc提升中,Cache Prefetching、Micro-op Cache与Load/Store这三项的贡献(通俗但不精确的说法就是加大单核访问的L3规模并令其调度更为激进)就占了约一半,而server端的Milan在其工作环境下吃到这几项福利的概率显然是不大的;据流出的Milan qs的实际生产力测试显示,其相对同级别rome的提升约在10%左右,也印证了如上分析。笔者亦有采购zen3处理器用于计算化学实际应用测评的打算,奈何5950x被黄牛炒出8000+天价,有这个钱还不如等一手epyc 75F3的qs样品流出是真。至于LGA4189的icelake(copperlake可以简单看作多了两条内存通道换了个接口的skl-sp),目前流出的仅有少量早期步进版本,正显/正式版及其配套主板至少还有大半年才能进入零售渠道,尚缺乏参考价值足够的测试数据。虽然缺乏Superfin工艺加持的10nm牙膏高频性能注定不如tsmc已经迭代多轮的7nm DUV工艺,但鉴于server平台本身也不会强求高频,由mesh连接在单die上的icelake-sp至少在XCCdie这个级别的核心数(约28-38c)上还是可以期待其对相应规格milan的个位数百分点优势的。Rocket lake的话,新架构+高频工艺在家用平台上或许会是个不错的玩具,但生产力领域显然就没有这种价格注定不会太低的桌面U什么事了。三千多块起步的的CPU配合两三千的旗舰Z490板子才带个8核,说难听点,够干啥的?(手动狗头)
再往后的话,就是ddr5的世代了。PPT上的zen4与才暴露早期es版本谍照的Alder lake和Sapphire raids各有千秋、异彩纷呈,也值得爱好者们抱着一份积极的心态去期待下一个十年的开头会带给CPU领域怎样的惊喜,正如2011年sandybridge登场后的那一大波爆发一般。
2020年对于世界而言是个多事之秋,对于硬件爱好者圈子而言也是见证动荡与变革的一年。红厂的强势崛起与蓝厂的奋力抵抗昭示着CPU领域的革新大潮方兴未艾,而年迈的skylake家族在这波浪潮面前纵使心有不甘,终究也是步履蹒跚。但在褪去往昔性能第一梯队的光环之后,与一U难求的新贵zen3和神龙见首不见尾的icelake相比,竟也能显出几分和蔼亲民了;既然距离新一代平台大规模铺货尚有时日,那么暂且接纳一下这些廉价而尚且堪用的老家伙们发挥余热,算算数据发发文章,其实也未尝不可。
如果你正有此意,那么希望这封说短不短说长不长的介绍信,能为你提供一些助力。
分割线分割线分割线
Supporting Information-关于zen2的实际应用效率问题
这玩意本来我不想写,毕竟公社里发图挺麻烦;而且这里是计算化学公社不是土豪论坛chh或者smxdiy,搁这儿blabla一堆cpu测评数据跟公社讨论主题实在是关联度不大,所以干脆就只说结论了。但鉴于有人质疑,那么俺姑且把手边的测评数据放一部分出来,聊作参考。质疑的那位老兄看到这里麻烦按照每千字200元+每张图10元的标准给sob大转钱,用于公社服务器硬盘空间租赁;不然无端post这么一大段无关内容上来给人添麻烦我也过意不去。
前排感谢chh兰总提供的测试数据,在此预祝他早日收到MIT的offer。
1. 关于zen2与skl的核间通讯延迟对比
丢图表上来比什么废话都有用
Inter-core ping latency如图,可见ring总线连接的9900k(22ns左右)和2690v3(35ns左右)都保持在了一个很低的水平;mesh总线连接的8275CL整体也将24个核心之间的通讯延迟压在了40-50ns范围内,波动范围不大,显示出了较好的一致性;而3700x的延迟范围明显地分为两组,7R32更是分为三组,这是由zen2的结构所决定的:4核为一个ccx,四个ccx为一个node,ccx内、跨ccx、跨node的延迟则依次上升。图中可见即使是总线调度已经较为激进的桌面级3700x,其核心跨ccx通讯延迟也在88ns左右;而7R32的跨ccx与跨node延迟分步在120ns-150ns左右,这一数值甚至高于二代至强可扩展的跨socket通信延迟(图中双路8272CL,约140ns左右)。至于rome的跨socket延迟......画美不看(这也就是为什么铂金可以做四路八路乃至64路,epyc一个节点只能双路)。所以常有人指责48-64核心的epyc(包括3990x)本质上是【假单路】,看起来单个CPU里面装着64核,其实通信延迟比人家双路CPU都高,除了加大散热难度以外有意思么?通讯延迟过高带来的问题在正文中已提及过,在此不再赘述。桌面级轻量应用中确实可以让OS通过优先调度同一个ccx内的核心来尽可能减少这个问题的影响,但......科学计算诶,你还想不调用全核?
2. 实际应用效率问题
上图为一位热心网友提供的对一个3Dsmax实际渲染工程的效率比较图,左图中缺一个双路8275CL的数据(制表时数据该尚未汇总),具体多少忘了,但暴打最右侧OC 3.9的3990x不成任何问题(双8275CL约比双8259L强16%,不难推算)。右图为渲染时间与核心数及全核满载频率(对牙膏U而言存在avx offset问题,在此例中监控任务管理器取平均值)的乘积,数值越低则单核单位频率渲染效率越高;从中可明显看出核心通讯延迟对ipc的影响,进一步验证了正文中提到的【zen2实际效率随并行线程数上升衰减更为明显】的现象。这还是并行度较好的渲染运算,当进行其他科学运算时这种差距只会进一步拉大。
3. 内存延迟问题
这个问题在这里拿出来说其实有点不严谨,毕竟内存延迟与内存频率、主板做工、bios调教和内存颗粒体质都是强相关的,这里只由个人体验谈一下cpu imc的影响问题。在此选用本人经手过的两套平台——x299上的10980xe不显(QSU1,步进7)和AM4上的3900x,内存都是科赋CJR颗粒的2666mhz 16G普条,外带散热装甲。 X299平台的主板是evga的x299 dark,这个主板超内存能力其实仅在中游水平,手里这颗U的imc体质也不咋地,1.055v mesh/1.155v io/1.005v sa/uncore offset+500mv的情况下仅能跑在31倍频(一般7980xe的mesh都能在1.2v内跑上32倍频),内存参数是3800c17-18-20-32-CR1,trfc476,内存延迟约57ns。AM4主板选用ROG strix x570i(超内存最强AM4主板,不接受拿C8i出来杠),CPU是特挑大雕3900x,fclk1900,参数是3800c16-20-22-38-CR1,trc62,trfc513,其他没提到的全放auto。反复调教后内存延迟在65ns左右,基本对于这条子和这个平台而言都是极限了。由此可见对于同样的内存而言,x299平台CPU的内存通讯延迟基本一定低于AM4;而基于skl-x与skl-sp总线拓扑结构的相似性和epyc相较于am4更为复杂的北桥结构(以及更落后的工艺),不难推断出在内存参数一致的条件下,rome的内存延迟注定远高于C621平台。内存延迟的影响之前也有论述过,看到这里相信大家心里都已经有数了。
最后跟楼下质疑的老哥说一声,其他测试数据和不同使用人群的使用体验我这还有,囿于篇幅问题就不一一论述了。不贴数据只是因为跟公社的讨论主题没啥直接联系,您都明白的事情我没数据会开口乱说?合着其他人在您眼里都是信口雌黄的小白了,【也是厉害】。お言葉返します
|