|
本帖最后由 Entropy.S.I 于 2024-2-22 18:01 编辑
PPT左下角标注着"Huawei Proprietary - Restricted Distribution"和"Huawei Confidential"你也直接公开出来,有点大胆的…
从这份PDF里面可以看到一部分训练机的单节点内部架构,但是没有提到任何关于芯片本身架构(虽然可以猜到大概率是DaVinci架构的Ascend 910B)和集群架构的技术内容。
至于你说的Atlas 300I Pro和Atlas 300I Pro Duo,这俩是推理卡,没有高速互联,就别想着拿来跑训练了,效率感人。文档里也没提到Atlas 300I Pro Duo内部2片核心的片间互联方案。
如果你们有足够的经费(数百万甚至更多),且有能力自己基于MindSpore框架搓一套模型,那么可以买若干台训练机组建全互联集群,并另购一些推理卡,来做你们的项目。不过在这之前还是请你们搞清楚折腾AI的目的,在泡沫高涨时期贸然涌入不是什么好主意。
至于benchmark,AI如此热门,有大量其他人可以做得比我更专业,当然,如果愿意免费给我玩玩,那我会很开心的。
最后,我还是不要脸地推销一下最近在折腾的东西:白菜价8卡/56卡/280卡V100 SXM2服务器/集群。单机架构参考DGX-1 V100,不同点是8块GPU被分为2个NVLink full-mesh互联的group,除从GPU模组引出4片100G EDR IB外还从Host额外引出1片100G EDR IB。这样的架构其实更适合HPC,而且我折腾这东西的本意就是跑VASP、QE、LAMMPS ReaxFF等吃双精度的科学计算应用。当然,跑训练/微调也不错)。集群架构参考DGX A100 SuperPOD。单机实际性能(可能)比DGX-1 V100高,因为我选用的CPU低压力满载per-core性能是DGX-1所用CPU的将近2倍,而在我的实际测试中VASP的GPU加速非常吃CPU per-core性能,多少百分比的CPU per-core性能差异基本上对应多少百分比的最终速度差异。至于价格…56x V100 16G SXM2集群预计卖28.8万,含全NVMe存储节点和UPS。机箱和一些其他需要定制的东西还没搞定,所以是期货状态。单个节点的搭建成本就需要2.7-3万,所以其实我自己基本赚不了钱,只能养活一下运营这个项目的团队了,本人主要目的还是来颠(福)覆(利)一下广大搞计算化学/计算材料学/计算生物物理的苦B科研狗,实在是看不下去黄狗卖天价卡了。 |
|