计算化学公社

标题: 有用过国产硬件的大佬吗,体验如何 [打印本页]

作者
Author:
Aletyx    时间: 2024-2-21 14:18
标题: 有用过国产硬件的大佬吗,体验如何
本帖最后由 Aletyx 于 2024-2-22 17:55 编辑

最近老板让调研下国产硬件,主要用途:DeepMD-kit训练、AI大模型推理和微调。我联系了华为的销售,他们现在的Altas 300I pro和Atlas 300I duo价格大概在1w-3w,纸面性能介于V100-A100之间,号称兼容TensorFlow和Pytorch。

有高手用过或调研过国产硬件的吗,体验如何呢?各种软件部署起来麻烦吗。

作者
Author:
abin    时间: 2024-2-21 20:31
如果出资方要求或者指定用华为,
你就没得选了……

一般而言,
物美又价廉,是不可能的。
天底下哪有这样的好事。

作者
Author:
Aletyx    时间: 2024-2-21 23:56
abin 发表于 2024-2-21 20:31
如果出资方要求或者指定用华为,
你就没得选了……

谢谢大佬指点!老板说要用国产,但没有指定品牌。

请问您有体验过国产芯片(CPU和GPU)吗,如果有的话,可否请您分享一下使用体验呢。
作者
Author:
Entropy.S.I    时间: 2024-2-22 05:28
我很想测试国产硬件,但是几乎完全找不到技术资料,无从下手。可能是被红绿蓝三家惯坏了,他们的技术文档都非常详细地公开,且非常容易获取,类似于NVIDIA每一代GPU架构的白皮书、DGX和DGX超级计算机系统的架构,以及AMD每一代架构的白皮书和指令集参考指南、不同scenario/workload的性能调优指南等。

国产硬件可能只能依靠人脉关系才能要到这类技术资料。
作者
Author:
无极Chem    时间: 2024-2-22 15:33
用过海光的DCU超算,软件是vasp,确实很快。它的modules里也有deepmd。用的好像是amd的gpu技术,叫什么gpgpu(应该)。曙光好像还搞过比赛,就是编译软件,还有论坛呢。不过不知道是否卖给个人。国产硬件部署软件确实很麻烦。确实个人觉得x86比risc好。说的有点乱,见谅。
作者
Author:
Aletyx    时间: 2024-2-22 15:39
Entropy.S.I 发表于 2024-2-22 05:28
我很想测试国产硬件,但是几乎完全找不到技术资料,无从下手。可能是被红绿蓝三家惯坏了,他们的技术文档都 ...

感谢大佬的回复!国产硬件确实资料很少。我在附件上传了华为销售发的PDF资料,您可以阅读一下。

另外,如果我们组购置了国产硬件,到时候可以请您来进行benchmark吗?
作者
Author:
Aletyx    时间: 2024-2-22 15:42
无极Chem 发表于 2024-2-22 15:33
用过海光的DCU超算,软件是vasp,确实很快。它的modules里也有deepmd。用的好像是amd的gpu技术,叫什么gpgp ...

感谢您的回复,非常有指导价值!我现在去调研下海光的机器。

曙光搞的那个编译比赛我还参加过,当时我选的项目是CP2K,但不是在国产硬件上编译的,是在Intel平台上搞的。
作者
Author:
Entropy.S.I    时间: 2024-2-22 17:46
本帖最后由 Entropy.S.I 于 2024-2-22 18:01 编辑
Aletyx 发表于 2024-2-22 15:39
感谢大佬的回复!国产硬件确实资料很少。我在附件上传了华为销售发的PDF资料,您可以阅读一下。

另外 ...

PPT左下角标注着"Huawei Proprietary - Restricted Distribution"和"Huawei Confidential"你也直接公开出来,有点大胆的…

从这份PDF里面可以看到一部分训练机的单节点内部架构,但是没有提到任何关于芯片本身架构(虽然可以猜到大概率是DaVinci架构的Ascend 910B)和集群架构的技术内容。

至于你说的Atlas 300I Pro和Atlas 300I Pro Duo,这俩是推理卡,没有高速互联,就别想着拿来跑训练了,效率感人。文档里也没提到Atlas 300I Pro Duo内部2片核心的片间互联方案。

如果你们有足够的经费(数百万甚至更多),且有能力自己基于MindSpore框架搓一套模型,那么可以买若干台训练机组建全互联集群,并另购一些推理卡,来做你们的项目。不过在这之前还是请你们搞清楚折腾AI的目的,在泡沫高涨时期贸然涌入不是什么好主意。

至于benchmark,AI如此热门,有大量其他人可以做得比我更专业,当然,如果愿意免费给我玩玩,那我会很开心的。

最后,我还是不要脸地推销一下最近在折腾的东西:白菜价8卡/56卡/280卡V100 SXM2服务器/集群。单机架构参考DGX-1 V100,不同点是8块GPU被分为2个NVLink full-mesh互联的group,除从GPU模组引出4片100G EDR IB外还从Host额外引出1片100G EDR IB。这样的架构其实更适合HPC,而且我折腾这东西的本意就是跑VASP、QE、LAMMPS ReaxFF等吃双精度的科学计算应用。当然,跑训练/微调也不错)。集群架构参考DGX A100 SuperPOD。单机实际性能(可能)比DGX-1 V100高,因为我选用的CPU低压力满载per-core性能是DGX-1所用CPU的将近2倍,而在我的实际测试中VASP的GPU加速非常吃CPU per-core性能,多少百分比的CPU per-core性能差异基本上对应多少百分比的最终速度差异。至于价格…56x V100 16G SXM2集群预计卖28.8万,含全NVMe存储节点和UPS。机箱和一些其他需要定制的东西还没搞定,所以是期货状态。单个节点的搭建成本就需要2.7-3万,所以其实我自己基本赚不了钱,只能养活一下运营这个项目的团队了,本人主要目的还是来颠(福)覆(利)一下广大搞计算化学/计算材料学/计算生物物理的苦B科研狗,实在是看不下去黄狗卖天价卡了。
作者
Author:
Aletyx    时间: 2024-2-22 18:01
Entropy.S.I 发表于 2024-2-22 17:46
PPT左下角标注着"Huawei Proprietary - Restricted Distribution"和"Huawei Confidential"你也直接公开出 ...

谢谢大佬提醒,我已经从附件删除了。
作者
Author:
nemolee    时间: 2024-2-22 21:28
无极Chem 发表于 2024-2-22 15:33
用过海光的DCU超算,软件是vasp,确实很快。它的modules里也有deepmd。用的好像是amd的gpu技术,叫什么gpgp ...

之前测试DCU时发现跟计算体系、计算类型有关系(测试案例不够多),跟6分核时的8336C比较的话有时快有时慢,最后算价格的时候基本没感觉省钱,加上可靠性不如Intel最后就没采购。
(对方销售说他们的机器在vasp方面比较适合很大体系结构优化,可是我大体系用cp2k啊。。。)
作者
Author:
biogon    时间: 2024-3-21 16:05
nemolee 发表于 2024-2-22 21:28
之前测试DCU时发现跟计算体系、计算类型有关系(测试案例不够多),跟6分核时的8336C比较的话有时快有时 ...

cp2k支持amd的卡了,理论上支持dcu不存在障碍
作者
Author:
abin    时间: 2024-3-21 18:28
我的建议是,
无论买什么设备,首先要搞清楚,
自己的项目,在这硬件能否顺利工作?

如果以及搞不定软件,那么卖方能否提供全栈IT技术服务?

买传统平台,都是默认,
软件编译运行,有公开的资料可以找到。

一个简单的例子,如果你向cp2k或者vasp的开发者报告,
你在曙光DCU编译安装遇到麻烦,
希望帮忙……
我估计他们会回复你,没有你说的硬件,没法测试,没法提供协助。
当然了,曙光如果说,这玩意,轻轻松松搞定,而且后续的其他软件编译,也协助搞定,
只要价格何时,那就买买吧……

显然,前提是,这东西能用……价格不要太离谱。
作者
Author:
SAI    时间: 2024-3-21 18:42
Entropy.S.I 发表于 2024-2-22 17:46
PPT左下角标注着"Huawei Proprietary - Restricted Distribution"和"Huawei Confidential"你也直接公开出 ...

看您在另外帖子下的回复说V100大船靠岸,在这也见到您,请问您是有路子且在做这方面平台的生意吗?
作者
Author:
Entropy.S.I    时间: 2024-3-21 18:46
本帖最后由 Entropy.S.I 于 2024-3-21 18:48 编辑
SAI 发表于 2024-3-21 18:42
看您在另外帖子下的回复说V100大船靠岸,在这也见到您,请问您是有路子且在做这方面平台的生意吗?

最近刚刚做好批量出货的准备,http://bbs.keinsci.com/thread-34411-5-1.html 62楼

不过我没有囤V100。现在被某些奸商囤起来了,900的进货价,抬到1700+了,还不乐意卖。

做这种行当只能囤货,我本来计划囤一批把价格压住防止涨价,但是合作方拒绝。现在涨起来了,才开始着急。





欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3