本帖最后由 Entropy.S.I 于 2024-9-5 08:53 编辑
半年前我实施过一例PC集群:
配置如下:
1. 6台计算节点Type1:ASUS PRIME Z790 + 14700KF + RTX 4090D + 2*32GB DDR5 6400MT/s UDIMM + 1TB P44Pro + CX3 10GbE网卡 + 海韵Vertex GX1000 2. 1台计算节点Type2:ASUS ProArt Z790 + 14700KF + 2*RTX A6000 + NVLink-bridge + 4*32GB DDR5 5400MT/s UDIMM + 2TB P44Pro + CX3 10GbE网卡 + 振华LEADEX P2000W 3. 1台计算节点Type3:我开发的4*V100机架式服务器(8*V100的最高配置见 http://bbs.keinsci.com/thread-47879-1-1.html),Gigabyte MF51-ES3 + Xeon W-2135 + 4*32GB DDR4 2666MT/s ECC-RDIMM + 4*V100-SXM2-16G + AOM-SXMV底板 + CX3 40GbE网卡 + 定制PCIe连接线 + 定制机箱 + (4+1)*500W CRPS电源 5. 计算+存储+带内管理+带外管理融合网络:40G/10G/1G以太网(部分支持RDMA) 6. UPS负责主节点和网络
已经稳定运行半年,期间计算节点Type 2宕机过一次,故障原因是CPU RAM不稳定,有人跑CPU-only的强化学习任务引发了此问题
至于你担心的机房空间问题,如今PC Farm很成熟了,7.5U高度19英寸机架式机箱可以放置3台ATX主板 + 7950X + 3.5槽RTX 4090 D + (1+1)CRPS的节点,散热没问题。不怕散热出问题,甚至可以压缩到6U6节点。以上说的都是现货,但不一定能在网购平台买到。
|