|
本帖最后由 Entropy.S.I 于 2024-9-10 01:58 编辑
参考此贴http://bbs.keinsci.com/thread-47879-1-1.html
取消IB卡,把CPU换成48核、8CCX的EPYC 7Y43,GPU底板使用AOM-SXM2而非AOM-SXMV,DIMM用便宜40~50%的非原厂超频版(俗称寨条,32G 3200MT/s RECC只要260元),不配置SSD(你们自己另外买了插上,如消费级的致态7100 2T),整机保修3个月,公费采购,开普票,4万可以拿下。半年前我已将此系列方案完全交给第三方公司运营,本人只在闲暇时间通过社区友情提供技术支持。
至于为什么我帖子中使用了如此多的IB卡,其余部分也没有如前面所说的缩水,节点单价仍只有4万,因为我将此系列方案转交给第三方公司是无偿的(这个公司至今甚至未给我报销去现场教学产生的差旅费,理由是我让他们屯了太多货没卖出去),我自己所在的团队要回头向他们购买,他们没有理由不看在我的面子上把价格给到最低。
如果你没有机房,需要考虑电源和噪音问题,那么只能采用单模组、4GPU的方案,价格大约比8GPU方案低1.7万CNY,此时预算不紧张,配件不需要缩水,大约2.6万能拿下。
性能:
LAMMPS Kokkos:400万原子的LJ势和EAM势,每个4卡模组是[4090D单卡+14700KF]的5~6倍、单路EPYC 9654的3~4倍;400万原子的Tersoff势和66.8万原子的ReaxFF,每个4卡模组是[4090D单卡+14700KF]的8~9倍、单路EPYC 9654的10倍以上。上述体系的VRAM消耗均少于16GB。
另外,不要幻想买了4090D后用单精度/混合精度的GPU包。我曾经幻想过,后来做了很多测试才意识到GPU包比我想象的要落后得多,很多算法无法offload到GPU上,导致在使用4090D这样的高端GPU时有严重的CPU瓶颈,即使拿14700K来带4090D跑混合精度的GPU包,速度还不如单核性能一般的服务器CPU带V100-SXM2跑双精度的Kokkos包。
至于Gaussian,不使用GPU加速的情况,速度是7950X的2~2.5倍,使用GPU加速的情况,速度是7950X的3倍左右,4GPU和8GPU速度没有明显区别。
MS不了解,以CP2K取代之,CP2K的情况和Gaussian基本一致。
最后,通过Slurm可以设置为GPU保留8或4个最近NUMA域的CPU核心,以便同时运行GPU加速的LAMMPS和CPU-only的Gaussian,互不干扰。
|
|