计算化学公社

 找回密码 Forget password
 注册 Register
Views: 1495|回复 Reply: 1
打印 Print 上一主题 Last thread 下一主题 Next thread

[配置讨论] GPU机器购买求助:显卡买4090,4090D或V100?跑lmp(最重要),gmx,gpumd,机器学习

[复制链接 Copy URL]

279

帖子

0

威望

2271

eV
积分
2550

Level 5 (御坂)

跳转到指定楼层 Go to specific reply
楼主
本帖最后由 bobosiji 于 2024-8-31 22:07 编辑

实验室现有集群搭载大量E5-2686v4以及41080Ti卡,跑gmxgaussian和少量cp2k&vasp等任务足够。但lammps速度太慢,想买新服务器或新显卡提升lammps的速度。将来也会有gpumd(专家们推荐4090卡)、机器学习等任务。我们预算7,8万,最多打算买24090卡。也可先只花一半。要求新的GPU机器(显卡)能并入现有集群,不追求极致性价比。
http://bbs.keinsci.com/thread-35988-1-1.html  第十楼大作指出V100lammps的速度明显强于4090(涡轮卡的京东自营价为1.8万元或以上),而京东上V100-pcie的价格为5千或8千元(自营)。如果对5千的质量不放心,买8千元的V10024090的钱可买4V100。而4090lammps的速度大概是V10080%(我们不跑ReaxFF,本文均比较单张卡的速度)。
请教大家:
1、跑gmxgpumd4090的速度比V100强多少?大概估算即可。http://bbs.keinsci.com/forum.php?mod=viewthread&tid=34098&highlight=v100里说gmx4090速度大概是V1002倍(注:各显卡CPU不一样)?
2、跑机器学习、深度学习任务,4090的速度比V100强多少?大概估算即可。
3、综合以上情况,我们现在买新服务器(显卡),选4090还是V100卡?比如,先花一半预算买4090,将来有(跑lammps)的必要再买V100;或者反过来更好?
44090D卡跑gmxlammps、机器学习等以上任务大概比4090卡慢多少?慢12%?论坛里大家似乎推荐更多推荐4090D而不是4090卡?
58352V(2.1/3.5G/54M/36C),7R32这种服务器CPU足够带4090卡么?E5-2686v4足够带V100卡么?
6、用7950x攒的机器方便并入现有集群么?例如用技嘉B650M AORUS ELITE(http://sobereva.com/444),或微星Z690 Carbon、微星X670ECarbonhttp://bbs.keinsci.com/thread-35988-1-1.html)?
电脑小白,提问很多。非常感谢大家的指点和耐心~

846

帖子

16

威望

4633

eV
积分
5799

Level 6 (一方通行)

小屁孩

2#
发表于 Post on 2024-9-1 03:55:26 | 只看该作者 Only view this author
本帖最后由 Entropy.S.I 于 2024-9-1 05:15 编辑

1. GMX和GPUMD都是单精度计算,4090D速度是V100-SXM2的3~3.3倍(不考虑性价比明显低于4090D的4090以及性价比和scale能力都明显低于V100 SXM2的V100 PCIe)。

2. AI性能完全取决于所用数据格式。

3. 一部分4090D,一部分V100-SXM2 16GB(4卡NVLink模组)。V100-SXM2 16GB(4卡NVLink模组)适合双精度计算(如LMP Kokkos)和多GPU乃至多节点的计算(增强采样MD除外)。LMP不要用传统GPU包,即使GPU包支持单精度/混合精度,在高端GPU、中大体系上的实际速度也不如双精度的Kokkos包,甚至在4090上用混合精度的GPU包速度还不如在V100上用双精度的Kokkos包。GPU包很多算法没有offload到GPU,类似于2019版以前的GMX,CPU瓶颈非常严重,越大的体系越明显,还比GMX难调优。

4. 10%以内,多数case不超过8%,个人主观印象是平均6-8%。

5. 第1句答案:“明显不够”;第2句答案:“勉强够,但我怀疑你们现有的E5-2686v4 CPU-only节点并不支持添加GPU,尤其是SXM接口的GPU,必须使用专门设计的服务器”。

6. 取决于现有集群的组网方案,消费级平台PCIe lane数量很少,插上GPU就不能插IB卡,最多只能用10G以太网网卡,因此需要为此类节点配备专门的以太网网络。使用多台消费级单GPU机器搭建的支持跨节点并行的集群,我已经实施过一例,很稳定,性能也符合预期。

V100集群看http://bbs.keinsci.com/thread-47879-1-1.html,已经很成熟了。

最后,V100-SXM2 16GB价格最低的时候是今年1-2月份,单价900-1000 CNY,后来涨到了1600-2000CNY,一直维持至今。基于V100-SXM2搭建服务器,GPU本身的成本只占35-40%,GPU底板、主板、CPU、DIMM、SSD、定制转接线、定制机箱及其附件的价格都不低。

评分 Rate

参与人数
Participants 2
eV +6 收起 理由
Reason
bobosiji + 5 谢谢
mt13 + 1 赞!

查看全部评分 View all ratings

- 向着虚无前进 -

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 08:41 , Processed in 0.180126 second(s), 23 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list