GPU机器购买求助：显卡买4090,4090D或V100？跑lmp（最重要）,gmx,gpumd,机器学习

bobosiji · 发表于 Post on 2024-8-31 22:07:34

本帖最后由 bobosiji 于 2024-8-31 22:07 编辑

实验室现有集群搭载大量E5-2686v4以及4张1080Ti卡，跑gmx、gaussian和少量cp2k&vasp等任务足够。但lammps速度太慢，想买新服务器或新显卡提升lammps的速度。将来也会有gpumd（专家们推荐4090卡）、机器学习等任务。我们预算7,8万，最多打算买2张4090卡。也可先只花一半。要求新的GPU机器（显卡）能并入现有集群，不追求极致性价比。

http://bbs.keinsci.com/thread-35988-1-1.html 第十楼大作指出V100跑lammps的速度明显强于4090（涡轮卡的京东自营价为1.8万元或以上），而京东上V100-pcie的价格为5千或8千元（自营）。如果对5千的质量不放心，买8千元的V100；2张4090的钱可买4张V100。而4090跑lammps的速度大概是V100的80%（我们不跑ReaxFF，本文均比较单张卡的速度）。

请教大家：

1、跑gmx、gpumd，4090的速度比V100强多少？大概估算即可。http://bbs.keinsci.com/forum.php?mod=viewthread&tid=34098&highlight=v100里说gmx，4090速度大概是V100的2倍（注：各显卡CPU不一样）？

2、跑机器学习、深度学习任务，4090的速度比V100强多少？大概估算即可。

3、综合以上情况，我们现在买新服务器（显卡），选4090还是V100卡？比如，先花一半预算买4090，将来有（跑lammps）的必要再买V100；或者反过来更好？

4、4090D卡跑gmx、lammps、机器学习等以上任务大概比4090卡慢多少？慢12%？论坛里大家似乎推荐更多推荐4090D而不是4090卡？

5、8352V(2.1/3.5G/54M/36C)，7R32这种服务器CPU足够带4090卡么？E5-2686v4足够带V100卡么?

6、用7950x攒的机器方便并入现有集群么？例如用技嘉B650M AORUS ELITE（http://sobereva.com/444），或微星Z690 Carbon、微星X670ECarbon（http://bbs.keinsci.com/thread-35988-1-1.html）？

电脑小白，提问很多。非常感谢大家的指点和耐心~

atominerva · 发表于 Post on 2025-12-25 19:16:54

我建议你直接买工农版V100
5000左右双卡16G 带300G互联。11000左右32G

两张4090的预算都搞7个节点了，大不了坏两个又如何

Entropy.S.I · 发表于 Post on 2025-12-25 01:28:44

ljh123 发表于 2025-12-24 23:39
老师您好，请问您有研究过单精度卡（L40）是否适合deepmd-kit(gpu版本)+lammps(cpu版本)吗

不适合。即使是优化到极致的单精度模型，L40的性能也不如改进型V100
http://bbs.keinsci.com/thread-57431-1-1.html

ljh123 · 发表于 Post on 2025-12-24 23:39:15

Entropy.S.I 发表于 2024-9-1 03:55
1. GMX和GPUMD都是单精度计算，4090D速度是V100-SXM2的3~3.3倍（不考虑性价比明显低于4090D的4090以及性价 ...

老师您好，请问您有研究过单精度卡（L40）是否适合deepmd-kit(gpu版本)+lammps(cpu版本)吗

Entropy.S.I · 发表于 Post on 2024-9-1 03:55:26

本帖最后由 Entropy.S.I 于 2024-9-1 05:15 编辑

1. GMX和GPUMD都是单精度计算，4090D速度是V100-SXM2的3~3.3倍（不考虑性价比明显低于4090D的4090以及性价比和scale能力都明显低于V100 SXM2的V100 PCIe）。

2. AI性能完全取决于所用数据格式。

3. 一部分4090D，一部分V100-SXM2 16GB（4卡NVLink模组）。V100-SXM2 16GB（4卡NVLink模组）适合双精度计算（如LMP Kokkos）和多GPU乃至多节点的计算（增强采样MD除外）。LMP不要用传统GPU包，即使GPU包支持单精度/混合精度，在高端GPU、中大体系上的实际速度也不如双精度的Kokkos包，甚至在4090上用混合精度的GPU包速度还不如在V100上用双精度的Kokkos包。GPU包很多算法没有offload到GPU，类似于2019版以前的GMX，CPU瓶颈非常严重，越大的体系越明显，还比GMX难调优。

4. 10%以内，多数case不超过8%，个人主观印象是平均6-8%。

5. 第1句答案：“明显不够”；第2句答案：“勉强够，但我怀疑你们现有的E5-2686v4 CPU-only节点并不支持添加GPU，尤其是SXM接口的GPU，必须使用专门设计的服务器”。

6. 取决于现有集群的组网方案，消费级平台PCIe lane数量很少，插上GPU就不能插IB卡，最多只能用10G以太网网卡，因此需要为此类节点配备专门的以太网网络。使用多台消费级单GPU机器搭建的支持跨节点并行的集群，我已经实施过一例，很稳定，性能也符合预期。

V100集群看http://bbs.keinsci.com/thread-47879-1-1.html，已经很成熟了。

最后，V100-SXM2 16GB价格最低的时候是今年1-2月份，单价900-1000 CNY，后来涨到了1600-2000CNY，一直维持至今。基于V100-SXM2搭建服务器，GPU本身的成本只占35-40%，GPU底板、主板、CPU、DIMM、SSD、定制转接线、定制机箱及其附件的价格都不低。

		自动登录 Automatic login	找回密码 Forget password
密码 Password			注册 Register

[配置讨论] GPU机器购买求助：显卡买4090,4090D或V100？跑lmp（最重要）,gmx,gpumd,机器学习

评分 Rate

浏览过的版块