计算化学公社

标题: 配置一台兼具高性能CPU算第一性原理与GPU加速算MD的服务器 [打印本页]

作者
Author: ggshining 时间: 2023-9-10 10:15
标题: 配置一台兼具高性能CPU算第一性原理与GPU加速算MD的服务器
本帖最后由 ggshining 于 2023-9-11 14:25 编辑

我想配置一台兼具高性能CPU用于第一性原理计算和高性能GPU用于MD模拟的服务器，任务并不一定是同时进行的（CPU跑满时可不跑GPU，跑GPU时CPU也不一定用满，同时进行可能散热会比较难），预算暂时可不用考虑，请教各位专家是否可以实现？

此外，在论坛学习了一段时间配置搭配，自己想实现这个要求，暂时有几个问题不解（不一定对），想请大家帮忙看看：

1. GPU加速更吃CPU的单核性能，在这点上高性能CPU（如Intel 8380和8383C，甚至AMD 9654）应该还不如桌面CPU（如i9 13900），此时用高性能CPU加速GPU性能是不是还比不上桌面CPU加速的效果？或者是不是有办法可以实现接近或更快的加速效果？

2. 如果问题1是可以实现的，请忽略问题2；如果问题1确实是事实，想请问下双路高性能CPU加速效果比桌面CPU差得多吗？大概能差多少？

3. 第一性原理计算（vasp和cp2k）和MD模拟（目前主要是lammps（reaxff和经典LJ力场），未来经典力场会考虑Gromacs）任务的需求基本55开，所以CPU性能也很看重，i9 13900、AMD 7950X虽然和8383C、8380跑分可能差不多，但是能搭成双路吗？实际计算软件性能应该很难和双路高性能CPU接近吧？

更新：目前想的方案是8383C+2块4090，一套预计应该6W左右能拿下（若不对可以直接喷），想问下和这套差不多的价格（最好7万以内）还有更好选择吗？

作者
Author: yzh 时间: 2023-9-10 10:31
7950X+4090

作者
Author: ggshining 时间: 2023-9-10 11:15
本帖最后由 ggshining 于 2023-9-10 11:28 编辑

yzh 发表于 2023-9-10 10:31
7950X+4090

7950X和8380跑分是差不多，但是桌面CPU能双路吗？实际跑vasp或cp2k的性能应该比双路高性能CPU差很多吧？

作者
Author: Graphite 时间: 2023-9-10 14:32
本帖最后由 Graphite 于 2023-9-10 14:38 编辑

1/2、有影响，但也不至于特别离谱，参考http://bbs.keinsci.com/thread-33296-1-2.html，选个较高主频的多核服务器CPU，与高频桌面CPU比，部分任务速度最多掉个20%，其实也还能接受。合理的运行方式和计算设定常常影响更大。
3、不能双路，单块7950X的对比对象只能是单块多核中低主频服务器CPU。
4、散热不是啥问题，只要钱到位技术到位，单节点压住1000瓦并非难事。

最好还是较高主频多核服务器CPU+40系显卡。因为多开的问题。比如说64核拿出16核搭配GPU做MD，这样剩下48核还可以用来跑两三个轻任务或者冲一个较重任务。弄个slurm自动调度下资源，扔上去就行了。如果拿7950X，那拿出8核做MD的同时，剩下8核就算单核再强也就只能一个第一性任务了，如果还有些较重的数据分析需求，到时候就会很尴尬。7950X+4090这种配置主要还是更适用于短时间爆发性做MD的需求。还有个事是服务器主板和桌面主板对稳定性和网络/远控的要求不是一个级别的。

不过既然说到第一性，如果这个MD指的是LAMMPS做材料的话情况会更复杂点。

作者
Author: ggshining 时间: 2023-9-10 17:01

Graphite 发表于 2023-9-10 14:32
1/2、有影响，但也不至于特别离谱，参考http://bbs.keinsci.com/thread-33296-1-2.html，选个较高主频的多 ...

谢谢大佬解答，lammps主要做reaxff反应力场和经典LJ力场模拟的话，会复杂在哪里呢？

作者
Author: Graphite 时间: 2023-9-11 08:14

ggshining 发表于 2023-9-10 17:01
谢谢大佬解答，lammps主要做reaxff反应力场和经典LJ力场模拟的话，会复杂在哪里呢？

LJ随意，CPU算也不太慢，GPU加速效果也挺好的。

REAXFF计算“密度”很大，合适的资源调配也就几百原子/核，再加下去不会更快而是容易崩，用CPU算还很吃内存带宽，会和其他任务互相压制。

引入GPU主要还是解决CPU核多容易崩+抢内存带宽这个问题，能加速个几倍但性价比很难说划不划算，另外LAMMPS是计算全扔给GPU的方案，对CPU单核是有一定要求的。

举个例子：

某个密度很高的金属/有机物界面做REAX/C，5000-10000原子
机器A. 64核双路AMD，双三通道192G内存
机器B. 云服务器，Intel Gold实际3.0 GHz运行，双四通道512G内存，RTX 3090

A. 16核单开，25步/秒
A. 32核单开，27步/秒
A. 16核双开，2*20步/秒
A. 16核三开，3*16步/秒
A. 32核单开，且后台内存压力测试，11步/秒
A. 32核单开，同时32核AIMD，两边速度有波动，总体速度约下降50%
A. 64核单开，域分解/hbondchk报错崩
B. 单卡单开，50步/秒

实际机制还更复杂些，这里仅供参考和估计。

作者
Author: ggshining 时间: 2023-9-11 14:18
本帖最后由 ggshining 于 2023-9-11 14:24 编辑

Graphite 发表于 2023-9-11 08:14
LJ随意，CPU算也不太慢，GPU加速效果也挺好的。

REAXFF计算“密度”很大，合适的资源调配也就几百原子 ...

明白了，谢谢大佬的解答。目前我暂定的方案是Intel8383C+2个4090或者AMD7J13（7763的马甲，性能一样但是价格便宜2500）+2个4090，我看Etropy老师的benchmark测试里lammps的GPU加速效果对CPU好像不是太敏感，最大差距也才个位数%，这个时候感觉选纯CPU更强一点的7J13，似乎是更好一点？

作者
Author: Graphite 时间: 2023-9-11 14:25

ggshining 发表于 2023-9-11 14:18
明白了，谢谢大佬的解答。目前我暂定的方案是Intel8383C+2个4090或者AMD7763+2个4090，我看Etropy老师的b ...

都可以，AMD这几年性价比是好点，不过没法用LAMMPS的Intel加速包，这个包偶尔对一些不能GPU的多体势有不错效果。

作者
Author: ggshining 时间: 2023-9-11 14:49

Graphite 发表于 2023-9-11 14:25
都可以，AMD这几年性价比是好点，不过没法用LAMMPS的Intel加速包，这个包偶尔对一些不能GPU的多体势有不 ...

OK，如果用GPU加速的话，Intel加速包其实用处不大吧？（多体势几乎不用）
GPU加速效果和Intel加速包（不用GPU情况下）相比，计算intel加速包能加速的内容，应该还是GPU加速效果更好吧（瞎猜的，不对请指正），就8383C而言预计能快多少？

作者
Author: Graphite 时间: 2023-9-11 21:05

ggshining 发表于 2023-9-11 14:49
OK，如果用GPU加速的话，Intel加速包其实用处不大吧？（多体势几乎不用）
GPU加速效果和Intel加速包（不 ...

势函数支持GPU肯定用GPU，两张4090那纯算力少说是CPU的六七倍以上，intel包最快我只刷过2-3倍加速。

作者
Author: 4470kkk 时间: 2023-9-19 19:32
reaxff gpu加速别用消费级显卡，reaxff支持的kokkos加速不支持单精度，看看显卡的双精度算力越高越好，推荐二手的P100和V100和泰坦V

作者
Author: Entropy.S.I 时间: 2023-9-19 19:46
本帖最后由 Entropy.S.I 于 2023-9-19 19:47 编辑

我应该在论坛里提过很多次TITAN V。月初我帮课题组买了3块TITAN V专门用于跑ReaxFF，单价1950，性能是4090的1.5-2倍，性价比远远超过其他任何硬件，是当下跑ReaxFF的唯一最优选择。

作者
Author: moritaichi 时间: 2023-10-19 11:24

Entropy.S.I 发表于 2023-9-19 19:46
我应该在论坛里提过很多次TITAN V。月初我帮课题组买了3块TITAN V专门用于跑ReaxFF，单价1950，性能是4090 ...

E佬求教，如果是专用lammps跑ReaxFF，这三块TITTAN V 是插在同一张主板上吗，cpu选什么级别的不会拖后腿，内存常规的32g够不够？

作者
Author: Entropy.S.I 时间: 2023-10-19 12:38
本帖最后由 Entropy.S.I 于 2023-10-19 18:29 编辑

moritaichi 发表于 2023-10-19 11:24
E佬求教，如果是专用lammps跑ReaxFF，这三块TITTAN V 是插在同一张主板上吗，cpu选什么级别的不会拖后腿 ...

(, 下载次数 Times of downloads: 100)

注：

1. 没有P2P的多卡并行，涉及GPU和CPU内存空间之间的数据拷贝，所以还是尽可能把内存带宽拉满了

2. TITAN V太便宜，所以追求太强的CPU单核性能并不划算，捡垃圾是最佳选择

作者
Author: moritaichi 时间: 2023-10-19 14:10

Entropy.S.I 发表于 2023-10-19 12:38
注：

1. 没有P2P的多卡并行，涉及GPU和CPU内存空间之间的数据拷贝，所以还是尽可能把内存带宽拉满了 ...

牛的，感谢

作者
Author: 楚瑶 时间: 2023-10-19 17:06
本帖最后由楚瑶于 2023-10-19 17:08 编辑

Entropy.S.I 发表于 2023-10-19 12:38
注：

1. 没有P2P的多卡并行，涉及GPU和CPU内存空间之间的数据拷贝，所以还是尽可能把内存带宽拉满了 ...

E佬，请问一下
1. 我看您之前还提到过二手V100，速度怎么样呢，相比于Titan V
2. 装这种普通工作站，怎么保证显卡的散热呢，我在咸鱼上看到这种小风扇，可以实现吗
(, 下载次数 Times of downloads: 66)

作者
Author: Entropy.S.I 时间: 2023-10-19 17:42

楚瑶发表于 2023-10-19 17:06
E佬，请问一下
1. 我看您之前还提到过二手V100，速度怎么样呢，相比于Titan V
2. 装这种普通工作站，怎 ...

3000左右的V100 16G实际上是V100 12G，和TITAN V的规格完全相同。TITAN V能超频、拉功耗墙，自带散热，只要2200多，比V100划算多了。

作者
Author: 楚瑶 时间: 2023-10-19 17:58

Entropy.S.I 发表于 2023-10-19 17:42
3000左右的V100 16G实际上是V100 12G，和TITAN V的规格完全相同。TITAN V能超频、拉功耗墙，自带散热，只 ...

非常感谢！

作者
Author: moritaichi 时间: 2023-10-21 14:43
本帖最后由 moritaichi 于 2023-10-21 14:45 编辑

Entropy.S.I 发表于 2023-10-19 12:38
注：

1. 没有P2P的多卡并行，涉及GPU和CPU内存空间之间的数据拷贝，所以还是尽可能把内存带宽拉满了 ...

E佬求个咨询意见，我打算把以前的一台老机子加块二手的TITAN V玩玩，专用于跑跑lammps的ReaxFF，有空的话看看有没有不合理的地方行不？
主板：微星B450M MORTAR MAX
CPU：R7 3800X（算力感觉还凑合？）
显卡：titan V换 radeon R9 fury（原卡的功耗275W超高，应该不存在电源问题）
内存：16g*2，ddr4， 3200

作者
Author: Entropy.S.I 时间: 2023-10-21 15:32

moritaichi 发表于 2023-10-21 14:43
E佬求个咨询意见，我打算把以前的一台老机子加块二手的TITAN V玩玩，专用于跑跑lammps的ReaxFF，有空的话 ...

没问题。TITAN V功耗墙可以拉到300W，核心频率可以+160MHz，HBM频率可以+50MHz

作者
Author: moritaichi 时间: 2023-10-21 15:40

Entropy.S.I 发表于 2023-10-21 15:32
没问题。TITAN V功耗墙可以拉到300W，核心频率可以+160MHz，HBM频率可以+50MHz

感谢E佬

欢迎光临计算化学公社 (http://bbs.keinsci.com/)