配置一台兼具高性能CPU算第一性原理与GPU加速算MD的服务器

ggshining · 发表于 Post on 2023-9-10 10:15:42

本帖最后由 ggshining 于 2023-9-11 14:25 编辑

我想配置一台兼具高性能CPU用于第一性原理计算和高性能GPU用于MD模拟的服务器，任务并不一定是同时进行的（CPU跑满时可不跑GPU，跑GPU时CPU也不一定用满，同时进行可能散热会比较难），预算暂时可不用考虑，请教各位专家是否可以实现？

此外，在论坛学习了一段时间配置搭配，自己想实现这个要求，暂时有几个问题不解（不一定对），想请大家帮忙看看：

1. GPU加速更吃CPU的单核性能，在这点上高性能CPU（如Intel 8380和8383C，甚至AMD 9654）应该还不如桌面CPU（如i9 13900），此时用高性能CPU加速GPU性能是不是还比不上桌面CPU加速的效果？或者是不是有办法可以实现接近或更快的加速效果？

2. 如果问题1是可以实现的，请忽略问题2；如果问题1确实是事实，想请问下双路高性能CPU加速效果比桌面CPU差得多吗？大概能差多少？

3. 第一性原理计算（vasp和cp2k）和MD模拟（目前主要是lammps（reaxff和经典LJ力场），未来经典力场会考虑Gromacs）任务的需求基本55开，所以CPU性能也很看重，i9 13900、AMD 7950X虽然和8383C、8380跑分可能差不多，但是能搭成双路吗？实际计算软件性能应该很难和双路高性能CPU接近吧？

更新：目前想的方案是8383C+2块4090，一套预计应该6W左右能拿下（若不对可以直接喷），想问下和这套差不多的价格（最好7万以内）还有更好选择吗？

yzh · 发表于 Post on 2023-9-10 10:31:15

7950X+4090

ggshining · 发表于 Post on 2023-9-10 11:15:55

本帖最后由 ggshining 于 2023-9-10 11:28 编辑

yzh 发表于 2023-9-10 10:31
7950X+4090

7950X和8380跑分是差不多，但是桌面CPU能双路吗？实际跑vasp或cp2k的性能应该比双路高性能CPU差很多吧？

Graphite · 发表于 Post on 2023-9-10 14:32:34

本帖最后由 Graphite 于 2023-9-10 14:38 编辑

1/2、有影响，但也不至于特别离谱，参考http://bbs.keinsci.com/thread-33296-1-2.html，选个较高主频的多核服务器CPU，与高频桌面CPU比，部分任务速度最多掉个20%，其实也还能接受。合理的运行方式和计算设定常常影响更大。
3、不能双路，单块7950X的对比对象只能是单块多核中低主频服务器CPU。
4、散热不是啥问题，只要钱到位技术到位，单节点压住1000瓦并非难事。

最好还是较高主频多核服务器CPU+40系显卡。因为多开的问题。比如说64核拿出16核搭配GPU做MD，这样剩下48核还可以用来跑两三个轻任务或者冲一个较重任务。弄个slurm自动调度下资源，扔上去就行了。如果拿7950X，那拿出8核做MD的同时，剩下8核就算单核再强也就只能一个第一性任务了，如果还有些较重的数据分析需求，到时候就会很尴尬。7950X+4090这种配置主要还是更适用于短时间爆发性做MD的需求。还有个事是服务器主板和桌面主板对稳定性和网络/远控的要求不是一个级别的。

不过既然说到第一性，如果这个MD指的是LAMMPS做材料的话情况会更复杂点。

ggshining · 发表于 Post on 2023-9-10 17:01:26

Graphite 发表于 2023-9-10 14:32
1/2、有影响，但也不至于特别离谱，参考http://bbs.keinsci.com/thread-33296-1-2.html，选个较高主频的多 ...

谢谢大佬解答，lammps主要做reaxff反应力场和经典LJ力场模拟的话，会复杂在哪里呢？

Graphite · 发表于 Post on 2023-9-11 08:14:21

ggshining 发表于 2023-9-10 17:01
谢谢大佬解答，lammps主要做reaxff反应力场和经典LJ力场模拟的话，会复杂在哪里呢？

LJ随意，CPU算也不太慢，GPU加速效果也挺好的。

REAXFF计算“密度”很大，合适的资源调配也就几百原子/核，再加下去不会更快而是容易崩，用CPU算还很吃内存带宽，会和其他任务互相压制。

引入GPU主要还是解决CPU核多容易崩+抢内存带宽这个问题，能加速个几倍但性价比很难说划不划算，另外LAMMPS是计算全扔给GPU的方案，对CPU单核是有一定要求的。

举个例子：

某个密度很高的金属/有机物界面做REAX/C，5000-10000原子
机器A. 64核双路AMD，双三通道192G内存
机器B. 云服务器，Intel Gold实际3.0 GHz运行，双四通道512G内存，RTX 3090

A. 16核单开，25步/秒
A. 32核单开，27步/秒
A. 16核双开，2*20步/秒
A. 16核三开，3*16步/秒
A. 32核单开，且后台内存压力测试，11步/秒
A. 32核单开，同时32核AIMD，两边速度有波动，总体速度约下降50%
A. 64核单开，域分解/hbondchk报错崩
B. 单卡单开，50步/秒

实际机制还更复杂些，这里仅供参考和估计。

ggshining · 发表于 Post on 2023-9-11 14:18:29

本帖最后由 ggshining 于 2023-9-11 14:24 编辑

Graphite 发表于 2023-9-11 08:14
LJ随意，CPU算也不太慢，GPU加速效果也挺好的。

REAXFF计算“密度”很大，合适的资源调配也就几百原子 ...

明白了，谢谢大佬的解答。目前我暂定的方案是Intel8383C+2个4090或者AMD7J13（7763的马甲，性能一样但是价格便宜2500）+2个4090，我看Etropy老师的benchmark测试里lammps的GPU加速效果对CPU好像不是太敏感，最大差距也才个位数%，这个时候感觉选纯CPU更强一点的7J13，似乎是更好一点？

Graphite · 发表于 Post on 2023-9-11 14:25:04

ggshining 发表于 2023-9-11 14:18
明白了，谢谢大佬的解答。目前我暂定的方案是Intel8383C+2个4090或者AMD7763+2个4090，我看Etropy老师的b ...

都可以，AMD这几年性价比是好点，不过没法用LAMMPS的Intel加速包，这个包偶尔对一些不能GPU的多体势有不错效果。

ggshining · 发表于 Post on 2023-9-11 14:49:17

Graphite 发表于 2023-9-11 14:25
都可以，AMD这几年性价比是好点，不过没法用LAMMPS的Intel加速包，这个包偶尔对一些不能GPU的多体势有不 ...

OK，如果用GPU加速的话，Intel加速包其实用处不大吧？（多体势几乎不用）
GPU加速效果和Intel加速包（不用GPU情况下）相比，计算intel加速包能加速的内容，应该还是GPU加速效果更好吧（瞎猜的，不对请指正），就8383C而言预计能快多少？

Graphite · 发表于 Post on 2023-9-11 21:05:04

ggshining 发表于 2023-9-11 14:49
OK，如果用GPU加速的话，Intel加速包其实用处不大吧？（多体势几乎不用）
GPU加速效果和Intel加速包（不 ...

势函数支持GPU肯定用GPU，两张4090那纯算力少说是CPU的六七倍以上，intel包最快我只刷过2-3倍加速。

4470kkk · 发表于 Post on 2023-9-19 19:32:17

reaxff gpu加速别用消费级显卡，reaxff支持的kokkos加速不支持单精度，看看显卡的双精度算力越高越好，推荐二手的P100和V100和泰坦V

Entropy.S.I · 发表于 Post on 2023-9-19 19:46:07

本帖最后由 Entropy.S.I 于 2023-9-19 19:47 编辑

我应该在论坛里提过很多次TITAN V。月初我帮课题组买了3块TITAN V专门用于跑ReaxFF，单价1950，性能是4090的1.5-2倍，性价比远远超过其他任何硬件，是当下跑ReaxFF的唯一最优选择。

moritaichi · 发表于 Post on 2023-10-19 11:24:28

Entropy.S.I 发表于 2023-9-19 19:46
我应该在论坛里提过很多次TITAN V。月初我帮课题组买了3块TITAN V专门用于跑ReaxFF，单价1950，性能是4090 ...

E佬求教，如果是专用lammps跑ReaxFF，这三块TITTAN V 是插在同一张主板上吗，cpu选什么级别的不会拖后腿，内存常规的32g够不够？

Entropy.S.I · 发表于 Post on 2023-10-19 12:38:08

本帖最后由 Entropy.S.I 于 2023-10-19 18:29 编辑

moritaichi 发表于 2023-10-19 11:24
E佬求教，如果是专用lammps跑ReaxFF，这三块TITTAN V 是插在同一张主板上吗，cpu选什么级别的不会拖后腿 ...

注：

1. 没有P2P的多卡并行，涉及GPU和CPU内存空间之间的数据拷贝，所以还是尽可能把内存带宽拉满了

2. TITAN V太便宜，所以追求太强的CPU单核性能并不划算，捡垃圾是最佳选择

moritaichi · 发表于 Post on 2023-10-19 14:10:12

Entropy.S.I 发表于 2023-10-19 12:38
注：

1. 没有P2P的多卡并行，涉及GPU和CPU内存空间之间的数据拷贝，所以还是尽可能把内存带宽拉满了 ...

牛的，感谢

		自动登录 Automatic login	找回密码 Forget password
密码 Password			注册 Register

[配置讨论] 配置一台兼具高性能CPU算第一性原理与GPU加速算MD的服务器

评分 Rate