计算化学公社

标题: 配置一台兼具高性能CPU算第一性原理与GPU加速算MD的服务器 [打印本页]

作者
Author:
ggshining    时间: 2023-9-10 10:15
标题: 配置一台兼具高性能CPU算第一性原理与GPU加速算MD的服务器
本帖最后由 ggshining 于 2023-9-11 14:25 编辑

我想配置一台兼具高性能CPU用于第一性原理计算和高性能GPU用于MD模拟的服务器,任务并不一定是同时进行的(CPU跑满时可不跑GPU,跑GPU时CPU也不一定用满,同时进行可能散热会比较难),预算暂时可不用考虑,请教各位专家是否可以实现?

此外,在论坛学习了一段时间配置搭配,自己想实现这个要求,暂时有几个问题不解(不一定对),想请大家帮忙看看:


1. GPU加速更吃CPU的单核性能,在这点上高性能CPU(如Intel 8380和8383C, 甚至AMD 9654)应该还不如桌面CPU(如i9 13900),此时用高性能CPU加速GPU性能是不是还比不上桌面CPU加速的效果?或者是不是有办法可以实现接近或更快的加速效果?

2. 如果问题1是可以实现的,请忽略问题2;如果问题1确实是事实,想请问下双路高性能CPU加速效果比桌面CPU差得多吗?大概能差多少?


3. 第一性原理计算(vasp和cp2k)和MD模拟(目前主要是lammps(reaxff和经典LJ力场),未来经典力场会考虑Gromacs)任务的需求基本55开,所以CPU性能也很看重,i9 13900、AMD 7950X虽然和8383C、8380跑分可能差不多,但是能搭成双路吗?实际计算软件性能应该很难和双路高性能CPU接近吧?


更新:目前想的方案是8383C+2块4090,一套预计应该6W左右能拿下(若不对可以直接喷),想问下和这套差不多的价格(最好7万以内)还有更好选择吗?



作者
Author:
yzh    时间: 2023-9-10 10:31
7950X+4090
作者
Author:
ggshining    时间: 2023-9-10 11:15
本帖最后由 ggshining 于 2023-9-10 11:28 编辑
yzh 发表于 2023-9-10 10:31
7950X+4090

7950X和8380跑分是差不多,但是桌面CPU能双路吗?实际跑vasp或cp2k的性能应该比双路高性能CPU差很多吧?
作者
Author:
Graphite    时间: 2023-9-10 14:32
本帖最后由 Graphite 于 2023-9-10 14:38 编辑

1/2、有影响,但也不至于特别离谱,参考http://bbs.keinsci.com/thread-33296-1-2.html,选个较高主频的多核服务器CPU,与高频桌面CPU比,部分任务速度最多掉个20%,其实也还能接受。合理的运行方式和计算设定常常影响更大。
3、不能双路,单块7950X的对比对象只能是单块多核中低主频服务器CPU。
4、散热不是啥问题,只要钱到位技术到位,单节点压住1000瓦并非难事。

最好还是较高主频多核服务器CPU+40系显卡。因为多开的问题。比如说64核拿出16核搭配GPU做MD,这样剩下48核还可以用来跑两三个轻任务或者冲一个较重任务。弄个slurm自动调度下资源,扔上去就行了。如果拿7950X,那拿出8核做MD的同时,剩下8核就算单核再强也就只能一个第一性任务了,如果还有些较重的数据分析需求,到时候就会很尴尬。7950X+4090这种配置主要还是更适用于短时间爆发性做MD的需求。还有个事是服务器主板和桌面主板对稳定性和网络/远控的要求不是一个级别的。

不过既然说到第一性,如果这个MD指的是LAMMPS做材料的话情况会更复杂点。

作者
Author:
ggshining    时间: 2023-9-10 17:01
Graphite 发表于 2023-9-10 14:32
1/2、有影响,但也不至于特别离谱,参考http://bbs.keinsci.com/thread-33296-1-2.html,选个较高主频的多 ...

谢谢大佬解答,lammps主要做reaxff反应力场和经典LJ力场模拟的话,会复杂在哪里呢?
作者
Author:
Graphite    时间: 2023-9-11 08:14
ggshining 发表于 2023-9-10 17:01
谢谢大佬解答,lammps主要做reaxff反应力场和经典LJ力场模拟的话,会复杂在哪里呢?

LJ随意,CPU算也不太慢,GPU加速效果也挺好的。

REAXFF计算“密度”很大,合适的资源调配也就几百原子/核,再加下去不会更快而是容易崩,用CPU算还很吃内存带宽,会和其他任务互相压制。

引入GPU主要还是解决CPU核多容易崩+抢内存带宽这个问题,能加速个几倍但性价比很难说划不划算,另外LAMMPS是计算全扔给GPU的方案,对CPU单核是有一定要求的。

举个例子:

某个密度很高的金属/有机物界面做REAX/C,5000-10000原子
机器A. 64核双路AMD,双三通道192G内存
机器B. 云服务器,Intel Gold实际3.0 GHz运行,双四通道512G内存,RTX 3090

A. 16核单开,25步/秒
A. 32核单开,27步/秒
A. 16核双开,2*20步/秒
A. 16核三开,3*16步/秒
A. 32核单开,且后台内存压力测试,11步/秒
A. 32核单开,同时32核AIMD,两边速度有波动,总体速度约下降50%
A. 64核单开,域分解/hbondchk报错崩
B. 单卡单开,50步/秒

实际机制还更复杂些,这里仅供参考和估计。

作者
Author:
ggshining    时间: 2023-9-11 14:18
本帖最后由 ggshining 于 2023-9-11 14:24 编辑
Graphite 发表于 2023-9-11 08:14
LJ随意,CPU算也不太慢,GPU加速效果也挺好的。

REAXFF计算“密度”很大,合适的资源调配也就几百原子 ...


明白了,谢谢大佬的解答。目前我暂定的方案是Intel8383C+2个4090或者AMD7J13(7763的马甲,性能一样但是价格便宜2500)+2个4090,我看Etropy老师的benchmark测试里lammps的GPU加速效果对CPU好像不是太敏感,最大差距也才 个位数%,这个时候感觉选纯CPU更强一点的7J13,似乎是更好一点?
作者
Author:
Graphite    时间: 2023-9-11 14:25
ggshining 发表于 2023-9-11 14:18
明白了,谢谢大佬的解答。目前我暂定的方案是Intel8383C+2个4090或者AMD7763+2个4090,我看Etropy老师的b ...

都可以,AMD这几年性价比是好点,不过没法用LAMMPS的Intel加速包,这个包偶尔对一些不能GPU的多体势有不错效果。
作者
Author:
ggshining    时间: 2023-9-11 14:49
Graphite 发表于 2023-9-11 14:25
都可以,AMD这几年性价比是好点,不过没法用LAMMPS的Intel加速包,这个包偶尔对一些不能GPU的多体势有不 ...

OK,如果用GPU加速的话,Intel加速包其实用处不大吧?(多体势几乎不用)
GPU加速效果和Intel加速包(不用GPU情况下)相比,计算intel加速包能加速的内容,应该还是GPU加速效果更好吧(瞎猜的,不对请指正),就8383C而言预计能快多少?
作者
Author:
Graphite    时间: 2023-9-11 21:05
ggshining 发表于 2023-9-11 14:49
OK,如果用GPU加速的话,Intel加速包其实用处不大吧?(多体势几乎不用)
GPU加速效果和Intel加速包(不 ...

势函数支持GPU肯定用GPU,两张4090那纯算力少说是CPU的六七倍以上,intel包最快我只刷过2-3倍加速。
作者
Author:
4470kkk    时间: 2023-9-19 19:32
reaxff gpu加速别用消费级显卡,reaxff支持的kokkos加速不支持单精度,看看显卡的双精度算力越高越好,推荐二手的P100和V100和泰坦V
作者
Author:
Entropy.S.I    时间: 2023-9-19 19:46
本帖最后由 Entropy.S.I 于 2023-9-19 19:47 编辑

我应该在论坛里提过很多次TITAN V。月初我帮课题组买了3块TITAN V专门用于跑ReaxFF,单价1950,性能是4090的1.5-2倍,性价比远远超过其他任何硬件,是当下跑ReaxFF的唯一最优选择
作者
Author:
moritaichi    时间: 2023-10-19 11:24
Entropy.S.I 发表于 2023-9-19 19:46
我应该在论坛里提过很多次TITAN V。月初我帮课题组买了3块TITAN V专门用于跑ReaxFF,单价1950,性能是4090 ...

E佬求教,如果是专用lammps跑ReaxFF,这三块TITTAN V 是插在同一张主板上吗,cpu选什么级别的不会拖后腿,内存常规的32g够不够?
作者
Author:
Entropy.S.I    时间: 2023-10-19 12:38
本帖最后由 Entropy.S.I 于 2023-10-19 18:29 编辑
moritaichi 发表于 2023-10-19 11:24
E佬求教,如果是专用lammps跑ReaxFF,这三块TITTAN V 是插在同一张主板上吗,cpu选什么级别的不会拖后腿 ...
(, 下载次数 Times of downloads: 35)

注:

1. 没有P2P的多卡并行,涉及GPU和CPU内存空间之间的数据拷贝,所以还是尽可能把内存带宽拉满了

2. TITAN V太便宜,所以追求太强的CPU单核性能并不划算,捡垃圾是最佳选择


作者
Author:
moritaichi    时间: 2023-10-19 14:10
Entropy.S.I 发表于 2023-10-19 12:38
注:

1. 没有P2P的多卡并行,涉及GPU和CPU内存空间之间的数据拷贝,所以还是尽可能把内存带宽拉满了 ...

牛的,感谢
作者
Author:
楚瑶    时间: 2023-10-19 17:06
本帖最后由 楚瑶 于 2023-10-19 17:08 编辑
Entropy.S.I 发表于 2023-10-19 12:38
注:

1. 没有P2P的多卡并行,涉及GPU和CPU内存空间之间的数据拷贝,所以还是尽可能把内存带宽拉满了 ...

E佬,请问一下
1. 我看您之前还提到过二手V100,速度怎么样呢,相比于Titan V
2. 装这种普通工作站,怎么保证显卡的散热呢,我在咸鱼上看到这种小风扇,可以实现吗
(, 下载次数 Times of downloads: 21)

作者
Author:
Entropy.S.I    时间: 2023-10-19 17:42
楚瑶 发表于 2023-10-19 17:06
E佬,请问一下
1. 我看您之前还提到过二手V100,速度怎么样呢,相比于Titan V
2. 装这种普通工作站,怎 ...

3000左右的V100 16G实际上是V100 12G,和TITAN V的规格完全相同。TITAN V能超频、拉功耗墙,自带散热,只要2200多,比V100划算多了。
作者
Author:
楚瑶    时间: 2023-10-19 17:58
Entropy.S.I 发表于 2023-10-19 17:42
3000左右的V100 16G实际上是V100 12G,和TITAN V的规格完全相同。TITAN V能超频、拉功耗墙,自带散热,只 ...

非常感谢!

作者
Author:
moritaichi    时间: 2023-10-21 14:43
本帖最后由 moritaichi 于 2023-10-21 14:45 编辑
Entropy.S.I 发表于 2023-10-19 12:38
注:

1. 没有P2P的多卡并行,涉及GPU和CPU内存空间之间的数据拷贝,所以还是尽可能把内存带宽拉满了 ...

E佬求个咨询意见,我打算把以前的一台老机子加块二手的TITAN V玩玩,专用于跑跑lammps的ReaxFF,有空的话看看有没有不合理的地方行不?
主板:微星B450M MORTAR MAX
CPU:R7 3800X(算力感觉还凑合?)
显卡:titan V换 radeon R9 fury(原卡的功耗275W超高,应该不存在电源问题)
内存:16g*2,ddr4, 3200


作者
Author:
Entropy.S.I    时间: 2023-10-21 15:32
moritaichi 发表于 2023-10-21 14:43
E佬求个咨询意见,我打算把以前的一台老机子加块二手的TITAN V玩玩,专用于跑跑lammps的ReaxFF,有空的话 ...

没问题。TITAN V功耗墙可以拉到300W,核心频率可以+160MHz,HBM频率可以+50MHz
作者
Author:
moritaichi    时间: 2023-10-21 15:40
Entropy.S.I 发表于 2023-10-21 15:32
没问题。TITAN V功耗墙可以拉到300W,核心频率可以+160MHz,HBM频率可以+50MHz

感谢E佬




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3