计算化学公社

标题: 预算9万,能否购买到128核的服务器? [打印本页]

作者
Author:
Shana    时间: 2022-3-20 21:09
标题: 预算9万,能否购买到128核的服务器?
各位大佬好,近期有一次校级采购的机会,想购买一台服务器,采购方式是招标,只弄到九万多的预算,配置报128核+256G内存的话,会有厂商招标吗?这次招标失败的话,就要等到明年了。请各位大佬指教!

作者
Author:
Shana    时间: 2022-3-20 21:12
忘了说了,计算软件是VASP为主。
作者
Author:
zblxyrz    时间: 2022-3-20 21:31
双epyc差不多,不过256GB内存对128核来说少了点
作者
Author:
snljty    时间: 2022-3-20 21:53
先说清你的应用场景,比如有几个人用之类的。这个内存相比核数实在太低了,计算机子一般平均每核怎么也得3,4 GB。
作者
Author:
Shana    时间: 2022-3-20 22:29
snljty 发表于 2022-3-20 21:53
先说清你的应用场景,比如有几个人用之类的。这个内存相比核数实在太低了,计算机子一般平均每核怎么也得3, ...

就一两个人用,但是一般用杂化泛函,很需要核心,内存的话,32G*12的话,能在预算内吗?
作者
Author:
Shana    时间: 2022-3-20 22:30
zblxyrz 发表于 2022-3-20 21:31
双epyc差不多,不过256GB内存对128核来说少了点

好的,谢谢,32G*16的话能在预算内吗?
作者
Author:
liyuanhe211    时间: 2022-3-20 22:58
预算和性能分到两台更划算,除非组里只有一两个做计算的人
作者
Author:
abin    时间: 2022-3-21 09:36
本帖最后由 abin 于 2022-3-21 09:39 编辑

8375C双路 + 256 GB (16 x 16)    两台
120GB 系统盘两个
8TB机械两个, 一个存数据, 一个做备份(如果预算有限, 拿掉备份, 或者降低容量)

一个PCIe 4.0接口的固态硬盘, 容量根据需求选择;
或者4个1TB/512GB SATA 3.0 固态做RAID0

找两个56Gbps IB网卡, 一个线.

IB网络用咸鱼旧货,
找个公司给你做, 大概能搞定.

你将会得到, 128个物理核心, 512GB内存.
如果是VASP, 128个物理核心并行, 网络延时在微秒级别.

或者, 可以购买双路的AMD 7742平台. 不过内存通道没有上述方案多, 跑VASP可能性能稍差.

另,
8375C上路价格, 来自于本论坛中其他朋友的分享.
另,
双机拼装为集群的方案, 详见
http://bbs.keinsci.com/thread-16010-1-1.html


仅供参考.


作者
Author:
Shana    时间: 2022-3-21 09:43
abin 发表于 2022-3-21 09:36
8375C双路 + 256 GB (16 x 16)    两台
120GB 系统盘两个
8TB机械两个, 一个存数据, 一个做备份(如果预算 ...

好的,谢谢老师!
作者
Author:
abin    时间: 2022-3-21 11:27
Shana 发表于 2022-3-21 09:43
好的,谢谢老师!

补充一下,
数月之前,
我根据当时的价格,
大概分析过,
10W预算, 跑VASP, 买什么样的设备, 比较划算,
仅供参考.

工作站、小型集群解决方案—让VASP跑的更快
https://www.cailiaoren.com/vinfo ... id=216&vid=1938
https://www.cailiaoren.com/vinfo ... id=216&vid=1992

作者
Author:
Shana    时间: 2022-3-21 16:56
abin 发表于 2022-3-21 11:27
补充一下,
数月之前,
我根据当时的价格,

好的,谢谢老师
作者
Author:
KingHPC    时间: 2022-3-21 18:27
9W可以买到不错的了
作者
Author:
biogon    时间: 2022-3-22 09:25
7T83双路加上256g内存现在六万多大概就能搞定,或者买两个双路8375也行
作者
Author:
hgyhgy    时间: 2022-3-22 17:20
Shana 发表于 2022-3-20 22:29
就一两个人用,但是一般用杂化泛函,很需要核心,内存的话,32G*12的话,能在预算内吗?

如果主要用杂化泛函,其实应该考虑配置GPU的。

使用GPU版本的vasp, 对于杂化泛函的加速尤为明显。普通版本的计算杂化泛函,速度会很慢的。




作者
Author:
abin    时间: 2022-3-22 17:50
hgyhgy 发表于 2022-3-22 17:20
如果主要用杂化泛函,其实应该考虑配置GPU的。

使用GPU版本的vasp, 对于杂化泛函的加速尤为明显。普通 ...

加速明显的VASP可用的GPU,
大概三四万一个呀~

不晓得预算可行否?
作者
Author:
hgyhgy    时间: 2022-3-22 18:47
本帖最后由 hgyhgy 于 2022-3-22 18:54 编辑
abin 发表于 2022-3-22 17:50
加速明显的VASP可用的GPU,
大概三四万一个呀~

他这个情况特殊。
如果主要做杂化泛函的话,GPU版本的速度会快很多很多的。快10-100倍都有可能。
可以选择最低配的gpu,比如2万一个,也能买4个。
nvdia目前的推荐,也是一个cpu socket最多配4个GPU.
然后买个单路cpu,主板。

其实我好奇那种单精度游戏显卡,究竟效果怎样。网上有人说过这个,但没有下文。
我觉得至少要有nv link才行。vasp wiki似乎不推荐。但这个没有实际测试,其实不能说明什么。据nvdia的说法,就是肯定能计算。

vasp gpu版本最开始的时候,其实是主要依赖于单精度计算的。甚至也说明了gpu版本的精度稍差,要和普通版本进行对照验证结果。但后面有很大的改变,是否更多使用gpu的双精度计算也不清楚。


比较少做杂化泛函计算的,考虑到价格,没实际测试,还不能有结论。
主要做杂化泛函的,很大概率是gpu的速度要快很多。你想,快10-100倍,多少cpu都弥补不了差距。



作者
Author:
啊不错的飞过海    时间: 2022-3-22 18:52
abin 发表于 2022-3-22 17:50
加速明显的VASP可用的GPU,
大概三四万一个呀~

旧一点的K40之类现在已经降到1k档了?虽说性能属实捉急了点......
倒是V100就得1万多(16GB显存版)/3万起(32GB)了......
作者
Author:
abin    时间: 2022-3-22 19:01
hgyhgy 发表于 2022-3-22 18:47
他这个情况特殊。
如果主要做杂化泛函的话,GPU版本的速度会快很多很多的。快10-100倍都有可能。
可以 ...

VASP,只要是GPU,就能跑。
比如垃圾GTX960。

但是官方也说了,
严重依赖双精度性能。
普通的GPU卡,就不用折腾了。

看看高斯官方用啥,
VASP 用啥卡,是错不了的。


作者
Author:
hgyhgy    时间: 2022-3-22 19:06
啊不错的飞过海 发表于 2022-3-22 18:52
旧一点的K40之类现在已经降到1k档了?虽说性能属实捉急了点......
倒是V100就得1万多(16GB显存版)/3万 ...

我之前用过的就是V100的机器,每台机器有6个GPU, nv link相连。
IBM POWER9 CPUs and NVIDIA Volta GPUs
NVIDIA Volta V100s (6/node)

这个V100怎么查价格?与V100s有什么区别呢。

当时只是vasp gpu的旧版。据说现在新版有了很大的提升。
作者
Author:
hgyhgy    时间: 2022-3-22 19:41
abin 发表于 2022-3-22 19:01
VASP,只要是GPU,就能跑。
比如垃圾GTX960。

至少旧gpu版的,和你说不符合。
旧gpu版的,主要依赖于单精度计算。

至于官方也没那样说。他们没有进行实际测试。
N.B.: Running VASP on other NVIDIA GPUs (e.g. "gaming" hardware) is technically possible but not advisable: these GPUs are not well suited since they do not offer fast double precision floating point arithmetic (FP64) performance and in general have smaller memories without error correction code (ECC) capabilities.
作者
Author:
abin    时间: 2022-3-22 20:02
hgyhgy 发表于 2022-3-22 19:41
至少旧gpu版的,和你说不符合。
旧gpu版的,主要依赖于单精度计算。

我只测试过6.2.x版本。
其他版本不清楚。

按照vasp wiki的说法,
啥卡都能跑,
最好还是用专业卡。

作者
Author:
啊不错的飞过海    时间: 2022-3-23 12:30
hgyhgy 发表于 2022-3-22 19:06
我之前用过的就是V100的机器,每台机器有6个GPU, nv link相连。
IBM POWER9 CPUs and NVIDIA Volta GPUs ...

V100是17年发布的,V100s是19年发布的,主要差异似乎是V100s频率高了(且功率没变)?......以及说来惭愧是上某宝查的价格(
K40是nvidia13年发布的,双精度单卡能达到1.43TFlops;相比V100是差得远了。
作者
Author:
KingHPC    时间: 2022-3-28 11:00
9W 够够的了啊
作者
Author:
beowulf    时间: 2022-3-29 10:20
hgyhgy 发表于 2022-3-22 18:47
他这个情况特殊。
如果主要做杂化泛函的话,GPU版本的速度会快很多很多的。快10-100倍都有可能。
可以 ...

nv官方的测试也没有快到这么多。
单卡快到两三倍的样子,还是顶级的卡。
你看到的10倍以上是多卡拉出来的吧,那个价格超预算。

vasp的gpu支持算是比较差的。
作者
Author:
beowulf    时间: 2022-3-29 10:26
abin 发表于 2022-3-22 17:50
加速明显的VASP可用的GPU,
大概三四万一个呀~

v100差不多这个价格。
有个低价的替代方案,就是titan v,v100的马甲卡。

另外现在采购v100要擦亮眼睛,太老了,要区分备件/新卡,还是换下来过维修的卡。

a100都要退市了,前几天才发布的h100.
作者
Author:
KiritsuguPapa    时间: 2022-3-30 13:37
跑vasp不要买amd,vasp对eypc的支持还不好,跑大体系很吃亏。
gpu跑HSE,测试过好像是3080记不太清了,记得和铂金一代性能接近。但CPU核只能用一个核,其他核都在围观(编译的是OpenMP版本,但没效果)
建议跑vasp无脑上8375C 别看什么gpu,性价比差得远。官方测试都是什么8卡A100的测试。。有8卡A100的钱都能组个10台IB网的8375了,不比8个A100差。
9万多预算完全可以买两台8375+256G内存,IB直连。
我是做成套方案的 有兴趣可以私信

作者
Author:
hgyhgy    时间: 2022-3-30 15:24
beowulf 发表于 2022-3-29 10:20
nv官方的测试也没有快到这么多。
单卡快到两三倍的样子,还是顶级的卡。
你看到的10倍以上是多卡拉出来 ...

完全可能是因为优化不行或者参数设置不好造成的。

优化好和设置好的gpu 版本Vasp速度很快。普通版本,再多节点并行,都无法追得上的。

但旧版gpu版本也不是没有缺点,就是k点数量太少,优势就不明显了。比如两个gpu算一个k点,比起一个gpu计算一个k点,效果提升不明显,甚至完全没有效果。要使用magma才行,但并行效率还不是很好。

最有效率的是多k点的体系,一个不可约k点用一个gpu计算,多k点的计算,就和单k点一样的速度。举个例子,一台机器有6个gpu, 计算有6个不可约k点的大体系,所用时间就和1个k点所用的时间一样。并行效率几乎按比例减少,无任何损耗。

大体系的,速度优势才能体现出来。小体系,速度反而不如普通版本的。







作者
Author:
KiritsuguPapa    时间: 2022-3-30 16:04
hgyhgy 发表于 2022-3-30 15:24
完全可能是因为优化不行或者参数设置不好造成的。

优化好和设置好的gpu 版本Vasp速度很快。普通版本, ...

用kpar比较属于不讲武德  大体系很多用111的gamma点算呢
作者
Author:
beowulf    时间: 2022-3-30 16:13
本帖最后由 beowulf 于 2022-3-30 16:15 编辑
hgyhgy 发表于 2022-3-30 15:24
完全可能是因为优化不行或者参数设置不好造成的。

优化好和设置好的gpu 版本Vasp速度很快。普通版本, ...

vasp的官方测试:


作者
Author:
hgyhgy    时间: 2022-3-31 10:35
本帖最后由 hgyhgy 于 2022-3-31 10:50 编辑
beowulf 发表于 2022-3-30 16:13
vasp的官方测试:

这个可是一个gpu与128核的对比。

而且这个128核中的一个cpu的性能不怎么好。

按它这个测试,是一个A100就比两个7742,即一个节点的速度快2.5倍了。就是一个A100就相当于2.5台7742。

这个测试,不是正正说明计算HSE, 就应该使用GPU?

查了一下一个40G内存的A100是4.5万。这不是明显应该要买A100? 一个A100就相当于2.5台7742了。不过,要考虑到内存问题,买一个80G显存的A100, 7.5万,剩下1.5万配cpu还够的。

结论不正正是使用HSE, 使用gpu的效果更好??

使用普通的DFT,加速效果可能没那么好。除非能够配够8个gpu,那样多gpu并行就可能比多cpu行要好,需要具体测试。但对于HSE,就单个A100就相当于2.5台7742了,根本都不必考虑并行问题了。

我当初测试的机器,单cpu的性能就很好,一台机器只有32个Cpu,然后有六个gpu,而且是多k点并行的。
以后升级也方便,直接增加A100就行了。一台足足可以增加到4个A100。主cpu的核数只要大于等于4就足够了。如果使用双路主板,可以增加到8个。


作者
Author:
abin    时间: 2022-3-31 10:50
VASP GPU
应该是一个MPI进程对应一个GPU.
但是一个MPI进程可以配合多个openMP呀.
所以开启混合编译模式就可以了.





欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3