计算化学公社

标题: 8375c的配置好,还是7T83的好? [打印本页]

作者
Author:
hgyhgy    时间: 2022-3-25 16:18
标题: 8375c的配置好,还是7T83的好?
主要使用VASP.   8375c好像降价了,预算足够买4台,加一台i5作为登录节点和存储节点。预算不足够全部购买32G内存。因此两台32G,两台16G。千兆网连接。两台32G之间用ib线直连。两台16G的一样。采用56 的ib卡。
大家看看这样是否有问题?


(, 下载次数 Times of downloads: 87)


另外也考虑7T83的机器。这个只足够买两台。还在考虑有什么便宜一点的,可以作为登录节点和存储节点。8375c会超预算。
(, 下载次数 Times of downloads: 111)

是否可以考虑把版主推荐的
CPU:2* XEON Platinum 8175M正式版(24核2.5G,全核睿频到3.1G,散,无集显)2*4200
散热器:2* 金钱豹LGA3647 散热器  2*210
主板:永擎EP2C621D12 WS 3500
机械硬盘:希捷 企业级 银河Exos 4TB 256MB 7200rpm SATA3 (ST4000NM000A) 990
固态硬盘:三星PM981a 2TB 1500
内存:12* 三星DDR4-2666 ECC REG 16GB  12*450
电源:振华LEADEX HG 750W 820  
机箱:追风者614PC 550
键盘鼠标:罗技MK200 多媒体套装  90
总价:约21700


作为登录节点和存储节点,也能用于计算?




















作者
Author:
abin    时间: 2022-3-25 16:34
没有IB交换机,
可能用起来没有那么理想的。
配置稍微麻烦……

反正你的场景,基本写内存……

做成两套双节点集群……
共享数据,但是各自调度……

这种折腾的事情,还不如多花点钱,弄交换机方便。
作者
Author:
biogon    时间: 2022-3-25 19:17
都8375了,还是用100gib吧,单口的CX455A也就一千多
作者
Author:
abin    时间: 2022-3-25 19:58
对于小规模的集群,
网络更应该看重latency,
而非带宽。

对于vasp,经由MPI交换的数据包,
Package size不大,
但是交换频繁,
Latency主控数据交换的过程。

看参数,会发现,多年前的56Gpbs
和现在的200Gbps,没有达到两倍以上的差异。

VASP还好,几乎不写硬盘。
如果是ORCA,疯狂写内存和硬盘,
用56Gpbs就差不多了。
因为普通固态硬盘,
读写能做到7GB/s就很难了,
网络太快,读写依旧是短板,还是慢。

既然自己能把控硬件,
建议平衡各个组件的综合性能。


作者
Author:
snljty    时间: 2022-3-25 20:31
abin 发表于 2022-3-25 19:58
对于小规模的集群,
网络更应该看重latency,
而非带宽。

为什么卢老师之前测的ORCA做coupled cluster,http://sobereva.com/397,机械硬盘和NVMe固态计算时间并没有差别呢?
作者
Author:
hgyhgy    时间: 2022-3-25 22:02
abin 发表于 2022-3-25 16:34
没有IB交换机,
可能用起来没有那么理想的。
配置稍微麻烦……

后来注意到那个内存私自变成了2666,不是3200的。其实不足够资金买ib网卡和网线。这样就不得不去掉了ib网卡了。还是内存频率更重要。
作者
Author:
abin    时间: 2022-3-25 22:19
本帖最后由 abin 于 2022-3-25 22:20 编辑
snljty 发表于 2022-3-25 20:31
为什么卢老师之前测的ORCA做coupled cluster,http://sobereva.com/397,机械硬盘和NVMe固态计算时间并没 ...

单机单任务顺序读写,
与多任务随机并发读写的差异.


我一个跑ORCA计算, 读写走网络的机器读写数据.
        RX packets 175000698814  bytes 182708752502848 (166.1 TiB)
        RX errors 0  dropped 17079622  overruns 17079622  frame 0
        TX packets 269333283592  bytes 334041981532515 (303.8 TiB)

大概累计60天满负载.

作者
Author:
snljty    时间: 2022-3-25 22:24
abin 发表于 2022-3-25 22:19
单机单任务顺序读写,
与多任务随机并发读写的差异.

好的明白了,谢谢老师。
作者
Author:
biogon    时间: 2022-3-26 17:53
snljty 发表于 2022-3-25 20:31
为什么卢老师之前测的ORCA做coupled cluster,http://sobereva.com/397,机械硬盘和NVMe固态计算时间并没 ...

orca运行不需要那么高的连续读写速度
作者
Author:
KiritsuguPapa    时间: 2022-3-27 15:01
跑vasp不要用7t83 速度慢很多 试过很多办法编译都不行
作者
Author:
KiritsuguPapa    时间: 2022-3-27 15:09
另外建议弄一台64Gx16,剩下的都用16Gx16,因为算vasp经常是如果256G内存不够用,那么512G也不会够用,最好还是搞个1T内存的节点。
作者
Author:
KiritsuguPapa    时间: 2022-3-27 15:14
主节点可以考虑用8175,支持avx512编译程序方便,如果用e5你还得去计算节点编译
作者
Author:
hgyhgy    时间: 2022-3-28 09:08
KiritsuguPapa 发表于 2022-3-27 15:09
另外建议弄一台64Gx16,剩下的都用16Gx16,因为算vasp经常是如果256G内存不够用,那么512G也不会够用,最好 ...

这个机器最多支持32G的吧?

如果你内存不够用,可以这样做:使用比节点数少的核心数,或者多节点并行计算(可以适当减少核心数)。

Vasp并行的过程中,内存数据并非只有一份的,多份拷贝就容易内存不足。比如你64个核,然后你只用32个核,每一个mpi能用的内存就多。

作者
Author:
hgyhgy    时间: 2022-3-28 09:11
KiritsuguPapa 发表于 2022-3-27 15:01
跑vasp不要用7t83 速度慢很多 试过很多办法编译都不行

我看到有说法是vasp6.3才支持三代。但实际上并没后续说明,没说清楚用了vasp.3后,速度是否正常了。

但我也怀疑定制版,是否削减了某些方面,导致不太适合科学计算。7t83的频率和7663的相同,价格却相差那么多。
作者
Author:
KingHPC    时间: 2022-3-28 11:02
预算充足用7T83  其次用8375C
作者
Author:
KiritsuguPapa    时间: 2022-3-28 18:13
hgyhgy 发表于 2022-3-28 09:08
这个机器最多支持32G的吧?

如果你内存不够用,可以这样做:使用比节点数少的核心数,或者多节点并行 ...

不是啊 单条64G、128G都可以用(指X12+8375)
少用一些核当然是可以但是浪费啊(
作者
Author:
hgyhgy    时间: 2022-3-29 09:29
本帖最后由 hgyhgy 于 2022-3-29 09:30 编辑
KiritsuguPapa 发表于 2022-3-28 18:13
不是啊 单条64G、128G都可以用(指X12+8375)
少用一些核当然是可以但是浪费啊(

那双节点并行呀。就算千兆网,双节点并行的效率也不太差的。3节点就不行。
如果是一个64g,其他是16g, 那么就算你想平行,效果也不行呀。只能每个节点最多使用16g。

作者
Author:
KiritsuguPapa    时间: 2022-3-29 13:55
hgyhgy 发表于 2022-3-29 09:29
那双节点并行呀。就算千兆网,双节点并行的效率也不太差的。3节点就不行。
如果是一个64g,其他是16g,  ...

主要是每核内存不够 即使跨节点并行每核内存也不会变多 除非减少核数跑……(但是就浪费一些cpu空闲着了
作者
Author:
hgyhgy    时间: 2022-3-30 10:37
本帖最后由 hgyhgy 于 2022-3-30 10:39 编辑
KiritsuguPapa 发表于 2022-3-29 13:55
主要是每核内存不够 即使跨节点并行每核内存也不会变多 除非减少核数跑……(但是就浪费一些cpu空闲着了

多节点并行,每个mpi所需内存就会减少。

一个节点的情况,是因为总内存不会增加,你只能减少核数跑来增加每个mpi可用的内存。

你用两个节点跑,每个mpi所需内存就会减少,虽然不会按比例减少。vasp不可能内存效率那么低,把完全相同的内存复制许多份的。你想一下就明白,比如机器有128核,难道真的把内存复制128份吗?然后每一核需要的内存相对于单核运行时的不会减少?它只是把某些共用数据会复制多份,不可能把所有内存数据复制那么多份。

你可以试试。我看使用说明,都是内存不足,可以减少核数来跑,或者增加节点来跑。
作者
Author:
abin    时间: 2022-3-30 11:31
hgyhgy 发表于 2022-3-30 10:37
多节点并行,每个mpi所需内存就会减少。

一个节点的情况,是因为总内存不会增加,你只能减少核数跑来 ...

合理使用 MPI + OpenMP混合并行方案, 才能有效降低内存占用....
要么就买内存条....


作者
Author:
biogon    时间: 2022-3-30 12:46
hgyhgy 发表于 2022-3-28 09:11
我看到有说法是vasp6.3才支持三代。但实际上并没后续说明,没说清楚用了vasp.3后,速度是否正常了。

...

那纯粹就是vasp的问题,定制版和普通版本除了频率没有区别,跑别的程序都好好的
作者
Author:
gog    时间: 2022-4-18 07:06
biogon 发表于 2022-3-30 12:46
那纯粹就是vasp的问题,定制版和普通版本除了频率没有区别,跑别的程序都好好的

AMD的cpu跑VASP,可能还有些问题。
AMD的优势是cpu自带的缓存大,计算效能比intel的略高点。整些其他计算都还好。
很想更新到AMD平台跑计算呢
作者
Author:
hgyhgy    时间: 2022-4-18 15:32
biogon 发表于 2022-3-30 12:46
那纯粹就是vasp的问题,定制版和普通版本除了频率没有区别,跑别的程序都好好的

这个其实主要是因为预算买不了3台。2台对4台,怎么也不划算。这个和个人买电脑有一点不一样。个人买电脑,可以因为性价比更高一点,提高一点预算。如果恰巧能买3台,那么显然3台就比4台8375c要好了。




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3