计算化学公社

标题: 8375c的配置好，还是7T83的好？ [打印本页]

作者
Author: hgyhgy 时间: 2022-3-25 16:18
标题: 8375c的配置好，还是7T83的好？
主要使用VASP. 8375c好像降价了，预算足够买4台，加一台i5作为登录节点和存储节点。预算不足够全部购买32G内存。因此两台32G，两台16G。千兆网连接。两台32G之间用ib线直连。两台16G的一样。采用56 的ib卡。
大家看看这样是否有问题？

(, 下载次数 Times of downloads: 149)

另外也考虑7T83的机器。这个只足够买两台。还在考虑有什么便宜一点的，可以作为登录节点和存储节点。8375c会超预算。
(, 下载次数 Times of downloads: 181)

是否可以考虑把版主推荐的
CPU：2* XEON Platinum 8175M正式版（24核2.5G，全核睿频到3.1G，散，无集显）2*4200
散热器：2* 金钱豹LGA3647 散热器  2*210
主板：永擎EP2C621D12 WS 3500
机械硬盘：希捷企业级银河Exos 4TB 256MB 7200rpm SATA3 (ST4000NM000A) 990
固态硬盘：三星PM981a 2TB 1500
内存：12* 三星DDR4-2666 ECC REG 16GB  12*450
电源：振华LEADEX HG 750W 820
机箱：追风者614PC 550
键盘鼠标：罗技MK200 多媒体套装  90
总价：约21700

作为登录节点和存储节点，也能用于计算？

作者
Author: abin 时间: 2022-3-25 16:34
没有IB交换机，
可能用起来没有那么理想的。
配置稍微麻烦……

反正你的场景，基本写内存……

做成两套双节点集群……
共享数据，但是各自调度……

这种折腾的事情，还不如多花点钱，弄交换机方便。

作者
Author: biogon 时间: 2022-3-25 19:17
都8375了，还是用100gib吧，单口的CX455A也就一千多

作者
Author: abin 时间: 2022-3-25 19:58
对于小规模的集群，
网络更应该看重latency,
而非带宽。

对于vasp，经由MPI交换的数据包，
Package size不大，
但是交换频繁，
Latency主控数据交换的过程。

看参数，会发现，多年前的56Gpbs
和现在的200Gbps，没有达到两倍以上的差异。

VASP还好，几乎不写硬盘。
如果是ORCA,疯狂写内存和硬盘，
用56Gpbs就差不多了。
因为普通固态硬盘，
读写能做到7GB/s就很难了，
网络太快，读写依旧是短板，还是慢。

既然自己能把控硬件，
建议平衡各个组件的综合性能。

作者
Author: snljty 时间: 2022-3-25 20:31

abin 发表于 2022-3-25 19:58
对于小规模的集群，
网络更应该看重latency,
而非带宽。

为什么卢老师之前测的ORCA做coupled cluster，http://sobereva.com/397，机械硬盘和NVMe固态计算时间并没有差别呢？

作者
Author: hgyhgy 时间: 2022-3-25 22:02

abin 发表于 2022-3-25 16:34
没有IB交换机，
可能用起来没有那么理想的。
配置稍微麻烦……

后来注意到那个内存私自变成了2666，不是3200的。其实不足够资金买ib网卡和网线。这样就不得不去掉了ib网卡了。还是内存频率更重要。

作者
Author: abin 时间: 2022-3-25 22:19
本帖最后由 abin 于 2022-3-25 22:20 编辑

snljty 发表于 2022-3-25 20:31
为什么卢老师之前测的ORCA做coupled cluster，http://sobereva.com/397，机械硬盘和NVMe固态计算时间并没 ...

单机单任务顺序读写,
与多任务随机并发读写的差异.

另
我一个跑ORCA计算, 读写走网络的机器读写数据.
      RX packets 175000698814  bytes 182708752502848 (166.1 TiB)
      RX errors 0  dropped 17079622  overruns 17079622  frame 0
      TX packets 269333283592  bytes 334041981532515 (303.8 TiB)

大概累计60天满负载.

作者
Author: snljty 时间: 2022-3-25 22:24

abin 发表于 2022-3-25 22:19
单机单任务顺序读写,
与多任务随机并发读写的差异.

好的明白了，谢谢老师。

作者
Author: biogon 时间: 2022-3-26 17:53

snljty 发表于 2022-3-25 20:31
为什么卢老师之前测的ORCA做coupled cluster，http://sobereva.com/397，机械硬盘和NVMe固态计算时间并没 ...

orca运行不需要那么高的连续读写速度

作者
Author: KiritsuguPapa 时间: 2022-3-27 15:01
跑vasp不要用7t83 速度慢很多试过很多办法编译都不行

作者
Author: KiritsuguPapa 时间: 2022-3-27 15:09
另外建议弄一台64Gx16，剩下的都用16Gx16，因为算vasp经常是如果256G内存不够用，那么512G也不会够用，最好还是搞个1T内存的节点。

作者
Author: KiritsuguPapa 时间: 2022-3-27 15:14
主节点可以考虑用8175，支持avx512编译程序方便，如果用e5你还得去计算节点编译

作者
Author: hgyhgy 时间: 2022-3-28 09:08

KiritsuguPapa 发表于 2022-3-27 15:09
另外建议弄一台64Gx16，剩下的都用16Gx16，因为算vasp经常是如果256G内存不够用，那么512G也不会够用，最好 ...

这个机器最多支持32G的吧？

如果你内存不够用，可以这样做：使用比节点数少的核心数，或者多节点并行计算（可以适当减少核心数）。

Vasp并行的过程中，内存数据并非只有一份的，多份拷贝就容易内存不足。比如你64个核，然后你只用32个核，每一个mpi能用的内存就多。

作者
Author: hgyhgy 时间: 2022-3-28 09:11

KiritsuguPapa 发表于 2022-3-27 15:01
跑vasp不要用7t83 速度慢很多试过很多办法编译都不行

我看到有说法是vasp6.3才支持三代。但实际上并没后续说明，没说清楚用了vasp.3后，速度是否正常了。

但我也怀疑定制版，是否削减了某些方面，导致不太适合科学计算。7t83的频率和7663的相同，价格却相差那么多。

作者
Author: KingHPC 时间: 2022-3-28 11:02
预算充足用7T83 其次用8375C

作者
Author: KiritsuguPapa 时间: 2022-3-28 18:13

hgyhgy 发表于 2022-3-28 09:08
这个机器最多支持32G的吧？

如果你内存不够用，可以这样做：使用比节点数少的核心数，或者多节点并行 ...

不是啊单条64G、128G都可以用（指X12+8375）
少用一些核当然是可以但是浪费啊（

作者
Author: hgyhgy 时间: 2022-3-29 09:29
本帖最后由 hgyhgy 于 2022-3-29 09:30 编辑

KiritsuguPapa 发表于 2022-3-28 18:13
不是啊单条64G、128G都可以用（指X12+8375）
少用一些核当然是可以但是浪费啊（

那双节点并行呀。就算千兆网，双节点并行的效率也不太差的。3节点就不行。
如果是一个64g，其他是16g, 那么就算你想平行，效果也不行呀。只能每个节点最多使用16g。

作者
Author: KiritsuguPapa 时间: 2022-3-29 13:55

hgyhgy 发表于 2022-3-29 09:29
那双节点并行呀。就算千兆网，双节点并行的效率也不太差的。3节点就不行。
如果是一个64g，其他是16g, ...

主要是每核内存不够即使跨节点并行每核内存也不会变多除非减少核数跑……（但是就浪费一些cpu空闲着了

作者
Author: hgyhgy 时间: 2022-3-30 10:37
本帖最后由 hgyhgy 于 2022-3-30 10:39 编辑

KiritsuguPapa 发表于 2022-3-29 13:55
主要是每核内存不够即使跨节点并行每核内存也不会变多除非减少核数跑……（但是就浪费一些cpu空闲着了

多节点并行，每个mpi所需内存就会减少。

一个节点的情况，是因为总内存不会增加，你只能减少核数跑来增加每个mpi可用的内存。

你用两个节点跑，每个mpi所需内存就会减少，虽然不会按比例减少。vasp不可能内存效率那么低，把完全相同的内存复制许多份的。你想一下就明白，比如机器有128核，难道真的把内存复制128份吗？然后每一核需要的内存相对于单核运行时的不会减少？它只是把某些共用数据会复制多份，不可能把所有内存数据复制那么多份。

你可以试试。我看使用说明，都是内存不足，可以减少核数来跑，或者增加节点来跑。

作者
Author: abin 时间: 2022-3-30 11:31

hgyhgy 发表于 2022-3-30 10:37
多节点并行，每个mpi所需内存就会减少。

一个节点的情况，是因为总内存不会增加，你只能减少核数跑来 ...

合理使用 MPI + OpenMP混合并行方案, 才能有效降低内存占用....
要么就买内存条....

作者
Author: biogon 时间: 2022-3-30 12:46

hgyhgy 发表于 2022-3-28 09:11
我看到有说法是vasp6.3才支持三代。但实际上并没后续说明，没说清楚用了vasp.3后，速度是否正常了。

...

那纯粹就是vasp的问题，定制版和普通版本除了频率没有区别，跑别的程序都好好的

作者
Author: gog 时间: 2022-4-18 07:06

biogon 发表于 2022-3-30 12:46
那纯粹就是vasp的问题，定制版和普通版本除了频率没有区别，跑别的程序都好好的

AMD的cpu跑VASP，可能还有些问题。
AMD的优势是cpu自带的缓存大，计算效能比intel的略高点。整些其他计算都还好。
很想更新到AMD平台跑计算呢

作者
Author: hgyhgy 时间: 2022-4-18 15:32

biogon 发表于 2022-3-30 12:46
那纯粹就是vasp的问题，定制版和普通版本除了频率没有区别，跑别的程序都好好的

这个其实主要是因为预算买不了3台。2台对4台，怎么也不划算。这个和个人买电脑有一点不一样。个人买电脑，可以因为性价比更高一点，提高一点预算。如果恰巧能买3台，那么显然3台就比4台8375c要好了。

欢迎光临计算化学公社 (http://bbs.keinsci.com/)