计算化学公社

标题: 求助-课题组购机-主演用于gromacs跑REMD [打印本页]

作者
Author: 小伟伟 时间: 2023-6-6 23:52
标题: 求助-课题组购机-主演用于gromacs跑REMD
各位老师好；
目前课题组需要购置服务器，主要用于gromacs计算跑REMD，看了sob老师的购机配置推荐考虑AMD7950X+4090但是，AMD7950X的cpu只有16核建立副本的时候只能创建16个副本，有没其他方案可以在采用GPU加速的同时跑REMD，如果不用GPU加速的话，跑REMD速度很慢所以想用GPU加速。各位老师有没有好的推荐呢？我认为最好都需要48核才行，如果采用2个cpu对运算速度有没有影响呢？

作者
Author: Entropy.S.I 时间: 2023-6-7 00:32
本帖最后由 Entropy.S.I 于 2023-6-7 00:34 编辑

问配置先说预算。

我3月份的文章中有提到过REMD：http://bbs.keinsci.com/thread-35988-1-1.html
不过主要是在强调REMD各replica间不需要大量数据交换，所以用游戏卡搭集群性价比极高。

如果只是小团队买工作站单机，用7B13之类性价比高的服务器CPU配8块4090就行了，整机15万左右。在工作站单机上跑REMD，由于需要在1块GPU上跑大量replica，每个replica分到的GPU性能很少，所以CPU单核性能不会有瓶颈，所以7B13这种CPU很合适。

毕竟你没说预算，我也没时间像上面的文章一样罗列一大堆配置，所以直接推荐了一个性价比最高、最合适的配置。

作者
Author: k64_cc 时间: 2023-6-7 08:38
本帖最后由 k64_cc 于 2023-6-7 08:44 编辑

“AMD7950X的cpu只有16核，建立副本的时候只能创建16个副本”是不对的，mpi可以创建超过slot数的thread。对于openmpi来说，加一个“--oversubscribe”的setting就行。当然买好点的CPU肯定不是坏事。

作者
Author: Entropy.S.I 时间: 2023-6-7 09:27
本帖最后由 Entropy.S.I 于 2023-6-7 09:33 编辑

k64_cc 发表于 2023-6-7 08:38
“AMD7950X的cpu只有16核，建立副本的时候只能创建16个副本”是不对的，mpi可以创建超过slot数的thread。对 ...

每个replica至少要分到一个完整的、具有超线程的CPU核心（mpirun -np [replica数] ... -ntomp 2 -pin on -pinstride 1 ...），如果这点资源都共享，那么模拟速度会暴跌至无法使用的程度。

对于单机跑REMD的情况，使用多核强、性价比高的服务器CPU（尤其是EPYC）是最佳的，跑REMD的体系不会小，普遍需要使用数十、上百个replica。

作者
Author: 小伟伟 时间: 2023-6-7 12:44
本帖最后由小伟伟于 2023-6-7 12:46 编辑

Entropy.S.I 发表于 2023-6-7 09:27
每个replica至少要分到一个完整的、具有超线程的CPU核心（mpirun -np [replica数] ... -ntomp 2 -pin on ...

预算10万，使用高性能cpu后是不是可以采用GPU加速，目前想使用48核或64核的cpu，老师您有推荐配置吗？
之前就是使用纯cpu计算remd速度太慢了

作者
Author: Entropy.S.I 时间: 2023-6-7 12:47
本帖最后由 Entropy.S.I 于 2023-6-7 12:49 编辑

小伟伟发表于 2023-6-7 12:44
预算10万，使用高性能cpu后是不是可以采用GPU加速，目前想使用48核或64核的cpu，老师您有推荐配置吗

我前面已经说了，7B13配8块4090，整机15万。如果预算限制在10万，就用单路7B13配6块4090，实际使用时最多可以分出60个replica，每块4090跑10个replica，如果要采样的体系不大，60个replica基本也够用。当然，如果不均匀分配，实际上可以跑64个replica，此时性能会由于负载不均衡而降低，具体降低多少需实测。

作者
Author: k64_cc 时间: 2023-6-7 13:52

Entropy.S.I 发表于 2023-6-7 09:27
每个replica至少要分到一个完整的、具有超线程的CPU核心（mpirun -np [replica数] ... -ntomp 2 -pin on ...

CPU满了是这样的，所以买好点的CPU配置肯定是好事，as I said。

用几十上百个replica跑parallel tempering这件事很奇怪而且效率不高，真有这种需求的话应该考虑特定自由度上的enhanced sampling方法，而非暴力硬上，给整个体系加速，然后采一堆无效样本。aMD、ITS、REST2啥的都可以一用，再不济改改力场参数，把二面角从1到0做个scale，跑个HREMD也行，基本可以把replica限制在十几个的尺度。

作者
Author: Entropy.S.I 时间: 2023-6-7 14:43

k64_cc 发表于 2023-6-7 13:52
CPU满了是这样的，所以买好点的CPU配置肯定是好事，as I said。

用几十上百个replica跑parallel tempe ...

我暂时没有深入研究REMD，但按照我的理解，对于庞杂的体系，比如特别大的蛋白质、胶束，整个模型有大几十万~上百万原子，很多时候并不能很好地预估“特定自由度”，在初期的测试中使用几十乃至上百个replica进行REMD模拟是很常规的需求，后续确实可以根据测试的情况来删减一些replica。

作者
Author: 小伟伟 时间: 2023-6-7 20:34

Entropy.S.I 发表于 2023-6-7 12:47
我前面已经说了，7B13配8块4090，整机15万。如果预算限制在10万，就用单路7B13配6块4090，实际使用时最多 ...

我问了咱们这边的服务器商，他们单路最多做到4张gpu上到6张的话gpu性能会下降，上四张gpu卡是否推荐呢？

作者
Author: Entropy.S.I 时间: 2023-6-7 23:23

小伟伟发表于 2023-6-7 20:34
我问了咱们这边的服务器商，他们单路最多做到4张gpu上到6张的话gpu性能会下降，上四张gpu卡是否推荐呢？

超微H12SSL-i，有5条PCIe Gen4 x16 slot + 2条PCIe Gen4 x8 slot，配5块4090可以保证各GPU性能均衡，配6块，需自行调试，给插在x8 slot上的4090少分一些MPI Rank。

另外，我了解到目前开源宇宙公司设计了6卡RTX4090（每卡4槽宽，共20+4槽）的整机方案。

作者
Author: Entropy.S.I 时间: 2023-6-15 09:41
本帖最后由 Entropy.S.I 于 2023-6-15 10:11 编辑

小伟伟发表于 2023-6-7 20:34
我问了咱们这边的服务器商，他们单路最多做到4张gpu上到6张的话gpu性能会下降，上四张gpu卡是否推荐呢？

今天看到一片具有6+1个全速PCIe Gen4 x16 slot的EPYC 2/3代单路主板，永擎ROMED8-2T，你拿来用非常合适。

https://www.asrockrack.com/gener ... 8-2T#Specifications

作者
Author: lucl13 时间: 2023-6-16 00:41
请问这种服务器主板怎么配机箱呀？有现成的可以买吗还是得自己DIY？

欢迎光临计算化学公社 (http://bbs.keinsci.com/)