计算化学公社

标题: 求助-课题组购机-主演用于gromacs跑REMD [打印本页]

作者
Author:
小伟伟    时间: 2023-6-6 23:52
标题: 求助-课题组购机-主演用于gromacs跑REMD
各位老师好;
目前课题组需要购置服务器,主要用于gromacs计算跑REMD,看了sob老师的购机配置推荐考虑AMD7950X+4090但是,AMD7950X的cpu只有16核建立副本的时候只能创建16个副本,有没其他方案可以在采用GPU加速的同时跑REMD,如果不用GPU加速的话,跑REMD速度很慢所以想用GPU加速。各位老师有没有好的推荐呢?我认为最好都需要48核才行,如果采用2个cpu对运算速度有没有影响呢?

作者
Author:
Entropy.S.I    时间: 2023-6-7 00:32
本帖最后由 Entropy.S.I 于 2023-6-7 00:34 编辑

问配置先说预算。

我3月份的文章中有提到过REMD:http://bbs.keinsci.com/thread-35988-1-1.html
不过主要是在强调REMD各replica间不需要大量数据交换,所以用游戏卡搭集群性价比极高。

如果只是小团队买工作站单机,用7B13之类性价比高的服务器CPU配8块4090就行了,整机15万左右。在工作站单机上跑REMD,由于需要在1块GPU上跑大量replica,每个replica分到的GPU性能很少,所以CPU单核性能不会有瓶颈,所以7B13这种CPU很合适。

毕竟你没说预算,我也没时间像上面的文章一样罗列一大堆配置,所以直接推荐了一个性价比最高、最合适的配置。
作者
Author:
k64_cc    时间: 2023-6-7 08:38
本帖最后由 k64_cc 于 2023-6-7 08:44 编辑

“AMD7950X的cpu只有16核,建立副本的时候只能创建16个副本”是不对的,mpi可以创建超过slot数的thread。对于openmpi来说,加一个“--oversubscribe”的setting就行。当然买好点的CPU肯定不是坏事。




作者
Author:
Entropy.S.I    时间: 2023-6-7 09:27
本帖最后由 Entropy.S.I 于 2023-6-7 09:33 编辑
k64_cc 发表于 2023-6-7 08:38
“AMD7950X的cpu只有16核,建立副本的时候只能创建16个副本”是不对的,mpi可以创建超过slot数的thread。对 ...

每个replica至少要分到一个完整的、具有超线程的CPU核心(mpirun -np [replica数] ... -ntomp 2 -pin on -pinstride 1 ...),如果这点资源都共享,那么模拟速度会暴跌至无法使用的程度。

对于单机跑REMD的情况,使用多核强、性价比高的服务器CPU(尤其是EPYC)是最佳的,跑REMD的体系不会小,普遍需要使用数十、上百个replica。
作者
Author:
小伟伟    时间: 2023-6-7 12:44
本帖最后由 小伟伟 于 2023-6-7 12:46 编辑
Entropy.S.I 发表于 2023-6-7 09:27
每个replica至少要分到一个完整的、具有超线程的CPU核心(mpirun -np [replica数] ... -ntomp 2 -pin on  ...

预算10万,使用高性能cpu后是不是可以采用GPU加速,目前想使用48核或64核的cpu,老师您有推荐配置吗?
之前就是使用纯cpu计算remd速度太慢了

作者
Author:
Entropy.S.I    时间: 2023-6-7 12:47
本帖最后由 Entropy.S.I 于 2023-6-7 12:49 编辑
小伟伟 发表于 2023-6-7 12:44
预算10万,使用高性能cpu后是不是可以采用GPU加速,目前想使用48核或64核的cpu,老师您有推荐配置吗

我前面已经说了,7B13配8块4090,整机15万。如果预算限制在10万,就用单路7B13配6块4090,实际使用时最多可以分出60个replica,每块4090跑10个replica,如果要采样的体系不大,60个replica基本也够用。当然,如果不均匀分配,实际上可以跑64个replica,此时性能会由于负载不均衡而降低,具体降低多少需实测。
作者
Author:
k64_cc    时间: 2023-6-7 13:52
Entropy.S.I 发表于 2023-6-7 09:27
每个replica至少要分到一个完整的、具有超线程的CPU核心(mpirun -np [replica数] ... -ntomp 2 -pin on  ...

CPU满了是这样的,所以买好点的CPU配置肯定是好事,as I said。

用几十上百个replica跑parallel tempering这件事很奇怪而且效率不高,真有这种需求的话应该考虑特定自由度上的enhanced sampling方法,而非暴力硬上,给整个体系加速,然后采一堆无效样本。aMD、ITS、REST2啥的都可以一用,再不济改改力场参数,把二面角从1到0做个scale,跑个HREMD也行,基本可以把replica限制在十几个的尺度。
作者
Author:
Entropy.S.I    时间: 2023-6-7 14:43
k64_cc 发表于 2023-6-7 13:52
CPU满了是这样的,所以买好点的CPU配置肯定是好事,as I said。

用几十上百个replica跑parallel tempe ...

我暂时没有深入研究REMD,但按照我的理解,对于庞杂的体系,比如特别大的蛋白质、胶束,整个模型有大几十万~上百万原子,很多时候并不能很好地预估“特定自由度”,在初期的测试中使用几十乃至上百个replica进行REMD模拟是很常规的需求,后续确实可以根据测试的情况来删减一些replica。
作者
Author:
小伟伟    时间: 2023-6-7 20:34
Entropy.S.I 发表于 2023-6-7 12:47
我前面已经说了,7B13配8块4090,整机15万。如果预算限制在10万,就用单路7B13配6块4090,实际使用时最多 ...

我问了咱们这边的服务器商,他们单路最多做到4张gpu上到6张的话gpu性能会下降,上四张gpu卡是否推荐呢?
作者
Author:
Entropy.S.I    时间: 2023-6-7 23:23
小伟伟 发表于 2023-6-7 20:34
我问了咱们这边的服务器商,他们单路最多做到4张gpu上到6张的话gpu性能会下降,上四张gpu卡是否推荐呢?

超微H12SSL-i,有5条PCIe Gen4 x16 slot + 2条PCIe Gen4 x8 slot,配5块4090可以保证各GPU性能均衡,配6块,需自行调试,给插在x8 slot上的4090少分一些MPI Rank。

另外,我了解到目前开源宇宙公司设计了6卡RTX4090(每卡4槽宽,共20+4槽)的整机方案。
作者
Author:
Entropy.S.I    时间: 2023-6-15 09:41
本帖最后由 Entropy.S.I 于 2023-6-15 10:11 编辑
小伟伟 发表于 2023-6-7 20:34
我问了咱们这边的服务器商,他们单路最多做到4张gpu上到6张的话gpu性能会下降,上四张gpu卡是否推荐呢?

今天看到一片具有6+1个全速PCIe Gen4 x16 slot的EPYC 2/3代单路主板,永擎ROMED8-2T,你拿来用非常合适。

https://www.asrockrack.com/gener ... 8-2T#Specifications




作者
Author:
lucl13    时间: 2023-6-16 00:41
请问这种服务器主板怎么配机箱呀?有现成的可以买吗还是得自己DIY?




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3