计算化学公社

 找回密码 Forget password
 注册 Register
Views: 15677|回复 Reply: 106
打印 Print 上一主题 Last thread 下一主题 Next thread

[配置讨论] 推荐一套适用于VASP的GPU配置

  [复制链接 Copy URL]

67

帖子

0

威望

1085

eV
积分
1152

Level 4 (黑子)

本帖最后由 szp12345 于 2023-12-29 09:13 编辑

本人手里有两张RTX2080S显卡,尝试使用GPU版VASP,发现GPU加速效果硬实很好。但是2080S只有8G显存,计算较大的体系时经常爆显存,官网建议使用P100、V100、A100等计算卡,在某宝上调研P100价格很好,入手了两张,当时价格为2100一张,对比2080S速度提升非常明显。

趁最近显卡降价又购置了一套GPU机器,具体配置及价格如下:

CPU:2696V3 *2                   470*2  (某宝)
内存:镁光2133 16G*8          148*8  (某宝)
主板机箱电源:超微7048GR    3500   (某鱼)
计算卡:TESLA P100              1500*4(某宝)
硬盘:500G机械,闲置硬盘
总价11624,不含税(2022年12月报价)

由于最近快递瘫痪,买的东西迟迟未到,新机器测试结果等后续再补发。
另由于本人是做实验出身的,计算只是略懂皮毛,测试对比可能有不准确之处,仅供参考。

KiritsuguPapa之邀,分享测试文件和vasp编译文件
input-makefile.rar (451.79 KB, 下载次数 Times of downloads: 296)
编译vasp时使用的fftw为默认安装,未测试专门针对双精度从化的fftw,欢迎志同道合之友一同测试

--------------------------------------------------------------------------------------------------------------------
2023.8.11 更新:
前几天有坛友问机器可靠性,一并说一下供坛友参考
最早配的机器已经稳定运行半年多了,目前有三台同样配置的机器,经过多次验证,P100卡跑VASP足矣,我机器上一台4卡P100的计算速度跑我们学校超算中心的两张A100的计算速度是一样的,没必要使用V100或A100。另外GPU版只适合做300个原子以上的大体系,小体系计算过程中GPU大部分时间处于闲置状态。计算速度是受到CPU整理数据限制的。帖子里面的配置瓶颈是CPU的单核性能,我也尝试了用OPENMP+MPI编译VASP,每个GPU分配多个CPU核心,但基本没有什么提升效果。

--------------------------------------------------------------------------------------------------------------------
2023.10.8 更新
最近又加了两台机器,目前我的小集群里有5台同样的机器在跑,现在这样一套配置在万能宝8000左右能搞定。

之前发贴时性能测试对比比较混乱,最近重新整理了一下,在此感谢 @KiritsuguPapa     @wolfli369    @nicheal 等诸位坛友分享的对比数据。


--------------------------------------------------------------------------------------------------------------------
49楼 @Songchi 坛友提供了一套8卡方案,并附带了相关性能测试结果,感谢分享。


4卡P100:
     1 T=   400. E= -.38354159E+04 F=-.38601811E+04 E0= -.38581906E+04  EK=0.24765E+02 SP= 0.00E+00 SK= 0.00E+00
    LOOP+:  cpu time    445.6568: real time    442.0529  (77电子步)

2卡2080S:
     1 T=   400. E= -.38354173E+04 F=-.38601812E+04 E0= -.38581906E+04  EK=0.24764E+02 SP= 0.00E+00 SK= 0.00E+00
    LOOP+:  cpu time   1311.2067: real time   1311.5196  (79电子步)

CPU 2696V3 36核:
     1 T=   400. E= -.38353993E+04 F=-.38601816E+04 E0= -.38581905E+04  EK=0.24782E+02 SP= 0.00E+00 SK= 0.00E+00
     LOOP+: cpu time   2040.6643: realtime   2043.8574 (81电子步)

CPU 8336C 64核:
     1 T=   400. E= -.38353970E+04 F=-.38601816E+04 E0= -.38581903E+04  EK=0.24785E+02 SP= 0.00E+00 SK= 0.00E+00
    LOOP+:  cpu time    746.1045: real time    751.661281电子步)

CPU 8272CL 52核:
     1 T=   400. E= -.38354115E+04 F=-.38601818E+04 E0= -.38581908E+04  EK=0.24770E+02 SP= 0.00E+00 SK= 0.00E+00

    LOOP+:  cpu time   1149.2981: real time   1162.346777电子步)

CPU 7R32  48核:
1 T=  400. E= -.38354004E+04 F= -.38601818E+04 E0= -.38581904E+04  EK= 0.24781E+02 SP= 0.00E+00 SK= 0.00E+00
LOOP+: cpu time    640.8056: realtime    643.9117  (78电子步)

CPU 7R32  96核:
1 T=  399. E= -.38354520E+04 F= -.38601818E+04 E0= -.38581908E+04  EK= 0.24730E+02 SP= 0.00E+00 SK= 0.00E+00

LOOP+: cpu time    618.2759: real time    623.1789 81






曙光服务器测试对比2_页面_1.jpg (273.64 KB, 下载次数 Times of downloads: 89)

测试结果对比

测试结果对比

曙光服务器测试对比2_页面_2.jpg (243.72 KB, 下载次数 Times of downloads: 69)

CPU计算速度

CPU计算速度

曙光服务器测试对比2_页面_3.jpg (254.08 KB, 下载次数 Times of downloads: 64)

2080S计算速度

2080S计算速度

曙光服务器测试对比2_页面_4.jpg (278.36 KB, 下载次数 Times of downloads: 64)

P100计算速度

P100计算速度

评分 Rate

参与人数
Participants 6
eV +27 收起 理由
Reason
pikapikachu + 5 赞!
ak949 + 1 谢谢
anson + 3 谢谢分享
sobereva + 8
卡开发发 + 5 欢迎讨论
Picardo + 5 谢谢

查看全部评分 View all ratings

846

帖子

16

威望

4634

eV
积分
5800

Level 6 (一方通行)

小屁孩

107#
发表于 Post on yesterday 22:01 | 只看该作者 Only view this author
ljb874722957 发表于 2024-11-20 19:44
老师你好,如果用到vasp的话,我现在手上有一个3080显卡,搭配7950X使用,gpu版本会不会比cpu版本快?只 ...

快100%以上
- 向着虚无前进 -

29

帖子

0

威望

113

eV
积分
142

Level 2 能力者

106#
发表于 Post on 3 day ago | 只看该作者 Only view this author
Entropy.S.I 发表于 2024-8-24 17:31
MZ32-AR0同样无法实现均匀的GPU-NUMA Affinity。理论上可以通过启用Slot7实现(详见我闲鱼贴),但实测多 ...

老师你好,如果用到vasp的话,我现在手上有一个3080显卡,搭配7950X使用,gpu版本会不会比cpu版本快?只算100个原子以内的体系,偶尔用到分子动力学模拟。

31

帖子

0

威望

373

eV
积分
404

Level 3 能力者

105#
发表于 Post on 2024-8-24 17:36:55 | 只看该作者 Only view this author
Entropy.S.I 发表于 2024-8-24 17:31
MZ32-AR0同样无法实现均匀的GPU-NUMA Affinity

这...我刚准备买ar0,哈哈,那我都转成2台四卡算了,哈哈,我能查到的主板就这俩了,折腾了一个多月,还是没搞成8卡。

846

帖子

16

威望

4634

eV
积分
5800

Level 6 (一方通行)

小屁孩

104#
发表于 Post on 2024-8-24 17:31:55 | 只看该作者 Only view this author
本帖最后由 Entropy.S.I 于 2024-8-24 17:33 编辑
目前还不会计算 发表于 2024-8-24 16:58
感谢大佬的回答,原来是主板的原因,我找好了好久,不知道啥原因,还好来这个帖子下问了下你。好滴好滴, ...

MZ32-AR0同样无法实现均匀的GPU-NUMA Affinity。理论上可以通过启用Slot7实现(详见我闲鱼贴),但实测多次转接会导致稳定性非常差,无法正常使用。
- 向着虚无前进 -

31

帖子

0

威望

373

eV
积分
404

Level 3 能力者

103#
发表于 Post on 2024-8-24 16:58:58 | 只看该作者 Only view this author
本帖最后由 目前还不会计算 于 2024-8-24 17:29 编辑
Entropy.S.I 发表于 2024-8-24 12:11
H12SSL-i虽然有超过4条PCIe x16 slot,但无法实现均匀的GPU-NUMA Affinity。我使用的主板是市面上仅有的 ...

感谢大佬的回答,原来是主板的原因,我找好了好久,不知道啥原因,还好来这个帖子下问了下你。好滴好滴,那应该就是我之前准备用的技嘉ar0的那款了,那款还便宜点。

846

帖子

16

威望

4634

eV
积分
5800

Level 6 (一方通行)

小屁孩

102#
发表于 Post on 2024-8-24 12:11:52 | 只看该作者 Only view this author
本帖最后由 Entropy.S.I 于 2024-8-24 12:13 编辑
目前还不会计算 发表于 2024-8-24 10:48
是的,我自己之前组了台8卡v100,用的你发的方案2,2个4卡v100组成的8卡v100,我发现4卡的时候计算速度和 ...

H12SSL-i虽然有超过4条PCIe x16 slot,但无法实现均匀的GPU-NUMA Affinity。我使用的主板是市面上仅有的一个能实现均匀的GPU-NUMA Affinity的型号。另外,4>8卡的并行效率对于不同case差异很大,必须case-by-case。最后,多GPU机器必须使用slurm进行调度,一方面使用更方便,另一方面会有额外性能增益(但必须确保slurm正确配置,否则存在“性能雪崩”)。
- 向着虚无前进 -

31

帖子

0

威望

373

eV
积分
404

Level 3 能力者

101#
发表于 Post on 2024-8-24 10:48:04 | 只看该作者 Only view this author
Entropy.S.I 发表于 2024-8-23 13:47
正因如此,我不会再宣传了,防止仅有的几十片存货被卖完导致无法满足自己课题组的需求

是的,我自己之前组了台8卡v100,用的你发的方案2,2个4卡v100组成的8卡v100,我发现4卡的时候计算速度和你发的4卡差多不,但是8卡计算的时候,计算反而比4卡还慢很多,单路超微H12ssl-I主板。就好像没办法同时计算那样,2个gpu板子好像并行计算,8卡计算速度远低于4卡计算速度。非常诡异。内存用的三星3200  32Gx8

846

帖子

16

威望

4634

eV
积分
5800

Level 6 (一方通行)

小屁孩

100#
发表于 Post on 2024-8-23 13:47:15 | 只看该作者 Only view this author
目前还不会计算 发表于 2024-8-22 21:49
目前这个4卡的gpu扩展板好像都卖完了,都没地方买了,好像都被买完了

正因如此,我不会再宣传了,防止仅有的几十片存货被卖完导致无法满足自己课题组的需求
- 向着虚无前进 -

31

帖子

0

威望

373

eV
积分
404

Level 3 能力者

99#
发表于 Post on 2024-8-22 21:49:51 | 只看该作者 Only view this author
Entropy.S.I 发表于 2024-7-12 16:16
目前市面上能长期稳定运行的只有我设计的整机解决方案

目前这个4卡的gpu扩展板好像都卖完了,都没地方买了,好像都被买完了

31

帖子

0

威望

373

eV
积分
404

Level 3 能力者

98#
发表于 Post on 2024-7-26 22:40:14 | 只看该作者 Only view this author
终于用个东西固定好啦,现在跑到4卡v100, 跑到  265s  啦,

202407262238259175..png (25.67 KB, 下载次数 Times of downloads: 39)

202407262238259175..png

846

帖子

16

威望

4634

eV
积分
5800

Level 6 (一方通行)

小屁孩

97#
发表于 Post on 2024-7-12 16:16:51 | 只看该作者 Only view this author
目前还不会计算 发表于 2024-7-12 15:29
好滴好滴,那看来我还是没买到合适的PCIE线,所以才会目前这个问题,我得再多找找啦。2月份的时候,看你 ...

目前市面上能长期稳定运行的只有我设计的整机解决方案
- 向着虚无前进 -

31

帖子

0

威望

373

eV
积分
404

Level 3 能力者

96#
发表于 Post on 2024-7-12 15:29:29 | 只看该作者 Only view this author
Entropy.S.I 发表于 2024-7-12 13:59
我自己开发的整机,PCIe转接线是专门定制的,有可靠固定措施,在生产环境连续运行80天,没有任何问题,论 ...

好滴好滴,那看来我还是没买到合适的PCIE线,所以才会目前这个问题,我得再多找找啦。2月份的时候,看你们应该是刚组,现在上了定制的线了,怪不得我们目前还有点小问题

846

帖子

16

威望

4634

eV
积分
5800

Level 6 (一方通行)

小屁孩

95#
发表于 Post on 2024-7-12 13:59:53 | 只看该作者 Only view this author
目前还不会计算 发表于 2024-7-12 10:44
大佬,就是我看你之前发的帖子有说到这个pcie转接线连接到pcie口的时候很松,容易掉驱动。目前不知道你们 ...

我自己开发的整机,PCIe转接线是专门定制的,有可靠固定措施,在生产环境连续运行80天,没有任何问题,论坛里就有我课题组的人,可以作证。
- 向着虚无前进 -

31

帖子

0

威望

373

eV
积分
404

Level 3 能力者

94#
发表于 Post on 2024-7-12 10:44:57 | 只看该作者 Only view this author
Entropy.S.I 发表于 2024-5-25 19:15
下图架构的节点(HGX A100-80G-8GPU,购买成本1,200,000 ~ 1,400,000),4GPU 246s (78 LOOPs),8GPU 139 ...

大佬,就是我看你之前发的帖子有说到这个pcie转接线连接到pcie口的时候很松,容易掉驱动。目前不知道你们是什么解决的,我自己弄了一台4卡v100,老是掉驱动,跑了几个vasp任务,运行一会儿,就掉驱动,是否就是你之前说的接口松动,导致的容易掉驱动。不知道你们目前是否有解决办法呀。
你的原话:当然我也不是说现在用的这个转接线很好,这东西没有固定措施,轻轻碰一下就会掉速/掉卡。希望以后量产的转接线能有可靠的固定。(来源于你b站回复其他同学的评论)。

微信截图_20240712104116.png (80.44 KB, 下载次数 Times of downloads: 39)

掉驱动图

掉驱动图

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 11:59 , Processed in 0.201166 second(s), 27 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list