计算化学公社

 找回密码 Forget password
 注册 Register
楼主 Author: szp12345
打印 Print 上一主题 Last thread 下一主题 Next thread

[配置讨论] 推荐一套适用于VASP的GPU配置

  [复制链接 Copy URL]

215

帖子

0

威望

1097

eV
积分
1312

Level 4 (黑子)

91#
发表于 Post on 2024-4-26 00:39:31 | 只看该作者 Only view this author
Entropy.S.I 发表于 2024-4-25 18:07
在我测试过的范围内是如此

好的,十分感谢老师的回答!

31

帖子

0

威望

371

eV
积分
402

Level 3 能力者

92#
发表于 Post on 2024-5-25 16:53:14 | 只看该作者 Only view this author
Entropy.S.I 发表于 2024-3-27 23:59
加入我们一起搞就不用重复造轮子了,前提是不能以赚钱为导向

大佬,你有用过8卡A100 跑过楼主的案例嘛,按照A100速度,估计能达到200s左右的时间。

846

帖子

16

威望

4632

eV
积分
5798

Level 6 (一方通行)

小屁孩

93#
发表于 Post on 2024-5-25 19:15:42 | 只看该作者 Only view this author
目前还不会计算 发表于 2024-5-25 16:53
大佬,你有用过8卡A100 跑过楼主的案例嘛,按照A100速度,估计能达到200s左右的时间。

下图架构的节点(HGX A100-80G-8GPU,购买成本1,200,000 ~ 1,400,000),4GPU 246s (78 LOOPs),8GPU 139s (71 LOOPs)

下图架构的节点(由我开发,购买成本39,000 ~ 40,000),4GPU 224s (78 LOOPs),8GPU 163s (71 LOOPs)



下图架构的节点(1028GQ-TVRT整机,购买成本~21,000),4GPU 279s (78 LOOPs)


下图架构的节点(ES8000A-E12准系统平台,购买成本270,000 ~ 290,000),4GPU 210s (78 LOOPs),8GPU 102s (71 LOOPs)


还有大量测试数据未发布,约500条
- 向着虚无前进 -

31

帖子

0

威望

371

eV
积分
402

Level 3 能力者

94#
发表于 Post on 2024-7-12 10:44:57 | 只看该作者 Only view this author
Entropy.S.I 发表于 2024-5-25 19:15
下图架构的节点(HGX A100-80G-8GPU,购买成本1,200,000 ~ 1,400,000),4GPU 246s (78 LOOPs),8GPU 139 ...

大佬,就是我看你之前发的帖子有说到这个pcie转接线连接到pcie口的时候很松,容易掉驱动。目前不知道你们是什么解决的,我自己弄了一台4卡v100,老是掉驱动,跑了几个vasp任务,运行一会儿,就掉驱动,是否就是你之前说的接口松动,导致的容易掉驱动。不知道你们目前是否有解决办法呀。
你的原话:当然我也不是说现在用的这个转接线很好,这东西没有固定措施,轻轻碰一下就会掉速/掉卡。希望以后量产的转接线能有可靠的固定。(来源于你b站回复其他同学的评论)。

微信截图_20240712104116.png (80.44 KB, 下载次数 Times of downloads: 38)

掉驱动图

掉驱动图

846

帖子

16

威望

4632

eV
积分
5798

Level 6 (一方通行)

小屁孩

95#
发表于 Post on 2024-7-12 13:59:53 | 只看该作者 Only view this author
目前还不会计算 发表于 2024-7-12 10:44
大佬,就是我看你之前发的帖子有说到这个pcie转接线连接到pcie口的时候很松,容易掉驱动。目前不知道你们 ...

我自己开发的整机,PCIe转接线是专门定制的,有可靠固定措施,在生产环境连续运行80天,没有任何问题,论坛里就有我课题组的人,可以作证。
- 向着虚无前进 -

31

帖子

0

威望

371

eV
积分
402

Level 3 能力者

96#
发表于 Post on 2024-7-12 15:29:29 | 只看该作者 Only view this author
Entropy.S.I 发表于 2024-7-12 13:59
我自己开发的整机,PCIe转接线是专门定制的,有可靠固定措施,在生产环境连续运行80天,没有任何问题,论 ...

好滴好滴,那看来我还是没买到合适的PCIE线,所以才会目前这个问题,我得再多找找啦。2月份的时候,看你们应该是刚组,现在上了定制的线了,怪不得我们目前还有点小问题

846

帖子

16

威望

4632

eV
积分
5798

Level 6 (一方通行)

小屁孩

97#
发表于 Post on 2024-7-12 16:16:51 | 只看该作者 Only view this author
目前还不会计算 发表于 2024-7-12 15:29
好滴好滴,那看来我还是没买到合适的PCIE线,所以才会目前这个问题,我得再多找找啦。2月份的时候,看你 ...

目前市面上能长期稳定运行的只有我设计的整机解决方案
- 向着虚无前进 -

31

帖子

0

威望

371

eV
积分
402

Level 3 能力者

98#
发表于 Post on 2024-7-26 22:40:14 | 只看该作者 Only view this author
终于用个东西固定好啦,现在跑到4卡v100, 跑到  265s  啦,

202407262238259175..png (25.67 KB, 下载次数 Times of downloads: 38)

202407262238259175..png

31

帖子

0

威望

371

eV
积分
402

Level 3 能力者

99#
发表于 Post on 2024-8-22 21:49:51 | 只看该作者 Only view this author
Entropy.S.I 发表于 2024-7-12 16:16
目前市面上能长期稳定运行的只有我设计的整机解决方案

目前这个4卡的gpu扩展板好像都卖完了,都没地方买了,好像都被买完了

846

帖子

16

威望

4632

eV
积分
5798

Level 6 (一方通行)

小屁孩

100#
发表于 Post on 2024-8-23 13:47:15 | 只看该作者 Only view this author
目前还不会计算 发表于 2024-8-22 21:49
目前这个4卡的gpu扩展板好像都卖完了,都没地方买了,好像都被买完了

正因如此,我不会再宣传了,防止仅有的几十片存货被卖完导致无法满足自己课题组的需求
- 向着虚无前进 -

31

帖子

0

威望

371

eV
积分
402

Level 3 能力者

101#
发表于 Post on 2024-8-24 10:48:04 | 只看该作者 Only view this author
Entropy.S.I 发表于 2024-8-23 13:47
正因如此,我不会再宣传了,防止仅有的几十片存货被卖完导致无法满足自己课题组的需求

是的,我自己之前组了台8卡v100,用的你发的方案2,2个4卡v100组成的8卡v100,我发现4卡的时候计算速度和你发的4卡差多不,但是8卡计算的时候,计算反而比4卡还慢很多,单路超微H12ssl-I主板。就好像没办法同时计算那样,2个gpu板子好像并行计算,8卡计算速度远低于4卡计算速度。非常诡异。内存用的三星3200  32Gx8

846

帖子

16

威望

4632

eV
积分
5798

Level 6 (一方通行)

小屁孩

102#
发表于 Post on 2024-8-24 12:11:52 | 只看该作者 Only view this author
本帖最后由 Entropy.S.I 于 2024-8-24 12:13 编辑
目前还不会计算 发表于 2024-8-24 10:48
是的,我自己之前组了台8卡v100,用的你发的方案2,2个4卡v100组成的8卡v100,我发现4卡的时候计算速度和 ...

H12SSL-i虽然有超过4条PCIe x16 slot,但无法实现均匀的GPU-NUMA Affinity。我使用的主板是市面上仅有的一个能实现均匀的GPU-NUMA Affinity的型号。另外,4>8卡的并行效率对于不同case差异很大,必须case-by-case。最后,多GPU机器必须使用slurm进行调度,一方面使用更方便,另一方面会有额外性能增益(但必须确保slurm正确配置,否则存在“性能雪崩”)。
- 向着虚无前进 -

31

帖子

0

威望

371

eV
积分
402

Level 3 能力者

103#
发表于 Post on 2024-8-24 16:58:58 | 只看该作者 Only view this author
本帖最后由 目前还不会计算 于 2024-8-24 17:29 编辑
Entropy.S.I 发表于 2024-8-24 12:11
H12SSL-i虽然有超过4条PCIe x16 slot,但无法实现均匀的GPU-NUMA Affinity。我使用的主板是市面上仅有的 ...

感谢大佬的回答,原来是主板的原因,我找好了好久,不知道啥原因,还好来这个帖子下问了下你。好滴好滴,那应该就是我之前准备用的技嘉ar0的那款了,那款还便宜点。

846

帖子

16

威望

4632

eV
积分
5798

Level 6 (一方通行)

小屁孩

104#
发表于 Post on 2024-8-24 17:31:55 | 只看该作者 Only view this author
本帖最后由 Entropy.S.I 于 2024-8-24 17:33 编辑
目前还不会计算 发表于 2024-8-24 16:58
感谢大佬的回答,原来是主板的原因,我找好了好久,不知道啥原因,还好来这个帖子下问了下你。好滴好滴, ...

MZ32-AR0同样无法实现均匀的GPU-NUMA Affinity。理论上可以通过启用Slot7实现(详见我闲鱼贴),但实测多次转接会导致稳定性非常差,无法正常使用。
- 向着虚无前进 -

31

帖子

0

威望

371

eV
积分
402

Level 3 能力者

105#
发表于 Post on 2024-8-24 17:36:55 | 只看该作者 Only view this author
Entropy.S.I 发表于 2024-8-24 17:31
MZ32-AR0同样无法实现均匀的GPU-NUMA Affinity

这...我刚准备买ar0,哈哈,那我都转成2台四卡算了,哈哈,我能查到的主板就这俩了,折腾了一个多月,还是没搞成8卡。

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 07:25 , Processed in 0.187915 second(s), 24 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list