计算化学公社

 找回密码 Forget password
 注册 Register
Views: 15652|回复 Reply: 106
打印 Print 上一主题 Last thread 下一主题 Next thread

[配置讨论] 推荐一套适用于VASP的GPU配置

  [复制链接 Copy URL]

67

帖子

0

威望

1085

eV
积分
1152

Level 4 (黑子)

本帖最后由 szp12345 于 2023-12-29 09:13 编辑

本人手里有两张RTX2080S显卡,尝试使用GPU版VASP,发现GPU加速效果硬实很好。但是2080S只有8G显存,计算较大的体系时经常爆显存,官网建议使用P100、V100、A100等计算卡,在某宝上调研P100价格很好,入手了两张,当时价格为2100一张,对比2080S速度提升非常明显。

趁最近显卡降价又购置了一套GPU机器,具体配置及价格如下:

CPU:2696V3 *2                   470*2  (某宝)
内存:镁光2133 16G*8          148*8  (某宝)
主板机箱电源:超微7048GR    3500   (某鱼)
计算卡:TESLA P100              1500*4(某宝)
硬盘:500G机械,闲置硬盘
总价11624,不含税(2022年12月报价)

由于最近快递瘫痪,买的东西迟迟未到,新机器测试结果等后续再补发。
另由于本人是做实验出身的,计算只是略懂皮毛,测试对比可能有不准确之处,仅供参考。

KiritsuguPapa之邀,分享测试文件和vasp编译文件
input-makefile.rar (451.79 KB, 下载次数 Times of downloads: 296)
编译vasp时使用的fftw为默认安装,未测试专门针对双精度从化的fftw,欢迎志同道合之友一同测试

--------------------------------------------------------------------------------------------------------------------
2023.8.11 更新:
前几天有坛友问机器可靠性,一并说一下供坛友参考
最早配的机器已经稳定运行半年多了,目前有三台同样配置的机器,经过多次验证,P100卡跑VASP足矣,我机器上一台4卡P100的计算速度跑我们学校超算中心的两张A100的计算速度是一样的,没必要使用V100或A100。另外GPU版只适合做300个原子以上的大体系,小体系计算过程中GPU大部分时间处于闲置状态。计算速度是受到CPU整理数据限制的。帖子里面的配置瓶颈是CPU的单核性能,我也尝试了用OPENMP+MPI编译VASP,每个GPU分配多个CPU核心,但基本没有什么提升效果。

--------------------------------------------------------------------------------------------------------------------
2023.10.8 更新
最近又加了两台机器,目前我的小集群里有5台同样的机器在跑,现在这样一套配置在万能宝8000左右能搞定。

之前发贴时性能测试对比比较混乱,最近重新整理了一下,在此感谢 @KiritsuguPapa     @wolfli369    @nicheal 等诸位坛友分享的对比数据。


--------------------------------------------------------------------------------------------------------------------
49楼 @Songchi 坛友提供了一套8卡方案,并附带了相关性能测试结果,感谢分享。


4卡P100:
     1 T=   400. E= -.38354159E+04 F=-.38601811E+04 E0= -.38581906E+04  EK=0.24765E+02 SP= 0.00E+00 SK= 0.00E+00
    LOOP+:  cpu time    445.6568: real time    442.0529  (77电子步)

2卡2080S:
     1 T=   400. E= -.38354173E+04 F=-.38601812E+04 E0= -.38581906E+04  EK=0.24764E+02 SP= 0.00E+00 SK= 0.00E+00
    LOOP+:  cpu time   1311.2067: real time   1311.5196  (79电子步)

CPU 2696V3 36核:
     1 T=   400. E= -.38353993E+04 F=-.38601816E+04 E0= -.38581905E+04  EK=0.24782E+02 SP= 0.00E+00 SK= 0.00E+00
     LOOP+: cpu time   2040.6643: realtime   2043.8574 (81电子步)

CPU 8336C 64核:
     1 T=   400. E= -.38353970E+04 F=-.38601816E+04 E0= -.38581903E+04  EK=0.24785E+02 SP= 0.00E+00 SK= 0.00E+00
    LOOP+:  cpu time    746.1045: real time    751.661281电子步)

CPU 8272CL 52核:
     1 T=   400. E= -.38354115E+04 F=-.38601818E+04 E0= -.38581908E+04  EK=0.24770E+02 SP= 0.00E+00 SK= 0.00E+00

    LOOP+:  cpu time   1149.2981: real time   1162.346777电子步)

CPU 7R32  48核:
1 T=  400. E= -.38354004E+04 F= -.38601818E+04 E0= -.38581904E+04  EK= 0.24781E+02 SP= 0.00E+00 SK= 0.00E+00
LOOP+: cpu time    640.8056: realtime    643.9117  (78电子步)

CPU 7R32  96核:
1 T=  399. E= -.38354520E+04 F= -.38601818E+04 E0= -.38581908E+04  EK= 0.24730E+02 SP= 0.00E+00 SK= 0.00E+00

LOOP+: cpu time    618.2759: real time    623.1789 81






曙光服务器测试对比2_页面_1.jpg (273.64 KB, 下载次数 Times of downloads: 89)

测试结果对比

测试结果对比

曙光服务器测试对比2_页面_2.jpg (243.72 KB, 下载次数 Times of downloads: 68)

CPU计算速度

CPU计算速度

曙光服务器测试对比2_页面_3.jpg (254.08 KB, 下载次数 Times of downloads: 64)

2080S计算速度

2080S计算速度

曙光服务器测试对比2_页面_4.jpg (278.36 KB, 下载次数 Times of downloads: 64)

P100计算速度

P100计算速度

评分 Rate

参与人数
Participants 6
eV +27 收起 理由
Reason
pikapikachu + 5 赞!
ak949 + 1 谢谢
anson + 3 谢谢分享
sobereva + 8
卡开发发 + 5 欢迎讨论
Picardo + 5 谢谢

查看全部评分 View all ratings

67

帖子

0

威望

1085

eV
积分
1152

Level 4 (黑子)

2#
 楼主 Author| 发表于 Post on 2022-12-22 22:06:05 | 只看该作者 Only view this author
本帖最后由 szp12345 于 2022-12-25 20:15 编辑

补发四卡测试结果,计算速度提升明显,比双卡快了一倍,约6秒一个电子步。




顺便说一下其它问题:
1,P100的双精度为2080S的10倍左右,但实际计算速度P100是2080S的2倍,有没有大佬知道什么原因?
2,P100计算时使用率最高90%左右,2080S则100%,是否CPU瓶颈?

190

帖子

0

威望

867

eV
积分
1057

Level 4 (黑子)

3#
发表于 Post on 2022-12-22 22:13:41 | 只看该作者 Only view this author
楼主也测下cpu计算时间呗

67

帖子

0

威望

1085

eV
积分
1152

Level 4 (黑子)

4#
 楼主 Author| 发表于 Post on 2022-12-22 23:15:52 | 只看该作者 Only view this author
Picardo 发表于 2022-12-22 22:13
楼主也测下cpu计算时间呗

上面测试结果里面有,双路2696V3共36核,每电子步平均时间40秒

190

帖子

0

威望

867

eV
积分
1057

Level 4 (黑子)

5#
发表于 Post on 2022-12-23 09:23:55 | 只看该作者 Only view this author
本帖最后由 Picardo 于 2022-12-23 09:28 编辑
szp12345 发表于 2022-12-22 23:15
上面测试结果里面有,双路2696V3共36核,每电子步平均时间40秒

好的,羊了之后,眼神有点问题,抱歉。请教一下,vasp算aimd的时候主要用单精度嘛

67

帖子

0

威望

1085

eV
积分
1152

Level 4 (黑子)

6#
 楼主 Author| 发表于 Post on 2022-12-23 17:23:10 | 只看该作者 Only view this author
Picardo 发表于 2022-12-23 09:23
好的,羊了之后,眼神有点问题,抱歉。请教一下,vasp算aimd的时候主要用单精度嘛

双精度,2080S的单精度比P100的强,但还是P100计算速度快

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

7#
发表于 Post on 2022-12-23 19:03:27 | 只看该作者 Only view this author
楼主, 用简单的测试数据,
再次论证了,
对于VASP等依赖双精度的计算任务,
使用专业卡,效果当然不错了。

这玩意不是跑MD,消费级的GPU是没啥用处的。

新卡当然很贵了, 不过可以试试万能的某宝某鱼呀。
反正都是拆机旧货,能用就行呗。
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

175

帖子

0

威望

3265

eV
积分
3440

Level 5 (御坂)

8#
发表于 Post on 2022-12-25 10:15:53 | 只看该作者 Only view this author
VASP不能跨卡分配显存,32G的黄卡超过2万块一张,不知啥时候能再腰折一次!

67

帖子

0

威望

1085

eV
积分
1152

Level 4 (黑子)

9#
 楼主 Author| 发表于 Post on 2022-12-25 20:09:19 | 只看该作者 Only view this author
ghifi37 发表于 2022-12-25 10:15
VASP不能跨卡分配显存,32G的黄卡超过2万块一张,不知啥时候能再腰折一次!

等吧,目前16G显存基本够用。
不过,腰折一次还是买不起,得好几次...

67

帖子

0

威望

1085

eV
积分
1152

Level 4 (黑子)

10#
 楼主 Author| 发表于 Post on 2022-12-25 20:19:48 | 只看该作者 Only view this author
abin 发表于 2022-12-23 19:03
楼主, 用简单的测试数据,
再次论证了,
对于VASP等依赖双精度的计算任务,

确实,通用就行。另外,捡垃圾使我快乐

139

帖子

1

威望

1414

eV
积分
1573

Level 5 (御坂)

11#
发表于 Post on 2023-1-1 18:32:26 | 只看该作者 Only view this author
能否分享一下任务文件和编译参数?

67

帖子

0

威望

1085

eV
积分
1152

Level 4 (黑子)

12#
 楼主 Author| 发表于 Post on 2023-1-3 11:12:18 | 只看该作者 Only view this author
KiritsuguPapa 发表于 2023-1-1 18:32
能否分享一下任务文件和编译参数?

已上传贴子附件,欢迎一同探讨

139

帖子

1

威望

1414

eV
积分
1573

Level 5 (御坂)

13#
发表于 Post on 2023-1-3 11:37:02 | 只看该作者 Only view this author
szp12345 发表于 2023-1-3 11:12
已上传贴子附件,欢迎一同探讨

谢谢 我也测试一下

139

帖子

1

威望

1414

eV
积分
1573

Level 5 (御坂)

14#
发表于 Post on 2023-1-3 16:55:02 | 只看该作者 Only view this author
本帖最后由 KiritsuguPapa 于 2023-1-3 17:39 编辑

用纯CPU、64核8336C跑的结果:

$ grep -m 1 F= OSZICAR
      1 T=   400. E= -.38353970E+04 F= -.38601816E+04 E0= -.38581903E+04  EK= 0.24785E+02 SP= 0.00E+00 SK= 0.00E+00
$ grep -m 1 LOOP+ OUTCAR
     LOOP+:  cpu time    746.1045: real time    751.6612(共81个电子步)

麻烦楼主对比看看第一步离子步的时间?以及能量值是否相近?因为CPU和GPU算法不同,电子步时间不一定能直接比较。
上面测试是用vasp_gam跑的,记得用OpenACC应该也能用vasp_gam来着?
稍后我再测一下3090和tesla T4的情况发上来

139

帖子

1

威望

1414

eV
积分
1573

Level 5 (御坂)

15#
发表于 Post on 2023-1-3 17:39:32 | 只看该作者 Only view this author
52核8272CL的结果:

$ grep -m 1 F= OSZICAR
      1 T=   400. E= -.38354115E+04 F= -.38601818E+04 E0= -.38581908E+04  EK= 0.24770E+02 SP= 0.00E+00 SK= 0.00E+00
$ grep -m 1 LOOP+ OUTCAR
     LOOP+:  cpu time   1149.2981: real time   1162.3467(共77个电子步)

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 07:36 , Processed in 0.199382 second(s), 26 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list