计算化学公社

 找回密码 Forget password
 注册 Register
楼主 Author: szp12345
打印 Print 上一主题 Last thread 下一主题 Next thread

[配置讨论] 推荐一套适用于VASP的GPU配置

  [复制链接 Copy URL]

67

帖子

0

威望

1085

eV
积分
1152

Level 4 (黑子)

46#
 楼主 Author| 发表于 Post on 2023-12-21 23:08:42 | 只看该作者 Only view this author
1984901858 发表于 2023-12-20 11:02
双卡跑vasp纯泛函和杂化泛函,加速情况怎么样,显存会爆吗?

看你体系和精度了,ENCUT设置太大的话容易爆显存,不爆显存的前提下GPU速度非常快

8

帖子

0

威望

626

eV
积分
634

Level 4 (黑子)

47#
发表于 Post on 2023-12-25 14:31:42 | 只看该作者 Only view this author
szp12345 发表于 2023-12-21 23:08
看你体系和精度了,ENCUT设置太大的话容易爆显存,不爆显存的前提下GPU速度非常快

谢谢。我想升级我的电脑(7950x,64g,主板最多能插三张显卡)。现在titan v(12g,2000元)和 v100(16g,3000元)价格下来了,颇具性价比。我想问一下,三张titan v的话,36g显存够应付vasp的纯泛函计算吗?(1000个原子体系,截断能500eV)不够的话,三张v100呢?

67

帖子

0

威望

1085

eV
积分
1152

Level 4 (黑子)

48#
 楼主 Author| 发表于 Post on 2023-12-25 20:06:57 | 只看该作者 Only view this author
1984901858 发表于 2023-12-25 14:31
谢谢。我想升级我的电脑(7950x,64g,主板最多能插三张显卡)。现在titan v(12g,2000元)和 v100(16g ...

没有NVLINK,显存是不能共用的。
而且VASP每个计算线程占用一个GPU,每张GPU的显存消耗量是一样的。
你这样的体系和精度,16G够呛。
你可以把你的计算任务发给我,我用P100试一下,看看16G够不够用。

7

帖子

0

威望

88

eV
积分
95

Level 2 能力者

49#
发表于 Post on 2023-12-27 19:16:08 | 只看该作者 Only view this author
我大约是在今年三月份搞得p100做DFT。

我的思路跟楼主有点不一样。

我目前是有两台,每台的配置是,泰安7079+8张p100 16G+128G d4+两块e5 2637v4。vasp6.3基于openacc编译。

我也简单测了一下这个benchmark:

8卡p100:
     1 T=   400. E= -38353980E+04
    LOOP+:  cpu time    327.2425: real time    334.5081  (67电子步)

4卡p100:
     1 T=   400. E= -.38354292E+04
    LOOP+:  cpu time    493.6080: real time    499.6489  (66电子步)

2卡p100:
     1 T=   400. E= -.38354250E+04
    LOOP+:  cpu time    882.8581: real time    924.5204  (66电子步)

我的性能略弱于楼主10%。2卡情况下都弱一些比较奇怪,自己想了下,除了编译条件和软件版本外,cpu可能得背锅。

在gpu加速里,cpu的缓存可能比纯粹的单核频率更重要,毕竟e5 2637v4睿频3.7,没道理单核性能弱于e5 2696v3,但考虑到缓存的话就说不准了。类似的情况我看有限元计算领域好像也有,有空我换下cpu试试看。

7

帖子

0

威望

88

eV
积分
95

Level 2 能力者

50#
发表于 Post on 2023-12-27 20:11:14 | 只看该作者 Only view this author
我又仔细看了下,性能差异好像是std和gam执行程序的差异。那没事了

67

帖子

0

威望

1085

eV
积分
1152

Level 4 (黑子)

51#
 楼主 Author| 发表于 Post on 2023-12-29 09:08:03 | 只看该作者 Only view this author
Songchi 发表于 2023-12-27 19:16
我大约是在今年三月份搞得p100做DFT。

我的思路跟楼主有点不一样。

我后来加机器也考虑过2637V4,最后放弃了。
2696V3单核睿频能达到3.8G,我实测使用四个核心频率能维持在3.2~3.5G之间。
不知道2637V全核满载时频率多少,能不能提供一下数据?

8

帖子

0

威望

626

eV
积分
634

Level 4 (黑子)

52#
发表于 Post on 2024-1-2 11:09:24 | 只看该作者 Only view this author
本帖最后由 1984901858 于 2024-1-2 11:11 编辑
szp12345 发表于 2023-12-25 20:06
没有NVLINK,显存是不能共用的。
而且VASP每个计算线程占用一个GPU,每张GPU的显存消耗量是一样的。
你 ...

谢谢。我找到一个典型的案例,麻烦你用GPU版分别跑一下纯泛函和杂化泛函。谢谢了。

POSCAR.txt

2.02 KB, 下载次数 Times of downloads: 7

POTCAR.txt

436.5 KB, 下载次数 Times of downloads: 5

INCAR.base

373 Bytes, 下载次数 Times of downloads: 9

KPOINTS.txt

37 Bytes, 下载次数 Times of downloads: 7

67

帖子

0

威望

1085

eV
积分
1152

Level 4 (黑子)

53#
 楼主 Author| 发表于 Post on 2024-1-3 08:45:37 | 只看该作者 Only view this author
1984901858 发表于 2024-1-2 11:09
谢谢。我找到一个典型的案例,麻烦你用GPU版分别跑一下纯泛函和杂化泛函。谢谢了。

修改了你INCAR,LNONCOLLINEAR = .FALSE.
实测运算过程中显存占用约2.4G,计算耗时如下。
$ grep LOOP OUTCAR
      LOOP:  cpu time      5.7644: real time      5.8725
      LOOP:  cpu time      3.0786: real time      3.0801
      LOOP:  cpu time      3.2049: real time      3.2062
      LOOP:  cpu time      3.1874: real time      3.1890
      LOOP:  cpu time     81.3908: real time     81.4357
      LOOP:  cpu time    157.7834: real time    157.8850
      LOOP:  cpu time    221.9540: real time    222.0601
     LOOP+:  cpu time    610.8025: real time    611.2869

7

帖子

0

威望

88

eV
积分
95

Level 2 能力者

54#
发表于 Post on 2024-1-4 14:23:07 | 只看该作者 Only view this author
szp12345 发表于 2023-12-29 09:08
我后来加机器也考虑过2637V4,最后放弃了。
2696V3单核睿频能达到3.8G,我实测使用四个核心频率能维持在 ...

E5 2637v4 主频3.5.睿频3.7。我测试了下,跑vasp的时候,全核睿频在3.6G。

67

帖子

0

威望

1085

eV
积分
1152

Level 4 (黑子)

55#
 楼主 Author| 发表于 Post on 2024-1-4 23:02:32 | 只看该作者 Only view this author
Songchi 发表于 2024-1-4 14:23
E5 2637v4 主频3.5.睿频3.7。我测试了下,跑vasp的时候,全核睿频在3.6G。

架构新,主频高,看来这个U更适合提醒P100

67

帖子

0

威望

1085

eV
积分
1152

Level 4 (黑子)

56#
 楼主 Author| 发表于 Post on 2024-1-8 23:07:16 | 只看该作者 Only view this author
1984901858 发表于 2024-1-2 11:09
谢谢。我找到一个典型的案例,麻烦你用GPU版分别跑一下纯泛函和杂化泛函。谢谢了。

我问了专业搞计算的,你这个杂货泛函计算方法不太对。
重新测试了你的案例,HSE计算能带无法使用GPU,会爆显存。

31

帖子

0

威望

371

eV
积分
402

Level 3 能力者

57#
发表于 Post on 2024-2-4 21:06:13 | 只看该作者 Only view this author
本帖最后由 目前还不会计算 于 2024-2-4 21:08 编辑
Songchi 发表于 2023-12-27 19:16
我大约是在今年三月份搞得p100做DFT。

我的思路跟楼主有点不一样。

最近我也配了一台10卡的p100,等我们也测试一下速度,看看

1

帖子

0

威望

39

eV
积分
40

Level 2 能力者

58#
发表于 Post on 2024-2-22 16:37:42 | 只看该作者 Only view this author
楼主你好,请问你的7048GR机器的8条内存是怎样插法呢?是组成4通道了吗?我也准备组一台这样的服务器

31

帖子

0

威望

371

eV
积分
402

Level 3 能力者

59#
发表于 Post on 2024-2-26 10:53:35 | 只看该作者 Only view this author
Songchi 发表于 2023-12-27 19:16
我大约是在今年三月份搞得p100做DFT。

我的思路跟楼主有点不一样。

你好,大佬,你这个8卡的机器装的是ubuntu系统嘛,,我们主板上没有那个集成显卡接口 ,然后装多卡的ubuntu系统一直是有个问题,,无法进入系统

7

帖子

0

威望

88

eV
积分
95

Level 2 能力者

60#
发表于 Post on 2024-3-10 21:22:27 | 只看该作者 Only view this author
目前还不会计算 发表于 2024-2-26 10:53
你好,大佬,你这个8卡的机器装的是ubuntu系统嘛,,我们主板上没有那个集成显卡接口 ,然后装多卡的ubun ...

一般服务器都有集显输出的。可以先插一张正常带显示输出的显卡配置远程控制,配置好了再换p100,编译vasp。

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 02:32 , Processed in 0.231806 second(s), 30 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list