计算化学公社

 找回密码 Forget password
 注册 Register
楼主 Author: 喵星大佬
打印 Print 上一主题 Last thread 下一主题 Next thread

[Quantum ESPRESSO] CentOS下GPU加速版QE的编译安装

[复制链接 Copy URL]

148

帖子

0

威望

887

eV
积分
1035

Level 4 (黑子)

16#
发表于 Post on 2021-11-23 16:01:29 | 只看该作者 Only view this author
喵星大佬 发表于 2021-11-23 08:09
用处在于GPU跑QE的时候CPU可以干别的
再就是,体系越大加速越明显,但是显存可能会不够

Soga,那这么说还是很厉害呀

37

帖子

0

威望

1227

eV
积分
1264

Level 4 (黑子)

17#
发表于 Post on 2021-11-23 16:56:32 | 只看该作者 Only view this author
老师,您好。我想向您请教一下:我的GPU 是RTX3080Ti, 我在Centos8.0上安装的驱动版本是NVIDIA-Linux-x86_64-470.86,安装成功后继续安装了cuda,版本是cuda_11.1.0_455.23.05_linux.run。安装时系统默认的也是图形界面,进入命令界面安装的驱动和cuda,安装成功后,进入不了图形界面是怎么回事?

1633

帖子

4

威望

4088

eV
积分
5801

Level 6 (一方通行)

喵星人

18#
 楼主 Author| 发表于 Post on 2021-11-23 17:28:41 | 只看该作者 Only view this author
shine 发表于 2021-11-23 16:56
老师,您好。我想向您请教一下:我的GPU 是RTX3080Ti, 我在Centos8.0上安装的驱动版本是NVIDIA-Linux-x86_6 ...

在图形界面下似乎装不了驱动吧

37

帖子

0

威望

1227

eV
积分
1264

Level 4 (黑子)

19#
发表于 Post on 2021-11-24 09:03:37 | 只看该作者 Only view this author
喵星大佬 发表于 2021-11-23 17:28
在图形界面下似乎装不了驱动吧

嗯嗯,谢谢老师回复。老师,您好,我先是在命令界面下装的驱动和cuda,装好后进不了图形化界面了,不清楚是怎么回事,不知您在安装中有没有遇到这种情况?

1633

帖子

4

威望

4088

eV
积分
5801

Level 6 (一方通行)

喵星人

20#
 楼主 Author| 发表于 Post on 2021-11-24 09:13:09 | 只看该作者 Only view this author
shine 发表于 2021-11-24 09:03
嗯嗯,谢谢老师回复。老师,您好,我先是在命令界面下装的驱动和cuda,装好后进不了图形化界面了,不清楚 ...

装完之后
  1. systemctl set-default graphical.target
复制代码

就好了

37

帖子

0

威望

1227

eV
积分
1264

Level 4 (黑子)

21#
发表于 Post on 2021-11-25 10:02:46 | 只看该作者 Only view this author

好的,谢谢老师

6

帖子

0

威望

140

eV
积分
146

Level 2 能力者

22#
发表于 Post on 2021-12-5 09:19:53 | 只看该作者 Only view this author
本帖最后由 kuangll 于 2021-12-5 09:21 编辑
abin 发表于 2021-3-24 22:42
NGC docker 不香吗?

GPU版本推荐NGC上做好的容器镜像(已经更新到QE 6.8): https://catalog.ngc.nvidia.com/o ... rs/quantum_espresso

6

帖子

0

威望

140

eV
积分
146

Level 2 能力者

23#
发表于 Post on 2021-12-5 10:50:24 | 只看该作者 Only view this author
本帖最后由 kuangll 于 2021-12-6 20:47 编辑
使用http://bbs.keinsci.com/thread-17661-1-1.html提供的石墨炔测试文件,24核(双路2678v3)所花时间比2060s略高(分别花费约23min和约28min),但是在第一个测试文件(单晶硅)中,GPU花费了更长的时间(分别花费了约50s和约1min10s),当然由于所用GPU本身并不强,仅供参考。若有更强的显卡/多张显卡等情况,欢迎展示测试结果。

试了下用NGC上的qe-6.8容器,在1块V100上跑了下楼主链接里的石墨算例,可以跑到466.72s。

  1.      General routines
  2.      calbec       :      2.71s CPU      4.02s WALL (  176594 calls)
  3.      fft          :     19.96s CPU     10.17s WALL (     140 calls)
  4.                                         0.04s GPU  (      11 calls)
  5.      ffts         :      0.61s CPU      0.32s WALL (      21 calls)
  6.      fftw         :      1.39s CPU     86.63s WALL (  182318 calls)
  7.                                        54.17s GPU  (  182318 calls)
  8.      interpolate  :      2.25s CPU      1.29s WALL (      11 calls)

  9.      Parallel routines

  10.      PWSCF        :    342.89s CPU    466.72s WALL


  11.    This run was terminated on:   2:20:13   5Dec2021

  12. =------------------------------------------------------------------------------=
  13.    JOB DONE.
  14. =------------------------------------------------------------------------------=
复制代码

1633

帖子

4

威望

4088

eV
积分
5801

Level 6 (一方通行)

喵星人

24#
 楼主 Author| 发表于 Post on 2021-12-5 17:43:13 | 只看该作者 Only view this author
kuangll 发表于 2021-12-5 10:50
试了下用NGC上的qe-6.8容器,在1块V100上跑了下楼主链接里的石墨烯算例,可以跑到466.72s。

那加速效果是相当可观了

1187

帖子

5

威望

2841

eV
积分
4129

Level 6 (一方通行)

25#
发表于 Post on 2021-12-6 12:50:11 | 只看该作者 Only view this author
本帖最后由 snljty 于 2021-12-6 14:41 编辑
snljty 发表于 2021-11-2 17:59
刚编译了一下QE 6.8的GPU版本,借宝地做一下记录。
QE 6.8版本不管是GPU版本还是CPU版本都需要下载一个dev ...

跑了一下链接里石墨炔的那个例子,编译的是MPI+GPU版,但是资源限制目前测试只用了一块GPU,相当于mpirun -np 1 OMP_NUM_THREADS=1 pw.x,不清楚是否会和编译完全不支持MPI的版本有明显差别。
Silver 4214R单颗CPU,用12核,纯OpenMP并行,1h32m。纯MPI并行,36m26.20s。
Silver 4214R单核+1块RTX 3080Ti,15m22.35s。

1633

帖子

4

威望

4088

eV
积分
5801

Level 6 (一方通行)

喵星人

26#
 楼主 Author| 发表于 Post on 2021-12-6 14:38:26 | 只看该作者 Only view this author
snljty 发表于 2021-12-6 12:50
跑了一下链接里石墨烯(应该是吧)的那个例子,编译的是MPI+GPU版,但是资源限制目前测试只用了一块GPU, ...

那个应该是石墨炔,你跑出来的结果跟我测试的基本一致,我是24核E5V3纯MPI并行28min,单核+2060s跑23min,这个基本是2060s跟3080Ti的差距了,但是按楼上的情况看V100貌似快得多,只要8min不到

1187

帖子

5

威望

2841

eV
积分
4129

Level 6 (一方通行)

27#
发表于 Post on 2021-12-6 14:42:37 | 只看该作者 Only view this author
本帖最后由 snljty 于 2021-12-6 14:43 编辑
喵星大佬 发表于 2021-12-6 14:38
那个应该是石墨炔,你跑出来的结果跟我测试的基本一致,我是24核E5V3纯MPI并行28min,单核+2060s跑23min ...

谢谢指正。看来双精度依赖性也不小?

1633

帖子

4

威望

4088

eV
积分
5801

Level 6 (一方通行)

喵星人

28#
 楼主 Author| 发表于 Post on 2021-12-6 14:52:39 | 只看该作者 Only view this author
snljty 发表于 2021-12-6 14:42
谢谢指正。看来双精度依赖性也不小?

不好说,也可能是因为内存速度的原因,毕竟V100是HBM2显存,比DDR4快接近一个数量级

6

帖子

0

威望

140

eV
积分
146

Level 2 能力者

29#
发表于 Post on 2021-12-6 21:30:36 | 只看该作者 Only view this author
还是石墨炔算例,补充一个A100 40GB单卡测试结果, 运行时间284.18s,相比前面V100提升1.6倍。(注:使用了MPS启动4个进程,-npool 4)
  1.      General routines
  2.      calbec       :      1.62s CPU      1.65s WALL (   89990 calls)
  3.      fft          :     10.97s CPU      3.11s WALL (     140 calls)
  4.                                         0.25s GPU  (      11 calls)
  5.      ffts         :      0.38s CPU      0.11s WALL (      21 calls)
  6.      fftw         :      1.05s CPU     36.22s WALL (   92852 calls)
  7.                                        20.11s GPU  (   92852 calls)
  8.      interpolate  :      1.22s CPU      0.43s WALL (      11 calls)

  9.      Parallel routines

  10.      PWSCF        :    283.93s CPU    284.18s WALL
复制代码

6

帖子

0

威望

140

eV
积分
146

Level 2 能力者

30#
发表于 Post on 2021-12-6 21:33:26 | 只看该作者 Only view this author
喵星大佬 发表于 2021-12-6 14:52
不好说,也可能是因为内存速度的原因,毕竟V100是HBM2显存,比DDR4快接近一个数量级

有道理,需要用工具分析下才知道是哪一块对性能影响比较大。

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-24 10:42 , Processed in 0.166070 second(s), 20 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list