CentOS下GPU加速版QE的编译安装

Aridea · 发表于 Post on 2021-11-23 16:01:29

喵星大佬发表于 2021-11-23 08:09
用处在于GPU跑QE的时候CPU可以干别的
再就是，体系越大加速越明显，但是显存可能会不够

Soga，那这么说还是很厉害呀

shine · 发表于 Post on 2021-11-23 16:56:32

老师，您好。我想向您请教一下：我的GPU 是RTX3080Ti, 我在Centos8.0上安装的驱动版本是NVIDIA-Linux-x86_64-470.86，安装成功后继续安装了cuda，版本是cuda_11.1.0_455.23.05_linux.run。安装时系统默认的也是图形界面，进入命令界面安装的驱动和cuda，安装成功后，进入不了图形界面是怎么回事？

喵星大佬 · 发表于 Post on 2021-11-23 17:28:41

shine 发表于 2021-11-23 16:56
老师，您好。我想向您请教一下：我的GPU 是RTX3080Ti, 我在Centos8.0上安装的驱动版本是NVIDIA-Linux-x86_6 ...

在图形界面下似乎装不了驱动吧

shine · 发表于 Post on 2021-11-24 09:03:37

喵星大佬发表于 2021-11-23 17:28
在图形界面下似乎装不了驱动吧

嗯嗯，谢谢老师回复。老师，您好，我先是在命令界面下装的驱动和cuda，装好后进不了图形化界面了，不清楚是怎么回事，不知您在安装中有没有遇到这种情况？

喵星大佬 · 发表于 Post on 2021-11-24 09:13:09

shine 发表于 2021-11-24 09:03
嗯嗯，谢谢老师回复。老师，您好，我先是在命令界面下装的驱动和cuda，装好后进不了图形化界面了，不清楚 ...

装完之后

systemctl set-default graphical.target

复制代码

就好了

shine · 发表于 Post on 2021-11-25 10:02:46

喵星大佬发表于 2021-11-24 09:13
装完之后

就好了

好的，谢谢老师

kuangll · 发表于 Post on 2021-12-5 09:19:53

本帖最后由 kuangll 于 2021-12-5 09:21 编辑

abin 发表于 2021-3-24 22:42
NGC docker 不香吗?

GPU版本推荐NGC上做好的容器镜像（已经更新到QE 6.8）: https://catalog.ngc.nvidia.com/o ... rs/quantum_espresso

kuangll · 发表于 Post on 2021-12-5 10:50:24

本帖最后由 kuangll 于 2021-12-6 20:47 编辑

使用http://bbs.keinsci.com/thread-17661-1-1.html提供的石墨炔测试文件，24核(双路2678v3)所花时间比2060s略高(分别花费约23min和约28min)，但是在第一个测试文件(单晶硅)中，GPU花费了更长的时间(分别花费了约50s和约1min10s)，当然由于所用GPU本身并不强，仅供参考。若有更强的显卡/多张显卡等情况，欢迎展示测试结果。

试了下用NGC上的qe-6.8容器，在1块V100上跑了下楼主链接里的石墨炔算例，可以跑到466.72s。

General routines
calbec : 2.71s CPU 4.02s WALL ( 176594 calls)
fft : 19.96s CPU 10.17s WALL ( 140 calls)
0.04s GPU ( 11 calls)
ffts : 0.61s CPU 0.32s WALL ( 21 calls)
fftw : 1.39s CPU 86.63s WALL ( 182318 calls)
54.17s GPU ( 182318 calls)
interpolate : 2.25s CPU 1.29s WALL ( 11 calls)
Parallel routines
PWSCF : 342.89s CPU 466.72s WALL
This run was terminated on: 2:20:13 5Dec2021
=------------------------------------------------------------------------------=
JOB DONE.
=------------------------------------------------------------------------------=

复制代码

喵星大佬 · 发表于 Post on 2021-12-5 17:43:13

kuangll 发表于 2021-12-5 10:50
试了下用NGC上的qe-6.8容器，在1块V100上跑了下楼主链接里的石墨烯算例，可以跑到466.72s。

那加速效果是相当可观了

snljty · 发表于 Post on 2021-12-6 12:50:11

本帖最后由 snljty 于 2021-12-6 14:41 编辑

snljty 发表于 2021-11-2 17:59
刚编译了一下QE 6.8的GPU版本，借宝地做一下记录。
QE 6.8版本不管是GPU版本还是CPU版本都需要下载一个dev ...

跑了一下链接里石墨炔的那个例子，编译的是MPI+GPU版，但是资源限制目前测试只用了一块GPU，相当于mpirun -np 1 OMP_NUM_THREADS=1 pw.x，不清楚是否会和编译完全不支持MPI的版本有明显差别。
Silver 4214R单颗CPU，用12核，纯OpenMP并行，1h32m。纯MPI并行，36m26.20s。
Silver 4214R单核+1块RTX 3080Ti，15m22.35s。

喵星大佬 · 发表于 Post on 2021-12-6 14:38:26

snljty 发表于 2021-12-6 12:50
跑了一下链接里石墨烯（应该是吧）的那个例子，编译的是MPI+GPU版，但是资源限制目前测试只用了一块GPU， ...

那个应该是石墨炔，你跑出来的结果跟我测试的基本一致，我是24核E5V3纯MPI并行28min，单核+2060s跑23min，这个基本是2060s跟3080Ti的差距了，但是按楼上的情况看V100貌似快得多，只要8min不到

snljty · 发表于 Post on 2021-12-6 14:42:37

本帖最后由 snljty 于 2021-12-6 14:43 编辑

喵星大佬发表于 2021-12-6 14:38
那个应该是石墨炔，你跑出来的结果跟我测试的基本一致，我是24核E5V3纯MPI并行28min，单核+2060s跑23min ...

谢谢指正。看来双精度依赖性也不小？

喵星大佬 · 发表于 Post on 2021-12-6 14:52:39

snljty 发表于 2021-12-6 14:42
谢谢指正。看来双精度依赖性也不小？

不好说，也可能是因为内存速度的原因，毕竟V100是HBM2显存，比DDR4快接近一个数量级

kuangll · 发表于 Post on 2021-12-6 21:30:36

还是石墨炔算例，补充一个A100 40GB单卡测试结果，运行时间284.18s，相比前面V100提升1.6倍。（注：使用了MPS启动4个进程，-npool 4）

General routines
calbec : 1.62s CPU 1.65s WALL ( 89990 calls)
fft : 10.97s CPU 3.11s WALL ( 140 calls)
0.25s GPU ( 11 calls)
ffts : 0.38s CPU 0.11s WALL ( 21 calls)
fftw : 1.05s CPU 36.22s WALL ( 92852 calls)
20.11s GPU ( 92852 calls)
interpolate : 1.22s CPU 0.43s WALL ( 11 calls)
Parallel routines
PWSCF : 283.93s CPU 284.18s WALL

复制代码

kuangll · 发表于 Post on 2021-12-6 21:33:26

喵星大佬发表于 2021-12-6 14:52
不好说，也可能是因为内存速度的原因，毕竟V100是HBM2显存，比DDR4快接近一个数量级

有道理，需要用工具分析下才知道是哪一块对性能影响比较大。

		自动登录 Automatic login	找回密码 Forget password
密码 Password			注册 Register

[Quantum ESPRESSO] CentOS下GPU加速版QE的编译安装