计算化学公社

 找回密码 Forget password
 注册 Register
楼主 Author: szp12345
打印 Print 上一主题 Last thread 下一主题 Next thread

[配置讨论] 推荐一套适用于VASP的GPU配置

  [复制链接 Copy URL]

139

帖子

1

威望

1414

eV
积分
1573

Level 5 (御坂)

16#
发表于 Post on 2023-1-3 19:51:20 | 只看该作者 Only view this author
本帖最后由 KiritsuguPapa 于 2023-1-3 20:18 编辑

请问用GPU跑VASP时,CPU只能使用1个核 对吗?我之前还测试过OpenMP+OpenACC来着,不过还是只能用一个核,并没有用到多线程,不知道是不是哪里配置不对。
标准输出上显示:
running on    1 total cores
distrk:  each k-point on    1 cores,    1 groups
distr:  one band on    1 cores,    1 groups
OpenACC runtime initialized ...    1 GPUs detected

67

帖子

0

威望

1085

eV
积分
1152

Level 4 (黑子)

17#
 楼主 Author| 发表于 Post on 2023-1-3 21:05:25 | 只看该作者 Only view this author
本帖最后由 szp12345 于 2023-1-3 21:07 编辑
KiritsuguPapa 发表于 2023-1-3 17:39
52核8272CL的结果:

$ grep -m 1 F= OSZICAR

$grep -m 1 F= OSZICAR
      1 T=   400. E= -.38354159E+04 F= -.38601811E+04 E0= -.38581906E+04  EK= 0.24765E+02 SP= 0.00E+00 SK= 0.00E+00
$ grep -m 1 LOOP+ OUTCAR
     LOOP+:  cpu time    445.6568: real time    442.0529   (同样77个电子步)

GPU是用gam版跑的,对于std版16G显存不够,跑这个结构会报错,可以试试用3090的24G显存跑std。
目前openacc版本的vasp用了nccl,只能用一个cpu核心带一个GPU,因而cpu单核性能会对计算结果有影响。
INCAR文件里面加上LUSENCCL = .FALSE.可以一个GPU上跑多个线程,我之前用2080s测试并没有性能提升,可能是由于一个线程已经使2080s性能跑满了,再多没有意义,后来换了P100之后没有再这样测过。
跑同样的任务,2080S使用率在稳定在98%左右,p100最高91%,偶尔还会更低。
我也尝试用OpenACC+OpenMP方式编译vasp,测试时使用4个cpu带一个gpu,性能有一丁点的提升,但是没算完第一个离子步就报错了,目前还没找到原因。

67

帖子

0

威望

1085

eV
积分
1152

Level 4 (黑子)

18#
 楼主 Author| 发表于 Post on 2023-1-3 21:28:43 | 只看该作者 Only view this author
KiritsuguPapa 发表于 2023-1-3 19:51
请问用GPU跑VASP时,CPU只能使用1个核 对吗?我之前还测试过OpenMP+OpenACC来着,不过还是只能用一个核,并 ...

running    4 mpi-ranks, with    4 threads/rank
distrk:  each k-point on    4 cores,    1 groups
distr:  one band on NCORE=   1 cores,    4 groups

OpenMP+OpenACC可以利用多核CPU,我跑小体系时4GPU+16CPU没有问题,性能提升并不明显(当时提交了好多个任务,原子个120左右,不同任务之前原子数相关2-3个,没有仔细对比),OpenMP+OpenACC方式减少了GPU空闲时间(watch -n 0.5 nvidia-smi肉眼监测),但是GPU使用率还是最高91%

139

帖子

1

威望

1414

eV
积分
1573

Level 5 (御坂)

19#
发表于 Post on 2023-1-4 14:26:52 | 只看该作者 Only view this author
本帖最后由 KiritsuguPapa 于 2023-1-4 14:34 编辑
szp12345 发表于 2023-1-3 21:28
running    4 mpi-ranks, with    4 threads/rank
distrk:  each k-point on    4 cores,    1 groups ...

对我的意思是每个GPU用一个CPU核。你这个是4个P100的吧,我测的是一个GPU来着,待会试试多个GPU。

另外请问你用的是nvhpc自带的cuda编译器和openmpi吗?运行时是用mpirun -np 4 vasp_gam命令?

67

帖子

0

威望

1085

eV
积分
1152

Level 4 (黑子)

20#
 楼主 Author| 发表于 Post on 2023-1-4 16:25:52 | 只看该作者 Only view this author
KiritsuguPapa 发表于 2023-1-4 14:26
对我的意思是每个GPU用一个CPU核。你这个是4个P100的吧,我测的是一个GPU来着,待会试试多个GPU。

另 ...

编译文件使用makefile.include.nvhpc_ompi_mkl_omp_acc
需要使用intel-oneapi和nvidia hpc-sdk

调用方法如下:
source /public/app/intel-oneapi-base2022.2.0.262-hpc2022.2.0.191/setvars.sh
export MANPATH=$MANPATH:/public/app/hpc-sdk/2022-22.3/Linux_x86_64/22.3/compilers/man
export PATH=/public/app/hpc-sdk/2022-22.3/Linux_x86_64/22.3/compilers/bin:$PATH
export PATH=/public/app/hpc-sdk/2022-22.3/Linux_x86_64/22.3/comm_libs/mpi/bin:$PATH
export MANPATH=$MANPATH:/public/app/hpc-sdk/2022-22.3/Linux_x86_64/22.3/comm_libs/mpi/man
export LD_LIBRARY_PATH=/public/app/hpc-sdk/2022-22.3/Linux_x86_64/22.3/compilers/extras/qd/lib:$LD_LIBRARY_PATH
export PATH=$PATH:/public/app/vasp/vasp6.3.2/gpu_hpc_223_openmp/bin

mpirun -np 4 --map-by ppr:2:socket:PE=4 --bind-to core \
              -x OMP_NUM_THREADS=4 -x OMP_STACKSIZE=512m \
              -x OMP_PLACES=cores -x OMP_PROC_BIND=close \
              --report-bindings vasp_std > log

139

帖子

1

威望

1414

eV
积分
1573

Level 5 (御坂)

21#
发表于 Post on 2023-1-4 18:38:23 | 只看该作者 Only view this author
3090跑的:
$ grep F= OSZICAR
      1 T=   400. E= -.38354008E+04 F= -.38601829E+04 E0= -.38581932E+04  EK= 0.24782E+02 SP= 0.00E+00 SK= 0.00E+00

$ grep LOOP+ OUTCAR
     LOOP+:  cpu time   2506.5651: real time   2511.0218

这个比较离谱 跑了132个电子步才收敛(改大了NELM)平均每电子步19秒 甚至比你的2080S略差一点



139

帖子

1

威望

1414

eV
积分
1573

Level 5 (御坂)

22#
发表于 Post on 2023-1-4 18:39:30 | 只看该作者 Only view this author
本帖最后由 KiritsuguPapa 于 2023-1-4 18:44 编辑
szp12345 发表于 2023-1-4 16:25
编译文件使用makefile.include.nvhpc_ompi_mkl_omp_acc
需要使用intel-oneapi和nvidia hpc-sdk

上面3090是用nvhpc_omp_acc测的,不过OMP_NUM_THREADS=1
如果设置OMP_NUM_THREADS=4,虽然vasp输出里显示是4threads 但top查看还是只有一个核在跑 请问你知道是怎么回事吗?
我再试试你说的intel

85

帖子

0

威望

394

eV
积分
479

Level 3 能力者

23#
发表于 Post on 2023-1-8 00:17:24 | 只看该作者 Only view this author
请问P100是主动散热还是被动散热呢?机箱风道如何构建,噪音大吗?

67

帖子

0

威望

1085

eV
积分
1152

Level 4 (黑子)

24#
 楼主 Author| 发表于 Post on 2023-1-9 23:07:20 | 只看该作者 Only view this author
sun35mr 发表于 2023-1-8 00:17
请问P100是主动散热还是被动散热呢?机箱风道如何构建,噪音大吗?

被动散热,用的是超微的准系统,内部有风道,机箱外侧又加了显卡散热风扇抽风,在IPMI里面设置风扇模式为Optimal Speed即可轻松压GPU温度,声音不大。即使风扇开了full speed也比机架服务器声音小多了。

1

帖子

0

威望

79

eV
积分
80

Level 2 能力者

25#
发表于 Post on 2023-1-18 17:27:52 | 只看该作者 Only view this author
请教大佬是在哪一家淘到的P100,可以私聊说一下吗

1

帖子

0

威望

25

eV
积分
26

Level 2 能力者

26#
发表于 Post on 2023-2-8 09:51:04 | 只看该作者 Only view this author
谢谢楼主测试。想问一下P100显卡被动散热,没有风扇,这个会导致显卡效率低吗,您在使用时如何解决这个问题?谢谢您。

67

帖子

0

威望

1085

eV
积分
1152

Level 4 (黑子)

27#
 楼主 Author| 发表于 Post on 2023-2-8 11:40:54 | 只看该作者 Only view this author
hhl276 发表于 2023-2-8 09:51
谢谢楼主测试。想问一下P100显卡被动散热,没有风扇,这个会导致显卡效率低吗,您在使用时如何解决这个问题 ...

机箱风道加外置GPU抽风风扇,散热没问题的,长时间满载温度也就50多度。超微7048的这个机箱设计还是很不错的

9

帖子

0

威望

212

eV
积分
221

Level 3 能力者

28#
发表于 Post on 2023-2-23 18:24:01 | 只看该作者 Only view this author
单p100用vasp6.3.2的gam版的算这个算例要130电子步才算完1个离子步。然后稍微调低encut到350避免爆显存用std版计算只要68个离子步就算完了,平均每步18秒,结果和cpu版的相同,但是cpu版需要81步收敛,平均每步25秒,机器是2698v4,40核心。

232

帖子

1

威望

3327

eV
积分
3579

Level 5 (御坂)

29#
发表于 Post on 2023-2-24 09:02:22 | 只看该作者 Only view this author
纯CPU 64核8375C
[root@Master test]# grep -m 1 F= OSZICAR
      1 T=   400. E= -.38354063E+04 F= -.38601817E+04 E0= -.38581909E+04  EK= 0.24775E+02 SP= 0.00E+00 SK= 0.00E+00
[root@master test]# grep -m 1 LOOP+ OUTCAR
     LOOP+:  cpu time    731.0543: real time    734.3854 (81电子步)看样还是GPU加速香

232

帖子

1

威望

3327

eV
积分
3579

Level 5 (御坂)

30#
发表于 Post on 2023-2-24 09:20:53 | 只看该作者 Only view this author
能测试一下cp2k的GPU加速性能吗?

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 03:07 , Processed in 0.194897 second(s), 28 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list