计算化学公社

标题: 推荐一套适用于VASP的GPU配置 [打印本页]

作者
Author:
szp12345    时间: 2022-12-22 22:04
标题: 推荐一套适用于VASP的GPU配置
本帖最后由 szp12345 于 2023-12-29 09:13 编辑

本人手里有两张RTX2080S显卡,尝试使用GPU版VASP,发现GPU加速效果硬实很好。但是2080S只有8G显存,计算较大的体系时经常爆显存,官网建议使用P100、V100、A100等计算卡,在某宝上调研P100价格很好,入手了两张,当时价格为2100一张,对比2080S速度提升非常明显。

趁最近显卡降价又购置了一套GPU机器,具体配置及价格如下:

CPU:2696V3 *2                   470*2  (某宝)
内存:镁光2133 16G*8          148*8  (某宝)
主板机箱电源:超微7048GR    3500   (某鱼)
计算卡:TESLA P100              1500*4(某宝)
硬盘:500G机械,闲置硬盘
总价11624,不含税(2022年12月报价)

由于最近快递瘫痪,买的东西迟迟未到,新机器测试结果等后续再补发。
另由于本人是做实验出身的,计算只是略懂皮毛,测试对比可能有不准确之处,仅供参考。

KiritsuguPapa之邀,分享测试文件和vasp编译文件
(, 下载次数 Times of downloads: 296)
编译vasp时使用的fftw为默认安装,未测试专门针对双精度从化的fftw,欢迎志同道合之友一同测试

--------------------------------------------------------------------------------------------------------------------
2023.8.11 更新:
前几天有坛友问机器可靠性,一并说一下供坛友参考
最早配的机器已经稳定运行半年多了,目前有三台同样配置的机器,经过多次验证,P100卡跑VASP足矣,我机器上一台4卡P100的计算速度跑我们学校超算中心的两张A100的计算速度是一样的,没必要使用V100或A100。另外GPU版只适合做300个原子以上的大体系,小体系计算过程中GPU大部分时间处于闲置状态。计算速度是受到CPU整理数据限制的。帖子里面的配置瓶颈是CPU的单核性能,我也尝试了用OPENMP+MPI编译VASP,每个GPU分配多个CPU核心,但基本没有什么提升效果。

--------------------------------------------------------------------------------------------------------------------
2023.10.8 更新
最近又加了两台机器,目前我的小集群里有5台同样的机器在跑,现在这样一套配置在万能宝8000左右能搞定。

之前发贴时性能测试对比比较混乱,最近重新整理了一下,在此感谢 @KiritsuguPapa     @wolfli369    @nicheal 等诸位坛友分享的对比数据。


--------------------------------------------------------------------------------------------------------------------
49楼 @Songchi 坛友提供了一套8卡方案,并附带了相关性能测试结果,感谢分享。


4卡P100:
     1 T=   400. E= -.38354159E+04 F=-.38601811E+04 E0= -.38581906E+04  EK=0.24765E+02 SP= 0.00E+00 SK= 0.00E+00
    LOOP+:  cpu time    445.6568: real time    442.0529  (77电子步)

2卡2080S:
     1 T=   400. E= -.38354173E+04 F=-.38601812E+04 E0= -.38581906E+04  EK=0.24764E+02 SP= 0.00E+00 SK= 0.00E+00
    LOOP+:  cpu time   1311.2067: real time   1311.5196  (79电子步)

CPU 2696V3 36核:
     1 T=   400. E= -.38353993E+04 F=-.38601816E+04 E0= -.38581905E+04  EK=0.24782E+02 SP= 0.00E+00 SK= 0.00E+00
     LOOP+: cpu time   2040.6643: realtime   2043.8574 (81电子步)

CPU 8336C 64核:
     1 T=   400. E= -.38353970E+04 F=-.38601816E+04 E0= -.38581903E+04  EK=0.24785E+02 SP= 0.00E+00 SK= 0.00E+00
    LOOP+:  cpu time    746.1045: real time    751.661281电子步)

CPU 8272CL 52核:
     1 T=   400. E= -.38354115E+04 F=-.38601818E+04 E0= -.38581908E+04  EK=0.24770E+02 SP= 0.00E+00 SK= 0.00E+00

    LOOP+:  cpu time   1149.2981: real time   1162.346777电子步)

CPU 7R32  48核:
1 T=  400. E= -.38354004E+04 F= -.38601818E+04 E0= -.38581904E+04  EK= 0.24781E+02 SP= 0.00E+00 SK= 0.00E+00
LOOP+: cpu time    640.8056: realtime    643.9117  (78电子步)

CPU 7R32  96核:
1 T=  399. E= -.38354520E+04 F= -.38601818E+04 E0= -.38581908E+04  EK= 0.24730E+02 SP= 0.00E+00 SK= 0.00E+00

LOOP+: cpu time    618.2759: real time    623.1789 81







作者
Author:
szp12345    时间: 2022-12-22 22:06
本帖最后由 szp12345 于 2022-12-25 20:15 编辑

补发四卡测试结果,计算速度提升明显,比双卡快了一倍,约6秒一个电子步。
(, 下载次数 Times of downloads: 58)



顺便说一下其它问题:
1,P100的双精度为2080S的10倍左右,但实际计算速度P100是2080S的2倍,有没有大佬知道什么原因?
2,P100计算时使用率最高90%左右,2080S则100%,是否CPU瓶颈?

作者
Author:
Picardo    时间: 2022-12-22 22:13
楼主也测下cpu计算时间呗
作者
Author:
szp12345    时间: 2022-12-22 23:15
Picardo 发表于 2022-12-22 22:13
楼主也测下cpu计算时间呗

上面测试结果里面有,双路2696V3共36核,每电子步平均时间40秒
作者
Author:
Picardo    时间: 2022-12-23 09:23
本帖最后由 Picardo 于 2022-12-23 09:28 编辑
szp12345 发表于 2022-12-22 23:15
上面测试结果里面有,双路2696V3共36核,每电子步平均时间40秒

好的,羊了之后,眼神有点问题,抱歉。请教一下,vasp算aimd的时候主要用单精度嘛
作者
Author:
szp12345    时间: 2022-12-23 17:23
Picardo 发表于 2022-12-23 09:23
好的,羊了之后,眼神有点问题,抱歉。请教一下,vasp算aimd的时候主要用单精度嘛

双精度,2080S的单精度比P100的强,但还是P100计算速度快
作者
Author:
abin    时间: 2022-12-23 19:03
楼主, 用简单的测试数据,
再次论证了,
对于VASP等依赖双精度的计算任务,
使用专业卡,效果当然不错了。

这玩意不是跑MD,消费级的GPU是没啥用处的。

新卡当然很贵了, 不过可以试试万能的某宝某鱼呀。
反正都是拆机旧货,能用就行呗。
作者
Author:
ghifi37    时间: 2022-12-25 10:15
VASP不能跨卡分配显存,32G的黄卡超过2万块一张,不知啥时候能再腰折一次!
作者
Author:
szp12345    时间: 2022-12-25 20:09
ghifi37 发表于 2022-12-25 10:15
VASP不能跨卡分配显存,32G的黄卡超过2万块一张,不知啥时候能再腰折一次!

等吧,目前16G显存基本够用。
不过,腰折一次还是买不起,得好几次...
作者
Author:
szp12345    时间: 2022-12-25 20:19
abin 发表于 2022-12-23 19:03
楼主, 用简单的测试数据,
再次论证了,
对于VASP等依赖双精度的计算任务,

确实,通用就行。另外,捡垃圾使我快乐
作者
Author:
KiritsuguPapa    时间: 2023-1-1 18:32
能否分享一下任务文件和编译参数?
作者
Author:
szp12345    时间: 2023-1-3 11:12
KiritsuguPapa 发表于 2023-1-1 18:32
能否分享一下任务文件和编译参数?

已上传贴子附件,欢迎一同探讨
作者
Author:
KiritsuguPapa    时间: 2023-1-3 11:37
szp12345 发表于 2023-1-3 11:12
已上传贴子附件,欢迎一同探讨

谢谢 我也测试一下
作者
Author:
KiritsuguPapa    时间: 2023-1-3 16:55
本帖最后由 KiritsuguPapa 于 2023-1-3 17:39 编辑

用纯CPU、64核8336C跑的结果:

$ grep -m 1 F= OSZICAR
      1 T=   400. E= -.38353970E+04 F= -.38601816E+04 E0= -.38581903E+04  EK= 0.24785E+02 SP= 0.00E+00 SK= 0.00E+00
$ grep -m 1 LOOP+ OUTCAR
     LOOP+:  cpu time    746.1045: real time    751.6612(共81个电子步)

麻烦楼主对比看看第一步离子步的时间?以及能量值是否相近?因为CPU和GPU算法不同,电子步时间不一定能直接比较。
上面测试是用vasp_gam跑的,记得用OpenACC应该也能用vasp_gam来着?
稍后我再测一下3090和tesla T4的情况发上来


作者
Author:
KiritsuguPapa    时间: 2023-1-3 17:39
52核8272CL的结果:

$ grep -m 1 F= OSZICAR
      1 T=   400. E= -.38354115E+04 F= -.38601818E+04 E0= -.38581908E+04  EK= 0.24770E+02 SP= 0.00E+00 SK= 0.00E+00
$ grep -m 1 LOOP+ OUTCAR
     LOOP+:  cpu time   1149.2981: real time   1162.3467(共77个电子步)

作者
Author:
KiritsuguPapa    时间: 2023-1-3 19:51
本帖最后由 KiritsuguPapa 于 2023-1-3 20:18 编辑

请问用GPU跑VASP时,CPU只能使用1个核 对吗?我之前还测试过OpenMP+OpenACC来着,不过还是只能用一个核,并没有用到多线程,不知道是不是哪里配置不对。
标准输出上显示:
running on    1 total cores
distrk:  each k-point on    1 cores,    1 groups
distr:  one band on    1 cores,    1 groups
OpenACC runtime initialized ...    1 GPUs detected


作者
Author:
szp12345    时间: 2023-1-3 21:05
本帖最后由 szp12345 于 2023-1-3 21:07 编辑
KiritsuguPapa 发表于 2023-1-3 17:39
52核8272CL的结果:

$ grep -m 1 F= OSZICAR

$grep -m 1 F= OSZICAR
      1 T=   400. E= -.38354159E+04 F= -.38601811E+04 E0= -.38581906E+04  EK= 0.24765E+02 SP= 0.00E+00 SK= 0.00E+00
$ grep -m 1 LOOP+ OUTCAR
     LOOP+:  cpu time    445.6568: real time    442.0529   (同样77个电子步)

GPU是用gam版跑的,对于std版16G显存不够,跑这个结构会报错,可以试试用3090的24G显存跑std。
目前openacc版本的vasp用了nccl,只能用一个cpu核心带一个GPU,因而cpu单核性能会对计算结果有影响。
INCAR文件里面加上LUSENCCL = .FALSE.可以一个GPU上跑多个线程,我之前用2080s测试并没有性能提升,可能是由于一个线程已经使2080s性能跑满了,再多没有意义,后来换了P100之后没有再这样测过。
跑同样的任务,2080S使用率在稳定在98%左右,p100最高91%,偶尔还会更低。
我也尝试用OpenACC+OpenMP方式编译vasp,测试时使用4个cpu带一个gpu,性能有一丁点的提升,但是没算完第一个离子步就报错了,目前还没找到原因。

作者
Author:
szp12345    时间: 2023-1-3 21:28
KiritsuguPapa 发表于 2023-1-3 19:51
请问用GPU跑VASP时,CPU只能使用1个核 对吗?我之前还测试过OpenMP+OpenACC来着,不过还是只能用一个核,并 ...

running    4 mpi-ranks, with    4 threads/rank
distrk:  each k-point on    4 cores,    1 groups
distr:  one band on NCORE=   1 cores,    4 groups

OpenMP+OpenACC可以利用多核CPU,我跑小体系时4GPU+16CPU没有问题,性能提升并不明显(当时提交了好多个任务,原子个120左右,不同任务之前原子数相关2-3个,没有仔细对比),OpenMP+OpenACC方式减少了GPU空闲时间(watch -n 0.5 nvidia-smi肉眼监测),但是GPU使用率还是最高91%

作者
Author:
KiritsuguPapa    时间: 2023-1-4 14:26
本帖最后由 KiritsuguPapa 于 2023-1-4 14:34 编辑
szp12345 发表于 2023-1-3 21:28
running    4 mpi-ranks, with    4 threads/rank
distrk:  each k-point on    4 cores,    1 groups ...

对我的意思是每个GPU用一个CPU核。你这个是4个P100的吧,我测的是一个GPU来着,待会试试多个GPU。

另外请问你用的是nvhpc自带的cuda编译器和openmpi吗?运行时是用mpirun -np 4 vasp_gam命令?
作者
Author:
szp12345    时间: 2023-1-4 16:25
KiritsuguPapa 发表于 2023-1-4 14:26
对我的意思是每个GPU用一个CPU核。你这个是4个P100的吧,我测的是一个GPU来着,待会试试多个GPU。

另 ...

编译文件使用makefile.include.nvhpc_ompi_mkl_omp_acc
需要使用intel-oneapi和nvidia hpc-sdk

调用方法如下:
source /public/app/intel-oneapi-base2022.2.0.262-hpc2022.2.0.191/setvars.sh
export MANPATH=$MANPATH:/public/app/hpc-sdk/2022-22.3/Linux_x86_64/22.3/compilers/man
export PATH=/public/app/hpc-sdk/2022-22.3/Linux_x86_64/22.3/compilers/bin:$PATH
export PATH=/public/app/hpc-sdk/2022-22.3/Linux_x86_64/22.3/comm_libs/mpi/bin:$PATH
export MANPATH=$MANPATH:/public/app/hpc-sdk/2022-22.3/Linux_x86_64/22.3/comm_libs/mpi/man
export LD_LIBRARY_PATH=/public/app/hpc-sdk/2022-22.3/Linux_x86_64/22.3/compilers/extras/qd/lib:$LD_LIBRARY_PATH
export PATH=$PATH:/public/app/vasp/vasp6.3.2/gpu_hpc_223_openmp/bin

mpirun -np 4 --map-by ppr:2:socket:PE=4 --bind-to core \
              -x OMP_NUM_THREADS=4 -x OMP_STACKSIZE=512m \
              -x OMP_PLACES=cores -x OMP_PROC_BIND=close \
              --report-bindings vasp_std > log

作者
Author:
KiritsuguPapa    时间: 2023-1-4 18:38
3090跑的:
$ grep F= OSZICAR
      1 T=   400. E= -.38354008E+04 F= -.38601829E+04 E0= -.38581932E+04  EK= 0.24782E+02 SP= 0.00E+00 SK= 0.00E+00

$ grep LOOP+ OUTCAR
     LOOP+:  cpu time   2506.5651: real time   2511.0218

这个比较离谱 跑了132个电子步才收敛(改大了NELM)平均每电子步19秒 甚至比你的2080S略差一点




作者
Author:
KiritsuguPapa    时间: 2023-1-4 18:39
本帖最后由 KiritsuguPapa 于 2023-1-4 18:44 编辑
szp12345 发表于 2023-1-4 16:25
编译文件使用makefile.include.nvhpc_ompi_mkl_omp_acc
需要使用intel-oneapi和nvidia hpc-sdk

上面3090是用nvhpc_omp_acc测的,不过OMP_NUM_THREADS=1
如果设置OMP_NUM_THREADS=4,虽然vasp输出里显示是4threads 但top查看还是只有一个核在跑 请问你知道是怎么回事吗?
我再试试你说的intel


作者
Author:
sun35mr    时间: 2023-1-8 00:17
请问P100是主动散热还是被动散热呢?机箱风道如何构建,噪音大吗?
作者
Author:
szp12345    时间: 2023-1-9 23:07
sun35mr 发表于 2023-1-8 00:17
请问P100是主动散热还是被动散热呢?机箱风道如何构建,噪音大吗?

被动散热,用的是超微的准系统,内部有风道,机箱外侧又加了显卡散热风扇抽风,在IPMI里面设置风扇模式为Optimal Speed即可轻松压GPU温度,声音不大。即使风扇开了full speed也比机架服务器声音小多了。
作者
Author:
不稳定的沉淀    时间: 2023-1-18 17:27
请教大佬是在哪一家淘到的P100,可以私聊说一下吗
作者
Author:
hhl276    时间: 2023-2-8 09:51
谢谢楼主测试。想问一下P100显卡被动散热,没有风扇,这个会导致显卡效率低吗,您在使用时如何解决这个问题?谢谢您。
作者
Author:
szp12345    时间: 2023-2-8 11:40
hhl276 发表于 2023-2-8 09:51
谢谢楼主测试。想问一下P100显卡被动散热,没有风扇,这个会导致显卡效率低吗,您在使用时如何解决这个问题 ...

机箱风道加外置GPU抽风风扇,散热没问题的,长时间满载温度也就50多度。超微7048的这个机箱设计还是很不错的
作者
Author:
zhaovic    时间: 2023-2-23 18:24
单p100用vasp6.3.2的gam版的算这个算例要130电子步才算完1个离子步。然后稍微调低encut到350避免爆显存用std版计算只要68个离子步就算完了,平均每步18秒,结果和cpu版的相同,但是cpu版需要81步收敛,平均每步25秒,机器是2698v4,40核心。
作者
Author:
wolfli369    时间: 2023-2-24 09:02
纯CPU 64核8375C
[root@Master test]# grep -m 1 F= OSZICAR
      1 T=   400. E= -.38354063E+04 F= -.38601817E+04 E0= -.38581909E+04  EK= 0.24775E+02 SP= 0.00E+00 SK= 0.00E+00
[root@master test]# grep -m 1 LOOP+ OUTCAR
     LOOP+:  cpu time    731.0543: real time    734.3854 (81电子步)看样还是GPU加速香

作者
Author:
wolfli369    时间: 2023-2-24 09:20
能测试一下cp2k的GPU加速性能吗?
作者
Author:
szp12345    时间: 2023-2-24 09:33
zhaovic 发表于 2023-2-23 18:24
单p100用vasp6.3.2的gam版的算这个算例要130电子步才算完1个离子步。然后稍微调低encut到350避免爆显存用st ...

我觉得跟编译环境有关吧,之前KiritsuguPapa用3090测试的132步才收敛
作者
Author:
szp12345    时间: 2023-2-24 09:39
wolfli369 发表于 2023-2-24 09:20
能测试一下cp2k的GPU加速性能吗?

我没用过cp2k
回头搞搞试试吧
作者
Author:
wolfli369    时间: 2023-2-24 10:02
szp12345 发表于 2023-2-24 09:39
我没用过cp2k
回头搞搞试试吧

辛苦了  先谢谢
作者
Author:
wuy069    时间: 2023-3-6 10:42
KiritsuguPapa 发表于 2023-1-4 18:39
上面3090是用nvhpc_omp_acc测的,不过OMP_NUM_THREADS=1
如果设置OMP_NUM_THREADS=4,虽然vasp输出里显 ...

我也遇到同样的问题了,请问你解决了吗,是NVIDIA HPC SDK版本的问题吗?
作者
Author:
爱上飞机的坦克    时间: 2023-8-5 11:58
最新也想配置这样一台GPU加速度的机器,有些问题不清楚,楼主可以私聊一下吗?已发消息给您
作者
Author:
nicheal    时间: 2023-9-27 11:33
CPU 7R32  gam版vasp
48核
1 T=   400. E= -.38354004E+04 F= -.38601818E+04 E0= -.38581904E+04  EK= 0.24781E+02 SP= 0.00E+00 SK= 0.00E+00
LOOP+:  cpu time    640.8056: real time    643.9117  (78电子步)

96核
1 T=   399. E= -.38354520E+04 F= -.38601818E+04 E0= -.38581908E+04  EK= 0.24730E+02 SP= 0.00E+00 SK= 0.00E+00
LOOP+:  cpu time    618.2759: real time    623.1789 81

作者
Author:
qinfei    时间: 2023-11-6 20:27
我的vasp6 gpu,并行两张卡可以计算。但,当我并行两张以上的卡的时候,就一直卡在FFT: planning ... GRIDC!这是什么原因造成的!
作者
Author:
szp12345    时间: 2023-11-7 10:38
qinfei 发表于 2023-11-6 20:27
我的vasp6 gpu,并行两张卡可以计算。但,当我并行两张以上的卡的时候,就一直卡在FFT: planning ... GRIDC ...

应该是编译环境导致的,我之前用openmp+mpi编译的时候出现过这个问题
作者
Author:
bblovelp    时间: 2023-12-1 08:49
老师,您好,我想问下这个服务器跑deepmd怎么样。
作者
Author:
szp12345    时间: 2023-12-1 09:36
bblovelp 发表于 2023-12-1 08:49
老师,您好,我想问下这个服务器跑deepmd怎么样。

能跑,之前用2.1.5版本的对比过,速度是A100的1/5。
P100这个卡架构比较老,好像没有张量核心,机器学习这方面太弱。
想跑deepmd的话可以考虑V100,目前这个卡4000一张左右。
作者
Author:
bblovelp    时间: 2023-12-1 14:07
szp12345 发表于 2023-12-1 09:36
能跑,之前用2.1.5版本的对比过,速度是A100的1/5。
P100这个卡架构比较老,好像没有张量核心,机器学习 ...

好的,谢谢老师,最近想给服务器加显卡跑deepmd,那我看下V100
作者
Author:
Picardo    时间: 2023-12-1 14:38
szp12345 发表于 2023-12-1 09:36
能跑,之前用2.1.5版本的对比过,速度是A100的1/5。
P100这个卡架构比较老,好像没有张量核心,机器学习 ...

兄弟,v100和2080ti,跑deepmd的话推荐哪个
作者
Author:
szp12345    时间: 2023-12-1 18:49
Picardo 发表于 2023-12-1 14:38
兄弟,v100和2080ti,跑deepmd的话推荐哪个

没有对比过这两个卡,我对比过p100和2080s,p100稍微快一点,20系列的架构是要比p100新的。
另外显存也比较重要,尽量选大的。
资金充足可以考虑32g的v100,捡垃圾的话11g的2080ti不用考虑,22g的2080ti和16g的v100之间我也不知道该选哪个……
作者
Author:
Picardo    时间: 2023-12-3 09:58
szp12345 发表于 2023-12-1 18:49
没有对比过这两个卡,我对比过p100和2080s,p100稍微快一点,20系列的架构是要比p100新的。
另外显存也 ...

谢谢兄弟,最近入一个,之前想买3090,报销什么的一懒,涨了3000。赶快入一个,估计这些也得涨
作者
Author:
1984901858    时间: 2023-12-20 11:02
双卡跑vasp纯泛函和杂化泛函,加速情况怎么样,显存会爆吗?
作者
Author:
szp12345    时间: 2023-12-21 23:08
1984901858 发表于 2023-12-20 11:02
双卡跑vasp纯泛函和杂化泛函,加速情况怎么样,显存会爆吗?

看你体系和精度了,ENCUT设置太大的话容易爆显存,不爆显存的前提下GPU速度非常快
作者
Author:
1984901858    时间: 2023-12-25 14:31
szp12345 发表于 2023-12-21 23:08
看你体系和精度了,ENCUT设置太大的话容易爆显存,不爆显存的前提下GPU速度非常快

谢谢。我想升级我的电脑(7950x,64g,主板最多能插三张显卡)。现在titan v(12g,2000元)和 v100(16g,3000元)价格下来了,颇具性价比。我想问一下,三张titan v的话,36g显存够应付vasp的纯泛函计算吗?(1000个原子体系,截断能500eV)不够的话,三张v100呢?
作者
Author:
szp12345    时间: 2023-12-25 20:06
1984901858 发表于 2023-12-25 14:31
谢谢。我想升级我的电脑(7950x,64g,主板最多能插三张显卡)。现在titan v(12g,2000元)和 v100(16g ...

没有NVLINK,显存是不能共用的。
而且VASP每个计算线程占用一个GPU,每张GPU的显存消耗量是一样的。
你这样的体系和精度,16G够呛。
你可以把你的计算任务发给我,我用P100试一下,看看16G够不够用。
作者
Author:
Songchi    时间: 2023-12-27 19:16
我大约是在今年三月份搞得p100做DFT。

我的思路跟楼主有点不一样。

我目前是有两台,每台的配置是,泰安7079+8张p100 16G+128G d4+两块e5 2637v4。vasp6.3基于openacc编译。

我也简单测了一下这个benchmark:

8卡p100:
     1 T=   400. E= -38353980E+04
    LOOP+:  cpu time    327.2425: real time    334.5081  (67电子步)

4卡p100:
     1 T=   400. E= -.38354292E+04
    LOOP+:  cpu time    493.6080: real time    499.6489  (66电子步)

2卡p100:
     1 T=   400. E= -.38354250E+04
    LOOP+:  cpu time    882.8581: real time    924.5204  (66电子步)

我的性能略弱于楼主10%。2卡情况下都弱一些比较奇怪,自己想了下,除了编译条件和软件版本外,cpu可能得背锅。

在gpu加速里,cpu的缓存可能比纯粹的单核频率更重要,毕竟e5 2637v4睿频3.7,没道理单核性能弱于e5 2696v3,但考虑到缓存的话就说不准了。类似的情况我看有限元计算领域好像也有,有空我换下cpu试试看。
作者
Author:
Songchi    时间: 2023-12-27 20:11
我又仔细看了下,性能差异好像是std和gam执行程序的差异。那没事了
作者
Author:
szp12345    时间: 2023-12-29 09:08
Songchi 发表于 2023-12-27 19:16
我大约是在今年三月份搞得p100做DFT。

我的思路跟楼主有点不一样。

我后来加机器也考虑过2637V4,最后放弃了。
2696V3单核睿频能达到3.8G,我实测使用四个核心频率能维持在3.2~3.5G之间。
不知道2637V全核满载时频率多少,能不能提供一下数据?

作者
Author:
1984901858    时间: 2024-1-2 11:09
本帖最后由 1984901858 于 2024-1-2 11:11 编辑
szp12345 发表于 2023-12-25 20:06
没有NVLINK,显存是不能共用的。
而且VASP每个计算线程占用一个GPU,每张GPU的显存消耗量是一样的。
你 ...

谢谢。我找到一个典型的案例,麻烦你用GPU版分别跑一下纯泛函和杂化泛函。谢谢了。
作者
Author:
szp12345    时间: 2024-1-3 08:45
1984901858 发表于 2024-1-2 11:09
谢谢。我找到一个典型的案例,麻烦你用GPU版分别跑一下纯泛函和杂化泛函。谢谢了。

修改了你INCAR,LNONCOLLINEAR = .FALSE.
实测运算过程中显存占用约2.4G,计算耗时如下。
$ grep LOOP OUTCAR
      LOOP:  cpu time      5.7644: real time      5.8725
      LOOP:  cpu time      3.0786: real time      3.0801
      LOOP:  cpu time      3.2049: real time      3.2062
      LOOP:  cpu time      3.1874: real time      3.1890
      LOOP:  cpu time     81.3908: real time     81.4357
      LOOP:  cpu time    157.7834: real time    157.8850
      LOOP:  cpu time    221.9540: real time    222.0601
     LOOP+:  cpu time    610.8025: real time    611.2869

作者
Author:
Songchi    时间: 2024-1-4 14:23
szp12345 发表于 2023-12-29 09:08
我后来加机器也考虑过2637V4,最后放弃了。
2696V3单核睿频能达到3.8G,我实测使用四个核心频率能维持在 ...

E5 2637v4 主频3.5.睿频3.7。我测试了下,跑vasp的时候,全核睿频在3.6G。
作者
Author:
szp12345    时间: 2024-1-4 23:02
Songchi 发表于 2024-1-4 14:23
E5 2637v4 主频3.5.睿频3.7。我测试了下,跑vasp的时候,全核睿频在3.6G。

架构新,主频高,看来这个U更适合提醒P100
作者
Author:
szp12345    时间: 2024-1-8 23:07
1984901858 发表于 2024-1-2 11:09
谢谢。我找到一个典型的案例,麻烦你用GPU版分别跑一下纯泛函和杂化泛函。谢谢了。

我问了专业搞计算的,你这个杂货泛函计算方法不太对。
重新测试了你的案例,HSE计算能带无法使用GPU,会爆显存。
作者
Author:
目前还不会计算    时间: 2024-2-4 21:06
本帖最后由 目前还不会计算 于 2024-2-4 21:08 编辑
Songchi 发表于 2023-12-27 19:16
我大约是在今年三月份搞得p100做DFT。

我的思路跟楼主有点不一样。

最近我也配了一台10卡的p100,等我们也测试一下速度,看看
作者
Author:
郭一人    时间: 2024-2-22 16:37
楼主你好,请问你的7048GR机器的8条内存是怎样插法呢?是组成4通道了吗?我也准备组一台这样的服务器
作者
Author:
目前还不会计算    时间: 2024-2-26 10:53
Songchi 发表于 2023-12-27 19:16
我大约是在今年三月份搞得p100做DFT。

我的思路跟楼主有点不一样。

你好,大佬,你这个8卡的机器装的是ubuntu系统嘛,,我们主板上没有那个集成显卡接口 ,然后装多卡的ubuntu系统一直是有个问题,,无法进入系统
作者
Author:
Songchi    时间: 2024-3-10 21:22
目前还不会计算 发表于 2024-2-26 10:53
你好,大佬,你这个8卡的机器装的是ubuntu系统嘛,,我们主板上没有那个集成显卡接口 ,然后装多卡的ubun ...

一般服务器都有集显输出的。可以先插一张正常带显示输出的显卡配置远程控制,配置好了再换p100,编译vasp。
作者
Author:
gaozx    时间: 2024-3-21 18:13
想问一下是否采用单核较强的CPU而不是楼主这种E5处理器搭配GPU加速算力更强?
作者
Author:
Entropy.S.I    时间: 2024-3-21 18:44
本帖最后由 Entropy.S.I 于 2024-3-27 15:05 编辑
gaozx 发表于 2024-3-21 18:13
想问一下是否采用单核较强的CPU而不是楼主这种E5处理器搭配GPU加速算力更强?

per-core性能影响很大,过去两个月我用4/8卡V100 SXM2的平台做了大量benchmark,用了很多课题组的算例,95%以上的情况,我的4卡模组性能都比其他人用弱鸡CPU带的4卡模组强。这套平台已经可以批量出货了。
(, 下载次数 Times of downloads: 41)
作者
Author:
szp12345    时间: 2024-3-22 17:56
gaozx 发表于 2024-3-21 18:13
想问一下是否采用单核较强的CPU而不是楼主这种E5处理器搭配GPU加速算力更强?

是的,这套配置,跑VASP,单核性能是瓶颈。
这套配置可以说是万元内的最佳选择。2696V3单核睿频3.8G,使用四个进程,分配到两个CPU上,CPU性能可以达到3.6G左右,当然这样做的前提是剩余的CPU不能再跑其他任务。
选择其它单核性能更强的CPU时还要注意PCIE通道数问题。
我不是卖服务器的,我只是个垃圾佬,楼上Entropy.S.I是服务器优化这方面的专家
作者
Author:
szp12345    时间: 2024-3-22 19:17
Entropy.S.I 发表于 2024-3-21 18:44
per-core性能影响很大,过去两个月我用4/8卡V100 SXM2的平台做了大量benchmark,用了很多课题组的算例,9 ...

大佬好,请教个问题,SXM2版本的V100与CPU通信时会不会产生抢PCIE带宽问题?
最近关注超微的一个四卡SXM2扩展板,这个板通过两条PCIE X16与CPU通信,对于VASP来说,相当于4个GPU共用两条PCIE X16,会不会产生抢带宽问题?
作者
Author:
Entropy.S.I    时间: 2024-3-22 22:53
本帖最后由 Entropy.S.I 于 2024-3-22 23:24 编辑
szp12345 发表于 2024-3-22 19:17
大佬好,请教个问题,SXM2版本的V100与CPU通信时会不会产生抢PCIE带宽问题?
最近关注超微的一个四卡SXM ...

我开发的8卡机器就是用这块板子搭的,用上单核性能足够强的CPU,VASP性能远强于无PCIe Switch但使用LGA3647平台的DELL C4140。正确编译VASP后,可以使用P2P,驱动的Runtime会自动选择最佳的通信路径,并行效率很高,至少有NVLink的4卡内几乎完全线性,对于杂化泛函计算,8卡都能保持不错的线性。另外,Lammps的ReaxFF模拟甚至通过IB网络跨节点计算都有很好的并行效率(前提是体系足够大,达到10万原子及以上级别)。

问题是这块板子现在市面上几乎没货了,我做了100个机箱,但没有足够的板子,还在发愁。当然,另一方面还发愁奸商不但把V100的价格抬到翻倍,现在还不给我V100了,大概是觉得我影响他们牟取暴利了,以及他们都想囤V100来搭配非常阴间的技嘉T181-G20卖高价,那玩意4卡共享1个PCIe x16,还是弱鸡的3647平台,性能可想而知。而且T181需要OCP整柜直流供电,尺寸也不是标准的19英寸,上不了大多数人的机柜。顺带一提,T181准系统他们进货价2000多,现在卖6000

这帮奸商毫无技术可言,只会搞JBOG - Just-a-bunch-of-GPUs。其中一个最不要妈的奸商的网址是oyato.com

作者
Author:
Picardo    时间: 2024-3-23 11:20
Entropy.S.I 发表于 2024-3-21 18:44
per-core性能影响很大,过去两个月我用4/8卡V100 SXM2的平台做了大量benchmark,用了很多课题组的算例,9 ...

怎么购买
作者
Author:
Entropy.S.I    时间: 2024-3-23 13:51
Picardo 发表于 2024-3-23 11:20
怎么购买

先找我分析好具体需求,再确定配置方案,最后移交给合作方走商务流程。价格比不了全用二手且不含税的DIY方案(尤其是某些用一两百元的洋垃圾板U还不插满内存的配置),而且还要计入公司的运营成本和合作方应得的利润(不然谁给你几十万去囤货,资金周转都是大问题,几个月甚至一年不付款的客户太多了)。我确实推荐去DIY,但是这种形态的产品坑是不少的,软件和硬件方面都有,我在开发过程中已经踩坑无数了
作者
Author:
jiminfu    时间: 2024-3-26 23:17
Entropy.S.I 发表于 2024-3-21 18:44
per-core性能影响很大,过去两个月我用4/8卡V100 SXM2的平台做了大量benchmark,用了很多课题组的算例,9 ...

有点意思
作者
Author:
目前还不会计算    时间: 2024-3-27 09:18
szp12345 发表于 2024-3-22 17:56
是的,这套配置,跑VASP,单核性能是瓶颈。
这套配置可以说是万元内的最佳选择。2696V3单核睿频3.8G,使 ...

大佬,你的P100   4卡运行时候,,每张卡的功耗是多少啊,我是用的处理器和你一样,但是速度比你整体要慢10%左右。
作者
Author:
目前还不会计算    时间: 2024-3-27 09:38
szp12345 发表于 2024-3-22 17:56
是的,这套配置,跑VASP,单核性能是瓶颈。
这套配置可以说是万元内的最佳选择。2696V3单核睿频3.8G,使 ...

我看你这个2卡到4卡的增长,几乎是线性增长,功耗应该是也是线性增长。
作者
Author:
szp12345    时间: 2024-3-27 14:47
目前还不会计算 发表于 2024-3-27 09:18
大佬,你的P100   4卡运行时候,,每张卡的功耗是多少啊,我是用的处理器和你一样,但是速度比你整体要慢 ...

功耗不是固定的,每个卡的最大功耗在150W左右,GPU温度基本在50度左右。
另外我的测试结果是独占GPU节点测试的,其它32个CPU核心是空闲的,这样才能最大限度地提高GPU的性能。
作者
Author:
Picardo    时间: 2024-3-27 21:12
Entropy.S.I 发表于 2024-3-23 13:51
先找我分析好具体需求,再确定配置方案,最后移交给合作方走商务流程。价格比不了全用二手且不含税的DIY ...

私信你嘛,还是直接帖子回复,还是什么其他方法
作者
Author:
Entropy.S.I    时间: 2024-3-27 21:43
本帖最后由 Entropy.S.I 于 2024-3-27 22:57 编辑
Picardo 发表于 2024-3-27 21:12
私信你嘛,还是直接帖子回复,还是什么其他方法

论坛不能公布联系方式,否则属于广告,私信应该可以。另外,我不负责营销和商务,我只是个开发者,东西开发好就交给公司运营了,进货、定价、拟合同之类的商务流程以及安装、发货、售后、上门服务之类也是他们负责,我顶多提供技术支持和“增值服务”里面那些调优服务
作者
Author:
Songchi    时间: 2024-3-27 23:42
Entropy.S.I 发表于 2024-3-21 18:44
per-core性能影响很大,过去两个月我用4/8卡V100 SXM2的平台做了大量benchmark,用了很多课题组的算例,9 ...

你们动作真快,我也在做类似的东西,机箱刚刚回来第一版。电路板我自己还在画,还在调。
作者
Author:
Songchi    时间: 2024-3-27 23:43
Entropy.S.I 发表于 2024-3-23 13:51
先找我分析好具体需求,再确定配置方案,最后移交给合作方走商务流程。价格比不了全用二手且不含税的DIY ...

话说,你是知乎“熵增熵减”大佬嘛,前段时间还在知乎聊过天,刚刚看头像熟悉。
作者
Author:
Entropy.S.I    时间: 2024-3-27 23:59
本帖最后由 Entropy.S.I 于 2024-3-28 00:01 编辑
Songchi 发表于 2024-3-27 23:42
你们动作真快,我也在做类似的东西,机箱刚刚回来第一版。电路板我自己还在画,还在调。

加入我们一起搞就不用重复造轮子了,前提是不能以赚钱为导向
作者
Author:
gaozx    时间: 2024-4-4 15:25
老哥,我按照你的推荐买了超微7048GR,但是发现电源线出来是6+6+2pin,p100转接出来应该是6+6+2+2,少了2pin,请问应该怎么办呀?
作者
Author:
szp12345    时间: 2024-4-5 11:10
gaozx 发表于 2024-4-4 15:25
老哥,我按照你的推荐买了超微7048GR,但是发现电源线出来是6+6+2pin,p100转接出来应该是6+6+2+2,少了2pi ...

6+6+2足够了,少两个不影响
作者
Author:
gaozx    时间: 2024-4-5 18:29
szp12345 发表于 2024-4-5 11:10
6+6+2足够了,少两个不影响

感谢回复,已经用上了,最近测试一下,目前一切正常!
作者
Author:
gaozx    时间: 2024-4-5 18:31
szp12345 发表于 2024-4-5 11:10
6+6+2足够了,少两个不影响

另外我最近在跑任务发现cpu_time 是real_time的两倍,关闭超线程后两者差距减小,但是cpu_time始终比real_time高出30%左右
作者
Author:
目前还不会计算    时间: 2024-4-8 10:31
szp12345 发表于 2024-3-27 14:47
功耗不是固定的,每个卡的最大功耗在150W左右,GPU温度基本在50度左右。
另外我的测试结果是独占GPU节点 ...

我也是这样测的,然后我用的是cpu核心没你多,我在想是不是核心不多导致的。
作者
Author:
ddddnight    时间: 2024-4-21 22:18
Entropy.S.I 发表于 2024-3-21 18:44
per-core性能影响很大,过去两个月我用4/8卡V100 SXM2的平台做了大量benchmark,用了很多课题组的算例,9 ...

请问大佬,我是4090的显卡,13900K的CPU,跑vaspGPU版本,用命令mpirun np 1 vasp_std跑一个测试文件,看显卡占用率只有1gb,速度一般,比用48和的9754CPU跑的慢(9754是50s,GPU是150s),但是我用mpirun np 24 vasp_std跑,显卡占用率上来了,但是跑的很慢很慢,这是什么原因呢
作者
Author:
喝杯热水    时间: 2024-4-22 09:20
ddddnight 发表于 2024-4-21 22:18
请问大佬,我是4090的显卡,13900K的CPU,跑vaspGPU版本,用命令mpirun np 1 vasp_std跑一个测试文件,看 ...

4090的FP64算力不高的。
作者
Author:
ddddnight    时间: 2024-4-22 10:09
喝杯热水 发表于 2024-4-22 09:20
4090的FP64算力不高的。

但是我使用mpirun np 1 vasp_std 运行,显卡使用率只有1g,测试了一下文件,运行速度还凑合,但是我用mpirun np 24,显卡跑满了,但是运行速度很慢,这是什么原因呢
作者
Author:
Entropy.S.I    时间: 2024-4-23 01:51
ddddnight 发表于 2024-4-21 22:18
请问大佬,我是4090的显卡,13900K的CPU,跑vaspGPU版本,用命令mpirun np 1 vasp_std跑一个测试文件,看 ...

信息不足,无法判断
作者
Author:
Entropy.S.I    时间: 2024-4-23 01:52
喝杯热水 发表于 2024-4-22 09:20
4090的FP64算力不高的。

根据广泛测试,单块RTX 4090跑VASP性能高于单块V100
作者
Author:
ddddnight    时间: 2024-4-23 11:20
Entropy.S.I 发表于 2024-4-23 01:51
信息不足,无法判断

老师,我编译makefile.include和测试已经上传,您有空可以看一下吗,另外我用楼主的测试文件也是不如48核9754CPU跑的快

作者
Author:
Entropy.S.I    时间: 2024-4-24 21:06
ddddnight 发表于 2024-4-23 11:20
老师,我编译makefile.include和测试已经上传,您有空可以看一下吗,另外我用楼主的测试文件也是不如48核 ...

体系过小,只有4个原子,显然不适合用GPU跑。单块V100 SXM2配某神秘CPU耗时190s,比你的4090慢
作者
Author:
ddddnight    时间: 2024-4-25 14:44
Entropy.S.I 发表于 2024-4-24 21:06
体系过小,只有4个原子,显然不适合用GPU跑。单块V100 SXM2配某神秘CPU耗时190s,比你的4090慢

感谢老师的测试,体系越大,GPU跑的相对越快吗
作者
Author:
Entropy.S.I    时间: 2024-4-25 18:07
ddddnight 发表于 2024-4-25 14:44
感谢老师的测试,体系越大,GPU跑的相对越快吗

在我测试过的范围内是如此
作者
Author:
ddddnight    时间: 2024-4-26 00:39
Entropy.S.I 发表于 2024-4-25 18:07
在我测试过的范围内是如此

好的,十分感谢老师的回答!
作者
Author:
目前还不会计算    时间: 2024-5-25 16:53
Entropy.S.I 发表于 2024-3-27 23:59
加入我们一起搞就不用重复造轮子了,前提是不能以赚钱为导向

大佬,你有用过8卡A100 跑过楼主的案例嘛,按照A100速度,估计能达到200s左右的时间。
作者
Author:
Entropy.S.I    时间: 2024-5-25 19:15
目前还不会计算 发表于 2024-5-25 16:53
大佬,你有用过8卡A100 跑过楼主的案例嘛,按照A100速度,估计能达到200s左右的时间。

下图架构的节点(HGX A100-80G-8GPU,购买成本1,200,000 ~ 1,400,000),4GPU 246s (78 LOOPs),8GPU 139s (71 LOOPs)
(, 下载次数 Times of downloads: 36)
下图架构的节点(由我开发,购买成本39,000 ~ 40,000),4GPU 224s (78 LOOPs),8GPU 163s (71 LOOPs)
(, 下载次数 Times of downloads: 37)


下图架构的节点(1028GQ-TVRT整机,购买成本~21,000),4GPU 279s (78 LOOPs)
(, 下载次数 Times of downloads: 39)

下图架构的节点(ES8000A-E12准系统平台,购买成本270,000 ~ 290,000),4GPU 210s (78 LOOPs),8GPU 102s (71 LOOPs)
(, 下载次数 Times of downloads: 41)

还有大量测试数据未发布,约500条

作者
Author:
目前还不会计算    时间: 2024-7-12 10:44
Entropy.S.I 发表于 2024-5-25 19:15
下图架构的节点(HGX A100-80G-8GPU,购买成本1,200,000 ~ 1,400,000),4GPU 246s (78 LOOPs),8GPU 139 ...

大佬,就是我看你之前发的帖子有说到这个pcie转接线连接到pcie口的时候很松,容易掉驱动。目前不知道你们是什么解决的,我自己弄了一台4卡v100,老是掉驱动,跑了几个vasp任务,运行一会儿,就掉驱动,是否就是你之前说的接口松动,导致的容易掉驱动。不知道你们目前是否有解决办法呀。
你的原话:当然我也不是说现在用的这个转接线很好,这东西没有固定措施,轻轻碰一下就会掉速/掉卡。希望以后量产的转接线能有可靠的固定。(来源于你b站回复其他同学的评论)。


作者
Author:
Entropy.S.I    时间: 2024-7-12 13:59
目前还不会计算 发表于 2024-7-12 10:44
大佬,就是我看你之前发的帖子有说到这个pcie转接线连接到pcie口的时候很松,容易掉驱动。目前不知道你们 ...

我自己开发的整机,PCIe转接线是专门定制的,有可靠固定措施,在生产环境连续运行80天,没有任何问题,论坛里就有我课题组的人,可以作证。
作者
Author:
目前还不会计算    时间: 2024-7-12 15:29
Entropy.S.I 发表于 2024-7-12 13:59
我自己开发的整机,PCIe转接线是专门定制的,有可靠固定措施,在生产环境连续运行80天,没有任何问题,论 ...

好滴好滴,那看来我还是没买到合适的PCIE线,所以才会目前这个问题,我得再多找找啦。2月份的时候,看你们应该是刚组,现在上了定制的线了,怪不得我们目前还有点小问题
作者
Author:
Entropy.S.I    时间: 2024-7-12 16:16
目前还不会计算 发表于 2024-7-12 15:29
好滴好滴,那看来我还是没买到合适的PCIE线,所以才会目前这个问题,我得再多找找啦。2月份的时候,看你 ...

目前市面上能长期稳定运行的只有我设计的整机解决方案
作者
Author:
目前还不会计算    时间: 2024-7-26 22:40
终于用个东西固定好啦,现在跑到4卡v100, 跑到  265s  啦,
作者
Author:
目前还不会计算    时间: 2024-8-22 21:49
Entropy.S.I 发表于 2024-7-12 16:16
目前市面上能长期稳定运行的只有我设计的整机解决方案

目前这个4卡的gpu扩展板好像都卖完了,都没地方买了,好像都被买完了
作者
Author:
Entropy.S.I    时间: 2024-8-23 13:47
目前还不会计算 发表于 2024-8-22 21:49
目前这个4卡的gpu扩展板好像都卖完了,都没地方买了,好像都被买完了

正因如此,我不会再宣传了,防止仅有的几十片存货被卖完导致无法满足自己课题组的需求




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3