本帖最后由 szp12345 于 2023-12-29 09:13 编辑
本人手里有两张RTX2080S显卡,尝试使用GPU版VASP,发现GPU加速效果硬实很好。但是2080S只有8G显存,计算较大的体系时经常爆显存,官网建议使用P100、V100、A100等计算卡,在某宝上调研P100价格很好,入手了两张,当时价格为2100一张,对比2080S速度提升非常明显。
趁最近显卡降价又购置了一套GPU机器,具体配置及价格如下:
CPU:2696V3 *2 470*2 (某宝)
内存:镁光2133 16G*8 148*8 (某宝)
主板机箱电源:超微7048GR 3500 (某鱼)
计算卡:TESLA P100 1500*4(某宝)
硬盘:500G机械,闲置硬盘
总价11624,不含税(2022年12月报价)
由于最近快递瘫痪,买的东西迟迟未到,新机器测试结果等后续再补发。
另由于本人是做实验出身的,计算只是略懂皮毛,测试对比可能有不准确之处,仅供参考。
应KiritsuguPapa之邀,分享测试文件和vasp编译文件
input-makefile.rar
(451.79 KB, 下载次数 Times of downloads: 296)
编译vasp时使用的fftw为默认安装,未测试专门针对双精度从化的fftw,欢迎志同道合之友一同测试
--------------------------------------------------------------------------------------------------------------------
2023.8.11 更新:
前几天有坛友问机器可靠性,一并说一下供坛友参考
最早配的机器已经稳定运行半年多了,目前有三台同样配置的机器,经过多次验证,P100卡跑VASP足矣,我机器上一台4卡P100的计算速度跑我们学校超算中心的两张A100的计算速度是一样的,没必要使用V100或A100。另外GPU版只适合做300个原子以上的大体系,小体系计算过程中GPU大部分时间处于闲置状态。计算速度是受到CPU整理数据限制的。帖子里面的配置瓶颈是CPU的单核性能,我也尝试了用OPENMP+MPI编译VASP,每个GPU分配多个CPU核心,但基本没有什么提升效果。
-------------------------------------------------------------------------------------------------------------------- 2023.10.8 更新 最近又加了两台机器,目前我的小集群里有5台同样的机器在跑,现在这样一套配置在万能宝8000左右能搞定。
之前发贴时性能测试对比比较混乱,最近重新整理了一下,在此感谢 @KiritsuguPapa @wolfli369 @nicheal 等诸位坛友分享的对比数据。
--------------------------------------------------------------------------------------------------------------------
49楼 @Songchi 坛友提供了一套8卡方案,并附带了相关性能测试结果,感谢分享。
4卡P100: 1 T= 400. E= -.38354159E+04 F=-.38601811E+04 E0= -.38581906E+04 EK=0.24765E+02 SP= 0.00E+00 SK= 0.00E+00 LOOP+: cpu time 445.6568: real time 442.0529 (77电子步)
2卡2080S: 1 T= 400. E= -.38354173E+04 F=-.38601812E+04 E0= -.38581906E+04 EK=0.24764E+02 SP= 0.00E+00 SK= 0.00E+00 LOOP+: cpu time 1311.2067: real time 1311.5196 (79电子步)
CPU 2696V3 36核: 1 T= 400. E= -.38353993E+04 F=-.38601816E+04 E0= -.38581905E+04 EK=0.24782E+02 SP= 0.00E+00 SK= 0.00E+00 LOOP+: cpu time 2040.6643: realtime 2043.8574 (81电子步)
CPU 8336C 64核: 1 T= 400. E= -.38353970E+04 F=-.38601816E+04 E0= -.38581903E+04 EK=0.24785E+02 SP= 0.00E+00 SK= 0.00E+00 LOOP+: cpu time 746.1045: real time 751.6612(81电子步)
CPU 8272CL 52核: 1 T= 400. E= -.38354115E+04 F=-.38601818E+04 E0= -.38581908E+04 EK=0.24770E+02 SP= 0.00E+00 SK= 0.00E+00
LOOP+: cpu time 1149.2981: real time 1162.3467(77电子步)
CPU 7R32 48核: 1 T= 400. E= -.38354004E+04 F= -.38601818E+04 E0= -.38581904E+04 EK= 0.24781E+02 SP= 0.00E+00 SK= 0.00E+00 LOOP+: cpu time 640.8056: realtime 643.9117 (78电子步)
CPU 7R32 96核: 1 T= 399. E= -.38354520E+04 F= -.38601818E+04 E0= -.38581908E+04 EK= 0.24730E+02 SP= 0.00E+00 SK= 0.00E+00
LOOP+: cpu time 618.2759: real time 623.1789 81
|