m083020036 发表于 2021-3-24 12:42 所有相关细节均在贴子中 http://bbs.keinsci.com/thread-22198-1-1.html |
喵星大佬 发表于 2021-3-5 19:19 不好意思 能请教你QE GPU编译详细流程吗 我用Nvidia HPC SDK和自带cuda11.2 configure一直失败 1.想请问你有使用那些环境变数 2.cuda可以使用Nvidia HPC SDK自带的吗 还是说需要另外安装cuda 3../configure --with-cuda=/opt/nvidia/hpc_sdk/Linux_x86_64/21.2/cuda/11.2/ --with-cuda-runtime=11.2 --with-cuda-cc=75 --enable-openmp 这是我指令是这样下 但就是不会过 4.这是我使用的环境变数 export NVARCH=`uname -s`_`uname -m` export NVCOMPILERS=/opt/nvidia/hpc_sdk export MANPATH=$MANPATH:$NVCOMPILERS/$NVARCH/21.2/compilers/man export PATH=$NVCOMPILERS/$NVARCH/21.2/compilers/bin:$PATH export PATH=/opt/nvidia/hpc_sdk/Linux_x86_64/21.2/cuda/11.2/bin:$PATH export LD_LIBRARY_PATH=/opt/nvidia/hpc_sdk/Linux_x86_64/21.2/cuda/11.2/lib64:$LD_LIBRARY_PATH 但都会出现这些错误 checking for cuInit in -lcuda... no configure: error: in `/root/q-e-gpu': configure: error: Couldn't find libcuda See `config.log' for more details 请问我该如何解决 |
dmh1998dmh 发表于 2020-11-4 18:12 新的QE6.7-GPU版本可以使用新的Cuda和免费的Nvidia HPC SDK编译了 Nvidia HPC SDK安装起来比起以前的PGI简单很多了。 方法也一样,而且也没碰到什么坑 |
楼主能详细介绍一下PGI编译器编译QE的方法吗? |
Theor_Comp 发表于 2020-10-8 11:49 买个诸如RTX 2080Ti之类高端GPU即可 |
您好,我一直使用的CPU版的QE,现在想用GPU加速,硬件需要做什么改变吗?不知道我的能不能用GPU加速QE |
MilkTeaLegend 发表于 2020-7-9 15:43 您好,我的是体系大概有100个原子,现在进行的是吸附体系的结构优化,24小时只跑了45步,而且还没有算完,虽然能量有收敛的趋势,但是这还是太慢了, (硬件:双路 正式版8171M (26核2.3G,全核睿频3.0G),内存12*16G, 还0.5T的固态,2T的企业级机械硬盘,(双系统,所以固态和机械分了1半给windows), 我的输入文件如下, 第一是想请老师帮忙优化一下输入文件, 其次是是想咨询一下您,如果买GPU进行加速,我这能算的动吗?因为您帖子中说GPU特别耗显存,我怕买回来显存不够用 ![]() |
测试发现scf快,relax慢 |
你好,看到你有用GPU编译qe的性能测试文章,我非常感兴趣,我试着尝试编译,过程中有发生一些问题,所以我想请教你有关GPU编译的问题。 1.能请教你GPU完整编译过程吗? 过程中有启用哪些环境变数? 2.编译完的qe,我该如何下指令执行。 |
试用了几次,发现要用好QE的GPU加速还是挺难的: 1、对现存要求太高,只是一个单进程单线程,测试了49个原子的体系,12G的现存不够用,zhegvdx_gpu error: cusolverDnZpotrf failed! 后直接退出; 2、不支持跨显卡分配显存,至少对CC35是这样的; 3、不支持不同架构的显卡同时混用。 最大的问题还是显存占用太厉害,相比VASP大约80个原子的一个进程只要2、3G显存,QE的GPU还是没法在稍大一点的体系中使用。 或者哪位兄台折腾看看怎么把显存占用降下来! |
实际试了下,感觉有接近6倍的加速,挺不错的!就是显存是个问题 CPU with GPU Step Time Energy fmax LBFGS: 0 14:47:47 -2173.299157 0.6692 LBFGS: 1 14:50:10 -2173.345309 0.4611 LBFGS: 2 14:52:27 -2173.379739 0.5246 LBFGS: 3 14:54:41 -2173.387804 0.3019 LBFGS: 4 14:57:03 -2173.391530 0.0909 LBFGS: 5 14:59:33 -2173.392151 0.0847 Total consumption time: 706 Only CPU Step Time Energy fmax LBFGS: 0 15:40:42 -2173.299157 0.6692 LBFGS: 1 15:55:37 -2173.345309 0.4611 LBFGS: 2 16:09:31 -2173.379739 0.5246 LBFGS: 3 16:22:31 -2173.387804 0.3019 LBFGS: 4 16:35:36 -2173.391530 0.0909 LBFGS: 5 16:49:32 -2173.392151 0.0847 Total consumption time: 4130 Speed-up ration: 4130/706=5.8 |
MilkTeaLegend 发表于 2020-6-26 16:18 感谢告知,那实际上已经编译成功绝大部分了,测试了下,感觉比GPU的VASP还要费显存。 |
ghifi37 发表于 2020-6-26 13:15 现在GPU实际起大作用的只有pw 所以make 时候不需要make all , make all 有些模块有问题 编译到一半直接退出 分别 make pw ; make pp ; make cp ... 即可 |
手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图
GMT+8, 2025-8-17 04:38 , Processed in 0.232826 second(s), 32 queries , Gzip On.