记一次Lammps上GPU加速的折腾

tangzi_via · 发表于 Post on 2022-9-23 20:16:13

Cuda driver error 1 in call at file '/software/install/lammps-29Oct20/lib/gpu/geryon/nvd_kernel.h' in line 364.
请问一下大家我用lammps中的dpd/gpu进行就计算的时候出现了这个错误应该怎么解决，我用lmp_mpi -h检查了安装了gpu的
但是我把dpd/gpu换成dpd就可以进行计算，不知道这个问题是我cuda出问题了吗还是gpu没有装上？求指点

duanyu16 · 发表于 Post on 2023-3-3 16:36:56

我在使用cpu单核加GPU加速进行计算时，会出现运算后期运行内存不断增长的现象，使用cpu4核＋1gpu就不会出现这种情况；然而在使用CPU4核+2GPU时也会出现运行内存爆炸的情况，更改成cpu10核+2gpu就会改善，不知道大家遇到过没有。

kaier · 发表于 Post on 2023-6-19 15:49:47

lc123 发表于 2021-11-22 20:03
请问一下，运行时出现这种报错是怎么回事呢
ERROR: Unable to initialize accelerator for use (../gpu_ex ...

你试一下把cpu线程调少一些

cuijie · 发表于 Post on 2023-11-30 18:27:53

Graphite 发表于 2021-6-21 09:39
找不到GPU的话，一般是nvidia驱动或者cuda问题。这个问题曾经困扰过我很久，我有一台机器按照标准的方式 ...

佬，我是amd的gpu 6700xt，我也是这个问题，您知道怎么解决吗

yuzc · 发表于 Post on 2025-9-28 16:12:05

补充说明一下，正好最近在做LAMMPS-GPU效率的相关测试。
1. 感知上从2018年开始，LAMMPS与GROMACS在GPU加速这一块的差距被拉大了，GROMACS现在在做一般任务时显著快于LAMMPS。
这其中的原因主要在于目前的GROMACS能够把大多数操作放到GPU上去做，包括但不限于-pme, -pmefft, -nb, -bonded, -update。但是lammps里从bond到dihedral并没有很多函数可以放到GPU上去计算，neighborlist更新也没有明显地看到放到GPU计算的关键词（lmp -h > test.txt，检索关键字neigh 或 modify，没看到相应gpu加速关键词）。
2. 在有双精度特化的计算卡（如A100, V100, A30等）时候，请优先选择KOKKOS搭配GPU加速，这是因为有一部分成键势是KOKKOS PACKAGE支持的（如bond_style harmonic/kk, angle_style harmonic/kk），但仍然有很多不支持，如gaff对应的proper和improper二面角。
3. 在GPU PACKAGE下，单卡+多核效率需要测试。正如前面所说，一部分更新是放到CPU计算的，需要同时测MPI+OMP的数量。根据体系是不一样的，这主要在于哪些部分可以放到GPU上计算。哪些需要多核CPU。像我目前的体系竟然是这个最快：mpirun -n 4 lmp -sf gpu -pk gpu 1 opm 2 <input.in>output.out
4. 正是因为KOKKOS的一些成键势能是不支持的，所以有时KOKKOS GPU会更慢。

Graphite · 发表于 Post on 2025-9-28 21:54:30

yuzc 发表于 2025-9-28 16:12
补充说明一下，正好最近在做LAMMPS-GPU效率的相关测试。
1. 感知上从2018年开始，LAMMPS与GROMACS在GPU加 ...

好久了，难得。

确实是对bond_style、pair_style等的具体类型、体系各部分的负载非常敏感，每类体系需要分别优化。neigh相关也没有什么gpu的说法。

gromacs的设计理念现在有点是效率优先，专注当一个经典体系的载货卡车了，gromacs的集中性、一致性也更强。lammps是越来越大、也越来越散。

不过我个人还是更喜欢lammps，也还在坚持用lammps，尽管lammps的学习成本从来都不低，但掌握了道道，也有种见招拆招的乐趣。

tayzor · 发表于 Post on 2025-12-26 21:16:45

fhh2626 发表于 2020-7-31 21:52
核数越多越慢是非常正常的现象，现在MD引擎中绝大部分计算都是GPU完成，用多个CPU核心大多数时候的作用就是 ...

如何选择最快计算所需核数呢，是不是一半最好，比如100线程，我只用50线程来计算

fhh2626 · 发表于 Post on 2025-12-27 16:35:07

tayzor 发表于 2025-12-26 21:16
如何选择最快计算所需核数呢，是不是一半最好，比如100线程，我只用50线程来计算

不是，这个只能实际测试。像NAMD的平衡模拟，一般就是用单个CPU核心最快

		自动登录 Automatic login	找回密码 Forget password
密码 Password			注册 Register

[综合交流] 记一次Lammps上GPU加速的折腾

浏览过的版块