如何解决：rtx5090运行单精度lammps（deepmd势）远远慢于Tesla A100

沈义义义义 · 发表于 Post on 2026-3-28 17:12:43

本帖最后由沈义义义义于 2026-3-28 17:14 编辑

求助各位大佬，我使用14900K+rtx5090+pytorch后端，运行基于deepmd势的lammps（单精度）模拟，速度约为Intel 8358+Tesla A100（HPC机群）+Tensorflow后端运行速度的十分之一。请问，这是否与理论上5090超强的单精度算力矛盾？是不是我哪操作错了，怎么排查？

补充信息：我做了三个方面测试可以提供一些信息：① 5090机器lammps编译时使用的是GPU包，不管开启单精度还是mixed精度（附件1为单精度的CmakeCache.txt），计算速度几乎一样。 ② 测试通信速度的影响，我有两张5090分别插在PCIE5×16和PCIE4×4，分别单卡运行，总用时完全相同。③检查CPU速度的影响。分别使用14900K大核和小核来运行，速度一样。

补充体系情况：22500原子，deepmd势函数使用普通的se_a描述符，240×240×240 三层网络。（附件2）

补充Slurm输入：资源几乎完全相同：

#SBATCH --ntasks-per-node=1

#SBATCH --cpus-per-task=4

#SBATCH --gres=gpu:1

另外OMP_NUM_THREADS参数对总用时无可观影响，在14900K机器上只有一个核满载其他几乎空载。在5090与A100上运行时唯一不同在于，在A100上指定了tensorflow的变量TF_INTER_OP_PARALLELISM_THREADS=2.

		自动登录 Automatic login	找回密码 Forget password
密码 Password			注册 Register

[Lammps] 如何解决：rtx5090运行单精度lammps（deepmd势）远远慢于Tesla A100

浏览过的版块