本帖最后由 沈义义义义 于 2026-3-28 17:14 编辑
求助各位大佬,我使用14900K+rtx5090+pytorch后端,运行基于deepmd势的lammps(单精度)模拟,速度约为Intel 8358+Tesla A100(HPC机群)+Tensorflow后端运行速度的十分之一。请问,这是否与理论上5090超强的单精度算力矛盾?是不是我哪操作错了,怎么排查?
补充信息:我做了三个方面测试可以提供一些信息:① 5090机器lammps编译时使用的是GPU包,不管开启单精度还是mixed精度(附件1为单精度的CmakeCache.txt),计算速度几乎一样。 ② 测试通信速度的影响,我有两张5090分别插在PCIE5×16和PCIE4×4,分别单卡运行,总用时完全相同。③检查CPU速度的影响。分别使用14900K大核和小核来运行,速度一样。
补充体系情况:22500原子,deepmd势函数使用普通的se_a描述符,240×240×240 三层网络。(附件2)
补充Slurm输入:资源几乎完全相同: #SBATCH --ntasks-per-node=1 #SBATCH --cpus-per-task=4 #SBATCH --gres=gpu:1 另外OMP_NUM_THREADS参数对总用时无可观影响,在14900K机器上只有一个核满载其他几乎空载。在5090与A100上运行时唯一不同在于,在A100上指定了tensorflow的变量TF_INTER_OP_PARALLELISM_THREADS=2.
|