计算化学公社
标题: 如何解决:rtx5090运行单精度lammps(deepmd势)远远慢于Tesla A100 [打印本页]
作者Author: 沈义义义义 时间: 2026-3-28 17:12
标题: 如何解决:rtx5090运行单精度lammps(deepmd势)远远慢于Tesla A100
本帖最后由 沈义义义义 于 2026-3-28 17:14 编辑
求助各位大佬,我使用14900K+rtx5090+pytorch后端,运行基于deepmd势的lammps(单精度)模拟,速度约为Intel 8358+Tesla A100(HPC机群)+Tensorflow后端运行速度的十分之一。请问,这是否与理论上5090超强的单精度算力矛盾?是不是我哪操作错了,怎么排查?
补充信息:我做了三个方面测试可以提供一些信息:① 5090机器lammps编译时使用的是GPU包,不管开启单精度还是mixed精度(附件1为单精度的CmakeCache.txt),计算速度几乎一样。 ② 测试通信速度的影响,我有两张5090分别插在PCIE5×16和PCIE4×4,分别单卡运行,总用时完全相同。③检查CPU速度的影响。分别使用14900K大核和小核来运行,速度一样。
补充体系情况:22500原子,deepmd势函数使用普通的se_a描述符,240×240×240 三层网络。(附件2)
补充Slurm输入:资源几乎完全相同:
#SBATCH --ntasks-per-node=1
#SBATCH --cpus-per-task=4
#SBATCH --gres=gpu:1
另外OMP_NUM_THREADS参数对总用时无可观影响,在14900K机器上只有一个核满载其他几乎空载。在5090与A100上运行时唯一不同在于,在A100上指定了tensorflow的变量TF_INTER_OP_PARALLELISM_THREADS=2.
| 欢迎光临 计算化学公社 (http://bbs.keinsci.com/) |
Powered by Discuz! X3.3 |