“第10届量子化学波函数分析与Multiwfn程序培训班将于5月4-8日于北京举办,这是一次性完整、系统学习波函数分析的各种理论知识和全面掌握强大的Multiwfn波函数分析程序使用的最不可错过的机会!请点击此链接查看详情和报名方式,欢迎参加!

“第18届北京科音分子动力学与GROMACS培训班” 将于5月23-26日于北京举办。这是一次性全面、系统学习分子动力学模拟知识和最流行的分子动力学程序GROMACS的关键机会!报名正在进行中,请点击此链接查看详情,欢迎参加!

计算化学公社

 找回密码 Forget password
 注册 Register
Views: 156|回复 Reply: 0
打印 Print 上一主题 Last thread 下一主题 Next thread

[Lammps] 如何解决:rtx5090运行单精度lammps(deepmd势)远远慢于Tesla A100

[复制链接 Copy URL]

1

帖子

0

威望

29

eV
积分
30

Level 2 能力者

跳转到指定楼层 Go to specific reply
楼主
本帖最后由 沈义义义义 于 2026-3-28 17:14 编辑

求助各位大佬,我使用14900K+rtx5090+pytorch后端,运行基于deepmd势的lammps(单精度)模拟,速度约为Intel 8358+Tesla A100(HPC机群)+Tensorflow后端运行速度的十分之一。请问,这是否与理论上5090超强的单精度算力矛盾?是不是我哪操作错了,怎么排查?

补充信息:我做了三个方面测试可以提供一些信息:① 5090机器lammps编译时使用的是GPU包,不管开启单精度还是mixed精度(附件1为单精度的CmakeCache.txt),计算速度几乎一样。 ② 测试通信速度的影响,我有两张5090分别插在PCIE5×16和PCIE4×4,分别单卡运行,总用时完全相同。③检查CPU速度的影响。分别使用14900K大核和小核来运行,速度一样。

补充体系情况:22500原子,deepmd势函数使用普通的se_a描述符,240×240×240 三层网络。(附件2)

补充Slurm输入:资源几乎完全相同:
      #SBATCH --ntasks-per-node=1  
      #SBATCH --cpus-per-task=4
      #SBATCH --gres=gpu:1  
另外OMP_NUM_THREADS参数对总用时无可观影响,在14900K机器上只有一个核满载其他几乎空载。在5090与A100上运行时唯一不同在于,在A100上指定了tensorflow的变量TF_INTER_OP_PARALLELISM_THREADS=2.

1, CMakeCache.txt

70.08 KB, 下载次数 Times of downloads: 0

2, lammps.input

2 KB, 下载次数 Times of downloads: 0

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2026-4-14 10:56 , Processed in 1.720474 second(s), 23 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list