计算化学公社

标题: deepmd训练模型GPU利用率低是什么原因 [打印本页]

作者
Author: orangesea 时间: 2024-8-19 21:01
标题: deepmd训练模型GPU利用率低是什么原因
本帖最后由 orangesea 于 2024-8-24 19:39 编辑

在服务器上训练网上下载的一个算例，分别使用一张1080Ti、一张4090、两张4090训练4000步作为测试，可以正常训练，但耗时都在100秒左右。
使用一张4090占用率只有30%左右
使用两张时只有一张有30%占用率，另一张被分配了任务但是占用率很低
请问GPU利用率低是什么原因？为什么1080Ti、4090耗时差不多？
运行命令

export CUDA_VISIBLE_DEVICES=0 #这里分别设置了一张1080Ti、一张4090、两张4090作为测试
nohup dp train input.json > run.out &

复制代码

input.json和三个输出文件上传在附件中

2024.8.24更新
算例原先通过E5 2680v4@4090计算，通过AutoDl的EPYC 9654@4090计算可从原来90多秒提升到50多秒，应该是2680v4的单核性能瓶颈导致的

作者
Author: whutzty 时间: 2025-1-9 01:29
我最近也在搞这个问题，请问
我用的epyc9654＋4090的速度没有我自己笔记本4060的快，也是因为单核频率的限制么

作者
Author: whutzty 时间: 2025-1-9 01:31
补充一下我的4090gpu占用率太低了，我并没有有效的手段提高能指点一下么

欢迎光临计算化学公社 (http://bbs.keinsci.com/)