|
|
本帖最后由 Pipi_ 于 2026-6-13 14:42 编辑
在一台搭载双RTX 5090(驱动580.159.03,CUDA 12.8,PCIe拓扑为PHB/共享Host Bridge)和16核/32线程CPU的工作站上,分别在两张GPU上独立运行两个GROMACS 2026.2 mdrun任务(各自-ntmpi 1,CPU线程数分配互不重叠),单独运行时每个任务GPU利用率约55%、速度正常(约400-580 ns/day)。
但当第二个mdrun启动时,第一个任务的GPU利用率会瞬间从约55%骤降至0-6%,且两张GPU的利用率呈现交替抖动(GPU0出现非零时GPU1为0,反之亦然),计算速度从约77 M-cycles/step暴跌至11000+ M-cycles/step(约150倍退化)。停止第二个任务后,第一个任务的GPU利用率立即恢复正常。
两个任务命令如下:
export CUDA_VISIBLE_DEVICES=0
gmx mdrun -deffnm step7_production_run1 -v -ntmpi 1 -ntomp 14 -pin on -pinoffset 0
export CUDA_VISIBLE_DEVICES=1
gmx mdrun -deffnm step7_production_run1 -v -ntmpi 1 -ntomp 14 -pin on -pinoffset 18
CPU的占用似乎也没有按照设置的1-14,18-31这样来。此外,CPU的占用率正常应该是1400%,但提交了第二个任务后,CPU占用也一定程度下降,两个任务似乎在争抢CPU资源。
|
|