|
|
本帖最后由 jimulation 于 2020-7-28 19:57 编辑
我的体系约50万个原子,模拟50ns。之前在广州超算cpu结点(2692 v2)72核运行需2周,打算在gpu结点(28核gold-6132的cpu,+4块V100的gpu)进行测试,下面是任务提交的脚本内容。
#!/bin/bash
yhrun -N 1 -n 24 -p gpu_v100 gmx_mpi mdrun -s 0703.tpr -v -deffnm 0703 -ntomp 1 -gpu_id 0123 -nb gpu -bonded gpu -pme cpu
提交后,下面是输出到log文件中片段:
——————————————————
Domain decomposition grid 2 x 6 x 2, separate PME ranks 0
PME domain decomposition: 2 x 12 x 1
...
Using 24 MPI processes
Using 1 OpenMP thread per MPI process
On host gpu47 4 GPUs selected for this run.
Mapping of GPU IDs to the 24 GPU tasks in the 24 ranks on this node:
PP:0,PP:0,PP:0,PP:0,PP:0,PP:0,PP:1,PP:1,PP:1,PP:1,PP:1,PP:1,PP:2,PP:2,PP:2,PP:2,PP:2,PP:2,PP:3,PP:3,PP:3,PP:3,PP:3,PP:3
PP tasks will do (non-perturbed) short-ranged and most bonded interactions on the GPU
——————————————————
看了此帖中的介绍http://bbs.keinsci.com/thread-13861-1-1.html,有个不明白的地方,想请教大家:我设置的是24个ranks,且短程非键作用、键结作用都放在gpu上计算,而PME放在cpu上计算,从log输出来看,pme的ranks数为0,意思是不是cpu上计算的内容不计入ranks?只有gpu上的才算?
求指教,谢谢!
|
|