本帖最后由 是aweia 于 2022-2-23 14:17 编辑
我最近在计算freq
计算用到的输入如下:
! B3LYP 6-31G freq
%maxcore 10000
%pal
nprocs 64
end
%tddft
nroots 5
IROOT 1
end
* xyz 0 1
...
在计算Calculating on displaced geometry时并行计算出现问题
发现问题时计算已经进行了五天左右,我发现计算的速度慢了下来,于是我ssh到对应的计算节点使用top命令查看计算情况
计算共用到两个节点各32核心,
其中一个节点的top显示已经没有ORCA的任务在计算,
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
17576 root 20 0 3232784 49776 14444 S 6.2 0.0 366:40.09 containerd
33046 root 20 0 0 0 0 S 6.2 0.0 1594:08 krdma_evthd/0
104873 gc09 20 0 160936 2780 1456 R 6.2 0.0 0:00.03 top
1 root 20 0 54320 6404 2536 S 0.0 0.0 30:54.70 systemd
2 root 20 0 0 0 0 S 0.0 0.0 0:04.34 kthreadd
3 root 20 0 0 0 0 S 0.0 0.0 2:39.03 ksoftirqd/0
5 root 0 -20 0 0 0 S 0.0 0.0 0:00.00 kworker/0:0H
另一个节点只有一个orca_cis在计算
55632 gc09 20 0 1004676 427644 9868 R 100.0 0.2 18:10.51 orca_cis
68401 gc09 20 0 162680 2520 1456 R 6.2 0.0 0:00.03 top
1 root 20 0 54160 5900 2120 S 0.0 0.0 32:43.48 systemd
2 root 20 0 0 0 0 S 0.0 0.0 0:05.50 kthreadd
3 root 20 0 0 0 0 S 0.0 0.0 3:11.20 ksoftirqd/0
5 root 0 -20 0 0 0 S 0.0 0.0 0:00.09 kworker/0:0H
作为比较,我所有输入输出复制到新目录下重新提交,在计算Calculating on displaced geometry时查看计算节点的状态如下:其中共25个orca任务在进行(但是一共有32个核心)
5806 gc09 20 0 1004824 419700 1596 R 100.0 0.2 20:49.31 orca_cis
5813 gc09 20 0 1004872 419316 1704 R 100.0 0.2 20:49.44 orca_cis
9530 gc09 20 0 1004856 423004 1576 R 100.0 0.2 15:31.23 orca_cis
9605 gc09 20 0 1004856 419728 1716 R 100.0 0.2 15:17.06 orca_cis
13383 gc09 20 0 1428864 847104 1452 R 100.0 0.3 9:28.46 orca_cis
16118 gc09 20 0 1428904 847536 1772 R 100.0 0.3 5:35.91 orca_cis
16212 gc09 20 0 1428912 844056 2084 R 100.0 0.3 5:24.96 orca_cis
16282 gc09 20 0 1428940 844628 2468 R 100.0 0.3 5:06.13 orca_cis
16687 gc09 20 0 1428936 847768 2636 R 100.0 0.3 4:43.07 orca_cis
16906 gc09 20 0 1428944 847472 3196 R 100.0 0.3 3:55.54 orca_cis
17875 gc09 20 0 1428940 845164 3620 R 100.0 0.3 3:29.25 orca_cis
5818 gc09 20 0 1004844 419180 1716 R 94.1 0.2 20:46.84 orca_cis
9155 gc09 20 0 1004848 423204 1576 R 94.1 0.2 15:41.00 orca_cis
9388 gc09 20 0 1004872 422660 1596 R 94.1 0.2 15:38.90 orca_cis
12992 gc09 20 0 1428932 847220 1508 R 94.1 0.3 9:49.19 orca_cis
13016 gc09 20 0 1428916 843012 1304 R 94.1 0.3 9:46.43 orca_cis
16077 gc09 20 0 1428924 844128 1864 R 94.1 0.3 5:41.70 orca_cis
16116 gc09 20 0 1428944 847224 1680 R 94.1 0.3 5:35.83 orca_cis
16162 gc09 20 0 1428920 844212 1980 R 94.1 0.3 5:30.26 orca_cis
16170 gc09 20 0 1428912 846492 2080 R 94.1 0.3 5:29.72 orca_cis
16283 gc09 20 0 1428952 844208 2476 R 94.1 0.3 5:05.92 orca_cis
16453 gc09 20 0 1428924 847484 2528 R 94.1 0.3 4:52.64 orca_cis
16697 gc09 20 0 1428920 844700 2632 R 94.1 0.3 4:41.73 orca_cis
16817 gc09 20 0 1428916 844812 2904 R 94.1 0.3 4:15.73 orca_cis
17472 gc09 20 0 1428852 845056 3284 R 94.1 0.3 3:51.46 orca_cis
20672 zdwlgc09 20 0 162812 2780 1456 R 11.8 0.0 0:00.04 top
33373 root 20 0 0 0 0 S 5.9 0.0 2:09.18 fence_topo_relo
1 root 20 0 54048 6224 2536 S 0.0 0.0 24:31.18 systemd
我想了解一下出现这个情况的原因是什么 是否是我的作业提交方式或输入文件有问题,或者是这个服务器的问题?
我现在把所有输入输出复制到新目录下并在.inp中加入
%freq
Restart true
end
重新提交计算 这样是正确的续算方式么
|