计算化学公社

标题: 结构优化的时候系统报错Primary job terminated normally, but 1 process returne... [打印本页]

作者
Author:
maoxinxina    时间: 2021-9-16 16:32
标题: 结构优化的时候系统报错Primary job terminated normally, but 1 process returne...
INCAR
System = triplet_opt
NPAR = 1
#ISTART = 1
#ISYM = 2
ENCUT = 400
EDIFF = 1E-05
EDIFFG = -0.02
LREAL = Auto
PREC = Normal
ISPIN = 2
ISMEAR = -2
NBANDS= 294
FERWE = 167*1 127*0 167*1 127*0 167*1 127*0 167*1 127*0 167*1 127*0 167*1 127*0 167*1 127*0 167*1 127*0    #The syntax is BANDS*OCC
FERDO = 168*1 1*1  125*0 168*1 1*1  125*0 168*1 1*1  125*0 168*1 1*1  125*0 168*1 1*1  125*0 168*1 1*1  125*0 168*1 1*1  125*0 168*1 1*1  125*0
AMIX = 0.4
BMIX = 1.0
NSW = 200 #sets the maximum number of ionic steps
NELM = 350 #sets the maximum number of electronic sc
ISIF = 2
ALGO = VeryFast
#LORBIT = 11
SIGMA = 0.1
IBRION = 2 #determines how the ions are updated and moved
NGX = 66
NGY = 78
NGZ = 96
#LHFCALC = .TRUE.
GGA = PE
#ISYM = 0
#LORBIT = 11
POTIM = 0.1




KPOINTS如下
Automatic
0
g
2 2 2
0 0 0
POSCAR 如下
Cs13 Cu8 I20
1.0
       10.4195785522         0.0000000000         0.0000000000
        0.0000000000        11.8394136429         0.0000000000
        0.0000000000         0.0000000000        14.5925350189
   Cs   Cu    I
   12    8   20
Direct
     0.052638002         0.512686014         0.676122010
     0.947362006         0.487313986         0.323877990
     0.447362006         0.487313986         0.176122010
     0.552637994         0.512686014         0.823877990
     0.947362006         0.012686014         0.323877990
     0.052638002         0.987313986         0.676122010
     0.552637994         0.987313986         0.823877990
     0.447362006         0.012686014         0.176122010
     0.093374997         0.250000000         0.951583028
     0.906625032         0.750000000         0.048416972
     0.406625003         0.750000000         0.451583028
     0.593374968         0.250000000         0.548416972
     0.213189006         0.250000000         0.544184983
     0.786810994         0.750000000         0.455815017
     0.286810994         0.750000000         0.044184983
     0.713189006         0.250000000         0.955815017
     0.240715995         0.250000000         0.373304993
     0.759284019         0.750000000         0.626695037
     0.259284019         0.750000000         0.873304963
     0.740715981         0.250000000         0.126695007
     0.191899002         0.562583029         0.949335992
     0.808100998         0.437416971         0.050664008
     0.308100998         0.437416971         0.449335992
     0.691899002         0.562583029         0.550664008
     0.808100998         0.062583029         0.050664008
     0.191899002         0.937416971         0.949335992
     0.691899002         0.937416971         0.550664008

     0.308100998         0.062583029         0.449335992
     0.032800999         0.750000000         0.486961991
     0.967199028         0.250000000         0.513038039
     0.467198998         0.250000000         0.986961961
     0.532800972         0.750000000         0.013038009
     0.161059007         0.250000000         0.209536001
     0.838940978         0.750000000         0.790463984
     0.338940978         0.750000000         0.709536016
     0.661059022         0.250000000         0.290463984
     0.203353003         0.750000000         0.210690007
     0.796647012         0.250000000         0.789309978
     0.296647012         0.250000000         0.710690022
     0.703352988         0.750000000         0.289309978
在VASP优化晶体激发态结构的时候出现了下面的问题,就是当K点为1x1x1(的时候,会进行的很顺利。当K点为2x2x2(NPAR=1)的时候,如果是串行的话就会报错,Primary job  terminated normally, but 1 process returned
a non-zero exit code.. Per user-direction, the job has been aborted.
-------------------------------------------------------
--------------------------------------------------------------------------
mpirun detected that one or more processes exited with non-zero status, thus causing
the job to be terminated. The first process to do so was:

  Process name: [[13069,1],11]
  Exit code:    174
.如果是NPAR=比较大的数值,就会一直卡在最后一步。

作者
Author:
waitingseven    时间: 2021-9-16 20:20
试试 ulimit -s unlimited
作者
Author:
maoxinxina    时间: 2021-9-16 20:30
waitingseven 发表于 2021-9-16 20:20
试试 ulimit -s unlimited

提交脚本里面有这一项。
作者
Author:
maoxinxina    时间: 2021-9-16 20:31
提交脚本如下:
#!/bin/bash
#SBATCH --nodes=1
#SBATCH --ntasks=28
#SBATCH --partition=n28
#SBATCH --error=%J.stderr
#SBATCH --output=%J.stdout

source /apps/compiler/intel/2015u3/parallel_studio_xe_2015/psxevars.sh 1>/dev/null
export PATH=/apps/mpi/openmpi/1.8.8/intel2015u3/bin:$PATH
export LD_LIBRARY_PATH=/apps/mpi/openmpi/1.8.8/intel2015u3/lib:$LD_LIBRARY_PATH

echo "--------------------------------------------------------"
echo "  JOBID: $SLURM_JOB_ID"
echo "  The job was started at `date`"
echo "  The job was running at $SLURM_JOB_NODELIST "

# Assign the number of processors
NPROCS=$SLURM_NTASKS

TMPDIR=/scr/tmp/$USER/$SLURM_JOB_ID
mkdir -p $TMPDIR
WORKDIR=$PWD
\cp -rf $WORKDIR/* $TMPDIR
cd $TMPDIR

# Run vasp Job
ulimit -s unlimited
VASP_HOME=/apps/chem/vasp/5.4.1/intel2015u3_ompi1.8.8
mpirun -n $NPROCS $VASP_HOME/vasp_std 2>&1 > vasp.out

作者
Author:
waitingseven    时间: 2021-9-16 22:05
maoxinxina 发表于 2021-9-16 20:31
提交脚本如下:
#!/bin/bash
#SBATCH --nodes=1

有观察过vasp运行过程中内存的使用情况吗,程序卡住或终止很有可能是内存不够用引起的
作者
Author:
waitingseven    时间: 2021-9-16 22:12
maoxinxina 发表于 2021-9-16 20:31
提交脚本如下:
#!/bin/bash
#SBATCH --nodes=1

如果内存不足,可能是计算量太大引起的,只能降低计算精度,或者减少使用核数也能相应降低内存使用量但耗时更长
作者
Author:
maoxinxina    时间: 2021-9-18 09:05
waitingseven 发表于 2021-9-16 22:12
如果内存不足,可能是计算量太大引起的,只能降低计算精度,或者减少使用核数也能相应降低内存使用量但耗 ...

把核数降下来到那一步还是会卡住,不知道怎么办。
作者
Author:
yysha    时间: 2022-11-17 14:36
您好,请问你后来是怎么解决这个问题的?
作者
Author:
maoxinxina    时间: 2023-2-20 16:47
yysha 发表于 2022-11-17 14:36
您好,请问你后来是怎么解决这个问题的?

降低K點
作者
Author:
WVzzz    时间: 2023-2-20 21:24
我反正是NCORE=1 和NCORE="TOTAL CORE",内存都会崩掉,设了NCORE=8又快内存又小




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3