计算化学公社

 找回密码 Forget password
 注册 Register
Views: 13952|回复 Reply: 6
打印 Print 上一主题 Last thread 下一主题 Next thread

[并行运算] VASP计算效率问题

[复制链接 Copy URL]

132

帖子

0

威望

1025

eV
积分
1157

Level 4 (黑子)

跳转到指定楼层 Go to specific reply
楼主
最近实验室同时用上了深圳超算和天津超算。其中深圳超算的VASP是我自己编译的 天津超算的VASP是用的别人的。然后发现自己编译的VASP跟天津超算的相比速度差距特别大(肯定不是硬件造成的差距)。自己对VASP编译不怎么懂,只是能勉强编译通过,求教编译时候对makefile还有数据库什么的应该做些什么优化呢? 各种求指教!!!!
PS 深超用的为openmpi-1.4.4, intel/composer_xe_2011_sp1.7.256
PPS 我在我们自己的集群上用openmpi-1.8和 intel/composer_xe_2013.3.163,编译出来的计算速度和深超上也差不多。
附上深圳超算的Makefile 。
  ===========================================
   .SUFFIXES: .inc .f .f90 .F


SUFFIX=.f90
#-----------------------------------------------------------------------
FC=ifort
# fortran linker
FCL=$(FC)

CPP_ =  ./preprocess <$*.F | /usr/bin/cpp -P -C -traditional >$*$(SUFFIX)

#-----------------------------------------------------------------------
CPP_=fpp -f_com=no -free -w0 $*.F $*$(SUFFIX)
#         -DRPROMU_DGEMV  -DRACCMU_DGEMV


OFLAG=-O2 -ip -heap-arrays 64
OFLAG_HIGH = $(OFLAG)
OBJ_HIGH =
OBJ_NOOPT =
DEBUG  = -FR -O0
INLINE = $(OFLAG)


LIB  = -L../vasp.5.lib -ldmy \
     ../vasp.5.lib/linpack_double.o $(LAPACK) \
     $(BLAS)
# options for linking (for compiler version 6.X) nothing is required
LINK    =
#-----------------------------------------------------------------------
# since this version is faster on P4 machines, we recommend to use it
#-----------------------------------------------------------------------
FFT3D   = fft3dfurth.o fft3dlib.o


#=======================================================================
# MPI section
#
# the system we used is an SGI test system, and it is best
# to compile using ifort and adding the option -lmpi during
# linking
#=======================================================================

FC=mpif90
FCL=$(FC)
#-----------------------------------------------------------------------
# additional options for CPP in parallel version (see also above):
# NGZhalf               charge density   reduced in Z direction
# wNGZhalf              gamma point only reduced in Z direction
# scaLAPACK             use scaLAPACK (usually slower on 100 Mbit Net)
#-----------------------------------------------------------------------
CPP    = $(CPP_) -DMPI  -DHOST=\"LinuxIFCmkl\" -DIFC \
     -DCACHE_SIZE=32000 -DPGF90 -Davoidalloc -DNGZhalf \
     -DMPI_BLOCK=8000 \
##     -DRPROMU_DGEMV  -DRACCMU_DGEMV
#-----------------------------------------------------------------------
#----------------------------------------------------------------------- Makefile (13.15 KB, 下载次数 Times of downloads: 11)
#BLACS=$(HOME)/archives/SCALAPACK/BLACS/
#SCA_=$(HOME)/archives/SCALAPACK/SCALAPACK
#SCA= $(SCA_)/libscalapack.a  \
#SCA=/home-gg/compiler/intel/composer_xe_2011_sp1.7.256/mkl/lib/intel64/libmkl_scalapack_ilp64.a
SCA=
#-----------------------------------------------------------------------
# libraries for mpi
#-----------------------------------------------------------------------
LIB     = -L../vasp.5.lib -ldmy  \
      ../vasp.5.lib/linpack_double.o $(LAPACK) \
      $(SCA) $(BLAS) \
# FFT: fftmpi.o with fft3dlib of Juergen Furthmueller
#FFT3D   = fftmpi.o fftmpi_map.o fft3dfurth.o fft3dlib.o
# fftw.3.1.2 is slighly faster and should be used if available
#-----------------------------------------------------------------------
# general rules and compile lines
#-----------------------------------------------------------------------
BASIC=   symmetry.o symlib.o   lattlib.o  random.o

132

帖子

0

威望

1025

eV
积分
1157

Level 4 (黑子)

7#
 楼主 Author| 发表于 Post on 2015-9-14 09:20:09 | 只看该作者 Only view this author
root 发表于 2015-9-13 19:43
多节点并行的吗?天河二号上用他们的mpi比intel mpi或openmpi要快
两个速度相差特别大是多大?几倍?还是 ...

几倍  差不多8-9倍吧。跑一个电子步,我们要用30分钟,那边3-5分钟就跑完了。

24

帖子

0

威望

358

eV
积分
382

Level 3 能力者

6#
发表于 Post on 2015-9-13 19:43:07 | 只看该作者 Only view this author
多节点并行的吗?天河二号上用他们的mpi比intel mpi或openmpi要快
两个速度相差特别大是多大?几倍?还是几个数量级?
如果是几倍,可能是软件问题,如果是数量级,估计是没走infiniband

148

帖子

3

威望

2895

eV
积分
3103

Level 5 (御坂)

5#
发表于 Post on 2015-9-10 20:07:32 | 只看该作者 Only view this author
其实,深圳超算的硬件机器有一点小问题。节点间的通讯做得不太好,而且单个节点内存太小。

3622

帖子

3

威望

1万

eV
积分
18442

Level 6 (一方通行)

第一原理惨品小作坊

4#
发表于 Post on 2015-9-10 17:46:11 | 只看该作者 Only view this author
didi_dudu 发表于 2015-9-10 17:21
这些数学库我也指定intel的编译过,还是跟天津超算那个差距特别大,我现在怀疑是不是其他参数也有影响比 ...

这个在手册第三章有详细说明
日常打哑谜&&探寻更多可能。
原理问题不公开讨论,非商业性质讨论欢迎私聊。
本周忙

132

帖子

0

威望

1025

eV
积分
1157

Level 4 (黑子)

3#
 楼主 Author| 发表于 Post on 2015-9-10 17:21:38 | 只看该作者 Only view this author
卡开发发 发表于 2015-9-10 17:06
光指定编译器不够的,数学库也有一些影响,Lapack和Blas都要换成intel的,ScaLapack也得换成intel的,fftw ...

这些数学库我也指定intel的编译过,还是跟天津超算那个差距特别大,我现在怀疑是不是其他参数也有影响比如CPP
CPP    = $(CPP_) -DMPI  -DHOST=\"LinuxIFCmkl\" -DIFC \
      -DCACHE_SIZE=32000 -DPGF90 -Davoidalloc -DNGZhalf \
      -DMPI_BLOCK=8000 \
这些的意思我还不懂
Flag改成-O3我还没尝试算过,等会儿有节点空了之后尝试下。   
==================
谢谢!!!!!

3622

帖子

3

威望

1万

eV
积分
18442

Level 6 (一方通行)

第一原理惨品小作坊

2#
发表于 Post on 2015-9-10 17:06:11 | 只看该作者 Only view this author
光指定编译器不够的,数学库也有一些影响,Lapack和Blas都要换成intel的,ScaLapack也得换成intel的,fftw可以使用intel或fftw3。测试一下计算结果是否准确,可靠的话可以把Flag改成-O3再看看结果是否可靠。
日常打哑谜&&探寻更多可能。
原理问题不公开讨论,非商业性质讨论欢迎私聊。
本周忙

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-27 09:06 , Processed in 0.173270 second(s), 25 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list