计算化学公社

标题: 求助,服务器计算时并行效率很低(问题解决,GCC 4.4.7的问题) [打印本页]

作者
Author:
缠绕指    时间: 2017-1-13 21:00
标题: 求助,服务器计算时并行效率很低(问题解决,GCC 4.4.7的问题)
本帖最后由 缠绕指 于 2017-1-17 19:30 编辑

=========================================================
最新更新,目前发现凡是体系有大量需要用到赝势的原子,比如Au、Ag时,计算就非常非常慢(双路服务器四核并行比普通PC机用时长一倍以上,20核并行和普通PC机四核并行用时差不多),而把Au、Cu换成类似结构的Cu时计算时间就比较正常(双路服务器四核并行速度比普通PC机略快,20核并行比4核并行要快3倍以上)。
基组用def2系列基组还是LANL系列基组都有这个问题。
=========================================================

服务器情况:CentOS V6.6 64bit,OpenMPI 1.6.5,ORCA 3.03双路E5-2670 V2,20c40t,80G内存,单块SAS 15K 300G硬盘。

测试的配置文件如下,在这个服务器上,单线程计算用时33分钟,4线程并行用时26分钟,20线程并行用时10分钟。
而同样的测试文件跑在一台I5-2400,8G内存的普通PC机上,单线程同样用时30多分钟,4线程并行只用时12分钟。
就是说这台双路服务器的多线程并行效率很低。
双路服务器和普通PC机都是采用同一张安装光盘全新安装系统后,采用同样步骤安装OpenMPI和ORCA,没有做其他任何改动。
双路服务区之前用于计算其他任务时,速度和其他同型号服务器基本相同,检测也排除了这台机器CPU过热降频、内存出错等硬件方面的故障。
看到之前有测试ORCA并行效率的帖子 http://bbs.keinsci.com/forum.php ... 3673&highlight=orca
按照这个帖子用20核并行计算了含一个Os若干NCOH的60原子分子(B3LYP泛函 def2-svp Os使用MWB60 SDD赝势) 关闭了密度拟合 使用默认的格点精度和SCF收敛限制
计算经过13次SCF收敛,用时2分钟,比较原帖成绩来看,用时也比较正常。(是不是可以排除我编译OpenMPI的编译器和ORCA本身有问题?)

现在就是算Au团簇的用时非常非常慢。如果是这个体系本身计算就很慢的话,那为什么4核I5的普通PC机求一次单点能也只要12分钟,而一个双路E5-2670 V2,理论性能应该在PC机的4.5左右的性能,但是计算效率提升非常不明显?台式机是7200转WD的蓝盘,服务器是15K SAS盘,性能也绝对不会比普通蓝盘差,硬盘也测试过读写性能正常,在计算过程中,硬盘的IO量也很小,应该不是硬盘短板。
我还试过一台双路E5-2650 16c32t的服务器,还有双路E5-2680 V4 28c关超线程的集群节点测试,单核用时在25~40分钟浮动,按物理核心数量并行用时也全部超过10分钟,就是说也出现同样的并行效率低的问题。所有服务器都是同一张系统盘,全部是我一个人安装的。有问题的双路服务器计算输出文件请见附件,分别是单核、4核和20核的测试结果。

那么现在导致双路服务器并行效率低可能的原因是什么,应该从哪个角度排查?
  1. !BLYP D3BJ ECP{def2-SVP,def2-SVP/J} nopop
  2. %maxcore 2048
  3. *xyz 0 2  
  4. Au    2.039150000   13.119922116    7.497098352
  5. Au    2.039150000   14.726443191   11.245647528
  6. Au    2.039150000   10.977894015   12.852168603
  7. Au    2.039150000   12.048908065   10.174633478
  8. Au    4.078300000   14.994196704    6.693837814
  9. Au    4.078300000   11.245647528    8.300358890
  10. Au    4.078300000   12.852168603   12.048908065
  11. Au    6.117450000   13.119922116    7.497098352
  12. Au    6.117450000   14.726443191   11.245647528
  13. Au    6.117450000   10.977894015   12.852168603
  14. Au    6.117450000   12.048908065   10.174633478
  15. Au    4.078300000   13.923182653    9.371372940
  16. Au    4.078300000   10.174633478   10.977894015
  17. Au    8.156600000   14.994196704    6.693837814
  18. Au    8.156600000   11.245647528    8.300358890
  19. Au    8.156600000   12.852168603   12.048908065
  20. Au   10.195750000   13.119922116    7.497098352
  21. Au   10.195750000   14.726443191   11.245647528
  22. Au   10.195750000   10.977894015   12.852168603
  23. Au   10.195750000   12.048908065   10.174633478
  24. Au    8.156600000   13.923182653    9.371372940
  25. Au    8.156600000   10.174633478   10.977894015
  26. Au    2.039150000   15.797457241    8.568112402
  27. Au    2.039150000   17.403978317   12.316661578
  28. Au    2.039150000   18.474992367    9.639126452
  29. Au    4.078300000   17.671731829    7.764851864
  30. Au    4.078300000   19.278252905   11.513401040
  31. Au    4.078300000   15.529703729   13.119922116
  32. Au    6.117450000   15.797457241    8.568112402
  33. Au    6.117450000   17.403978317   12.316661578
  34. Au    6.117450000   18.474992367    9.639126452
  35. Au    4.078300000   16.600717779   10.442386990
  36. Au    8.156600000   17.671731829    7.764851864
  37. Au    8.156600000   19.278252905   11.513401040
  38. Au    8.156600000   15.529703729   13.119922116
  39. Au   10.195750000   15.797457241    8.568112402
  40. Au   10.195750000   17.403978317   12.316661578
  41. Au   10.195750000   18.474992367    9.639126452
  42. Au    8.156600000   16.600717779   10.442386990
  43. *
复制代码





作者
Author:
liyuanhe211    时间: 2017-1-14 06:46
噫→_→容易想到的都已经排除过了,只说几个可能性很小的原因,仅供参考

你说用那个ORCA并行效率的帖子测了20Core没有大问题,有些测试样例特殊造成问题的感觉。可以用他的例子测一下完整的并行效率进行比较。我对这么多个Au到底需要多少资源没有感觉。

考虑看看有没有用Swap,遇到过有人做计算写了很多Swap,可以关掉Swap试试。
以及试试关闭turbo再测试一次,防止不同核数运行时Turbo频率不同的问题影响测试。

就能想到这些了

作者
Author:
ggdh    时间: 2017-1-14 08:26
E5-2670V2 基础频率2.5,单核睿频3.3,
I5-2400 基础频率3.1,单核睿频3.4,
单核睿频2400高一点,所以2400快一点也属正常。
问题是你目前不知道4核睿频分别是多少?
不过就我之前测试结果看。orca的并行效率比gaussian略低。
作者
Author:
缠绕指    时间: 2017-1-14 11:45
本帖最后由 缠绕指 于 2017-1-14 22:54 编辑
ggdh 发表于 2017-1-14 08:26
E5-2670V2 基础频率2.5,单核睿频3.3,
I5-2400 基础频率3.1,单核睿频3.4,
单核睿频2400高一点,所以24 ...
最新更新,目前发现凡是体系有大量需要用到赝势的原子,比如Au、Ag时,计算就非常非常慢(双路服务器四核并行比普通PC机用时长一倍以上,20核并行和普通PC机四核并行用时差不多),而把Au、Cu换成类似结构的Cu时计算时间就比较正常(双路服务器四核并行速度比普通PC机略快,20核并行比4核并行要快3倍以上)。
基组用def2系列基组还是LANL系列基组都有这个问题。
=========================================================

刚才看了一眼,这台PC机的CPU是I5-2300,应该是我发帖的时候记错了,不好意思。
四核I5的,关睿频2.8G,1/2/3/4核睿频是3.1G 3.0G 3.0G 2.9G,我计算时四核稳定睿频2.9G。
Socket [0] - [physical cores=4, logical cores=4, max online cores ever=4]
  TURBO ENABLED on 4 Cores, Hyper Threading OFF
  Max Frequency without considering Turbo 2909.32 MHz (100.32 x [29])
  Max TURBO Multiplier (if Enabled) with 1/2/3/4 Cores is  31x/30x/30x/29x
  Real Current Frequency 2909.32 MHz [100.32 x 29.00] (Max of below)
        Core [core-id]  :Actual Freq (Mult.)      C0%   Halt(C1)%  C3 %   C6 %   C7 %  Temp
        Core 1 [0]:       2909.32 (29.00x)       100       0       0       0       0    71
        Core 2 [1]:       2909.32 (29.00x)       100       0       0       0       0    71
        Core 3 [2]:       2909.32 (29.00x)       100       0       0       0       0    70
        Core 4 [3]:       2909.32 (29.00x)       100       0       0       0       0    70


双路测试的那个服务器关睿频2.6G,开睿频1/2/3/4/5+睿频频率3.3G 3.2G 3.1G 3.0G 2.9G,我计算时20核稳定睿频2.9G。
Socket [0] - [physical cores=10, logical cores=20, max online cores ever=10]
  CPU Multiplier 25x || Bus clock frequency (BCLK) 99.92 MHz
  TURBO ENABLED on 10 Cores, Hyper Threading ON
  Max Frequency without considering Turbo 2597.92 MHz (99.92 x [26])
  Max TURBO Multiplier (if Enabled) with 1/2/3/4/5/6 cores is  33x/32x/31x/30x/29x/29x
  Real Current Frequency 2898.89 MHz (Max of below)
        Core [core-id]  :Actual Freq (Mult.)      C0%   Halt(C1)%  C3 %   C6 %  Temp
        Core 1 [0]:       2898.89 (29.01x)       100       0       0       0    59
        Core 2 [2]:       2898.84 (29.01x)       100       0       0       0    58
        Core 3 [4]:       2898.84 (29.01x)       100       0       0       0    61
        Core 4 [6]:       2898.84 (29.01x)       100       0       0       0    58
        Core 5 [8]:       2898.84 (29.01x)       100       0       0       0    54
        Core 6 [10]:      2898.84 (29.01x)       100       0       0       0    54
        Core 7 [12]:      2898.84 (29.01x)       100       0       0       0    56
        Core 8 [14]:      2898.84 (29.01x)       100       0       0       0    58
        Core 9 [16]:      2898.84 (29.01x)       100       0       0       0    58
        Core 10 [18]:     2898.84 (29.01x)       100       0       0       0    55
  Max Frequency without considering Turbo 2597.92 MHz (99.92 x [26])
  Max TURBO Multiplier (if Enabled) with 1/2/3/4/5/6 cores is  33x/32x/31x/30x/29x/29x
  Real Current Frequency 2898.96 MHz (Max of below)
        Core [core-id]  :Actual Freq (Mult.)      C0%   Halt(C1)%  C3 %   C6 %  Temp
        Core 1 [1]:       2898.96 (29.01x)       100       0       0       0    63
        Core 2 [3]:       2898.87 (29.01x)       100       0       0       0    63
        Core 3 [5]:       2898.87 (29.01x)       100       0       0       0    63
        Core 4 [7]:       2898.88 (29.01x)       100       0       0       0    64
        Core 5 [9]:       2898.87 (29.01x)       100       0       0       0    62
        Core 6 [11]:      2898.84 (29.01x)       100       0       0       0    60
        Core 7 [13]:      2898.84 (29.01x)       100       0       0       0    63
        Core 8 [15]:      2898.84 (29.01x)       100       0       0       0    62
        Core 9 [17]:      2898.84 (29.01x)       100       0       0       0    63
        Core 10 [19]:     2898.84 (29.01x)       100       0       0       0    61

这几个CPU开、关睿频对性能差距也就最多15%的影响。
而现在的问题是20核并行和PC机4核并行速度差不多,服务器4核并行的速度不到PC机的1/2。=======================================================================
测试了一个160左右原子的纳米碳管片段,末端用H饱和。
PC机4核用时25分钟,服务器4核用时19分钟,8核用时12分钟,16核、20核用时8分钟,并行效率也在可以接受的范围。
现在似乎是算Au Cluster还是有问题。我现在再试试其他Au Cluster的构型,或者换元素再试试。
  1. !PBE D3BJ def2-SVP def2-SVP/J nopop
  2. %pal nprocs 4 end
  3. %maxcore 2048
  4. *xyz 0 1
  5. C     1.008130e+01  3.742315e+00  3.522550e+00
  6. C     7.220228e+00  7.472283e+00  3.522550e+00
  7. C     6.033244e+00 -1.516942e+00  3.522858e+00
  8. C     1.702911e+00  2.756597e-01  3.522858e+00
  9. C     9.750849e+00  1.336934e+00  3.522858e+00
  10. C     9.138122e+00  5.983413e+00  3.522858e+00
  11. C     2.559443e+00  6.859505e+00  3.522550e+00
  12. C     1.090184e+00  4.922139e+00  3.522858e+00
  13. C     3.620806e+00 -1.213210e+00  3.522550e+00
  14. C     8.281591e+00 -6.004324e-01  3.522550e+00
  15. C     4.807789e+00  7.776015e+00  3.522858e+00
  16. C     7.597319e-01  2.516758e+00  3.522550e+00
  17. C     9.138122e+00  5.983413e+00  7.061033e-01
  18. C     7.597319e-01  2.516758e+00  7.064119e-01
  19. C     4.807789e+00  7.776015e+00  7.061033e-01
  20. C     1.702911e+00  2.756597e-01  7.061035e-01
  21. C     1.008130e+01  3.742315e+00  7.064117e-01
  22. C     3.620806e+00 -1.213210e+00  7.064119e-01
  23. C     2.559443e+00  6.859505e+00  7.064118e-01
  24. C     6.033244e+00 -1.516942e+00  7.061034e-01
  25. C     7.220228e+00  7.472283e+00  7.064117e-01
  26. C     8.281591e+00 -6.004324e-01  7.064118e-01
  27. C     1.090184e+00  4.922139e+00  7.061034e-01
  28. C     9.750849e+00  1.336934e+00  7.061033e-01
  29. C     3.620807e+00  7.472284e+00  1.408069e+00
  30. C     7.597321e-01  3.742316e+00  1.408069e+00
  31. C     4.807788e+00 -1.516942e+00  1.408378e+00
  32. C     6.033245e+00  7.776015e+00  1.408377e+00
  33. C     9.750850e+00  4.922138e+00  1.408377e+00
  34. C     7.220227e+00 -1.213211e+00  1.408069e+00
  35. C     1.090184e+00  1.336935e+00  1.408378e+00
  36. C     1.702912e+00  5.983414e+00  1.408378e+00
  37. C     9.138122e+00  2.756587e-01  1.408377e+00
  38. C     8.281591e+00  6.859505e+00  1.408069e+00
  39. C     2.559442e+00 -6.004316e-01  1.408069e+00
  40. C     1.008130e+01  2.516757e+00  1.408069e+00
  41. C     1.090184e+00  1.336935e+00  2.820584e+00
  42. C     8.281591e+00  6.859505e+00  2.820893e+00
  43. C     9.750850e+00  4.922138e+00  2.820584e+00
  44. C     7.220227e+00 -1.213211e+00  2.820893e+00
  45. C     7.597321e-01  3.742316e+00  2.820893e+00
  46. C     2.559442e+00 -6.004316e-01  2.820893e+00
  47. C     6.033245e+00  7.776015e+00  2.820584e+00
  48. C     9.138122e+00  2.756587e-01  2.820584e+00
  49. C     1.702912e+00  5.983414e+00  2.820584e+00
  50. C     3.620807e+00  7.472284e+00  2.820893e+00
  51. C     4.807788e+00 -1.516942e+00  2.820584e+00
  52. C     1.008130e+01  2.516757e+00  2.820893e+00
  53. H     9.324583e+00  6.139406e+00 -4.076734e-01
  54. H     5.005735e-01  2.466538e+00 -4.026033e-01
  55. H     4.789099e+00  8.018410e+00 -4.076720e-01
  56. H     1.516450e+00  1.196668e-01 -4.076732e-01
  57. H     1.034435e+01  3.764185e+00 -4.026079e-01
  58. H     3.508219e+00 -1.451956e+00 -4.026078e-01
  59. H     2.386372e+00  7.058833e+00 -4.026034e-01
  60. H     6.075107e+00 -1.756419e+00 -4.076732e-01
  61. H     7.306315e+00  7.721831e+00 -4.026035e-01
  62. H     8.432057e+00 -8.173082e-01 -4.026079e-01
  63. H     8.709193e-01  5.027150e+00 -4.076719e-01
  64. H     9.979174e+00  1.253450e+00 -4.076733e-01
  65. C     1.008130e+01  3.742315e+00  7.751512e+00
  66. C     7.220228e+00  7.472283e+00  7.751512e+00
  67. C     6.033244e+00 -1.516942e+00  7.751820e+00
  68. C     1.702911e+00  2.756597e-01  7.751820e+00
  69. C     9.750849e+00  1.336934e+00  7.751820e+00
  70. C     9.138122e+00  5.983413e+00  7.751820e+00
  71. C     2.559443e+00  6.859505e+00  7.751512e+00
  72. C     1.090184e+00  4.922139e+00  7.751820e+00
  73. C     3.620806e+00 -1.213210e+00  7.751512e+00
  74. C     8.281591e+00 -6.004324e-01  7.751512e+00
  75. C     4.807789e+00  7.776015e+00  7.751820e+00
  76. C     7.597319e-01  2.516758e+00  7.751512e+00
  77. C     9.138122e+00  5.983413e+00  4.935065e+00
  78. C     7.597319e-01  2.516758e+00  4.935374e+00
  79. C     4.807789e+00  7.776015e+00  4.935065e+00
  80. C     1.702911e+00  2.756597e-01  4.935065e+00
  81. C     1.008130e+01  3.742315e+00  4.935373e+00
  82. C     3.620806e+00 -1.213210e+00  4.935374e+00
  83. C     2.559443e+00  6.859505e+00  4.935374e+00
  84. C     6.033244e+00 -1.516942e+00  4.935065e+00
  85. C     7.220228e+00  7.472283e+00  4.935373e+00
  86. C     8.281591e+00 -6.004324e-01  4.935374e+00
  87. C     1.090184e+00  4.922139e+00  4.935065e+00
  88. C     9.750849e+00  1.336934e+00  4.935065e+00
  89. C     3.620807e+00  7.472284e+00  5.637031e+00
  90. C     7.597321e-01  3.742316e+00  5.637031e+00
  91. C     4.807788e+00 -1.516942e+00  5.637339e+00
  92. C     6.033245e+00  7.776015e+00  5.637339e+00
  93. C     9.750850e+00  4.922138e+00  5.637339e+00
  94. C     7.220227e+00 -1.213211e+00  5.637031e+00
  95. C     1.090184e+00  1.336935e+00  5.637339e+00
  96. C     1.702912e+00  5.983414e+00  5.637339e+00
  97. C     9.138122e+00  2.756587e-01  5.637339e+00
  98. C     8.281591e+00  6.859505e+00  5.637031e+00
  99. C     2.559442e+00 -6.004316e-01  5.637031e+00
  100. C     1.008130e+01  2.516757e+00  5.637031e+00
  101. C     1.090184e+00  1.336935e+00  7.049546e+00
  102. C     8.281591e+00  6.859505e+00  7.049854e+00
  103. C     9.750850e+00  4.922138e+00  7.049546e+00
  104. C     7.220227e+00 -1.213211e+00  7.049854e+00
  105. C     7.597321e-01  3.742316e+00  7.049855e+00
  106. C     2.559442e+00 -6.004316e-01  7.049855e+00
  107. C     6.033245e+00  7.776015e+00  7.049546e+00
  108. C     9.138122e+00  2.756587e-01  7.049546e+00
  109. C     1.702912e+00  5.983414e+00  7.049546e+00
  110. C     3.620807e+00  7.472284e+00  7.049854e+00
  111. C     4.807788e+00 -1.516942e+00  7.049546e+00
  112. C     1.008130e+01  2.516757e+00  7.049854e+00
  113. C     1.008130e+01  3.742315e+00  1.198047e+01
  114. C     7.220228e+00  7.472283e+00  1.198047e+01
  115. C     6.033244e+00 -1.516942e+00  1.198078e+01
  116. C     1.702911e+00  2.756597e-01  1.198078e+01
  117. C     9.750849e+00  1.336934e+00  1.198078e+01
  118. C     9.138122e+00  5.983413e+00  1.198078e+01
  119. C     2.559443e+00  6.859505e+00  1.198047e+01
  120. C     1.090184e+00  4.922139e+00  1.198078e+01
  121. C     3.620806e+00 -1.213210e+00  1.198047e+01
  122. C     8.281591e+00 -6.004324e-01  1.198047e+01
  123. C     4.807789e+00  7.776015e+00  1.198078e+01
  124. C     7.597319e-01  2.516758e+00  1.198047e+01
  125. C     9.138122e+00  5.983413e+00  9.164027e+00
  126. C     7.597319e-01  2.516758e+00  9.164335e+00
  127. C     4.807789e+00  7.776015e+00  9.164027e+00
  128. C     1.702911e+00  2.756597e-01  9.164027e+00
  129. C     1.008130e+01  3.742315e+00  9.164335e+00
  130. C     3.620806e+00 -1.213210e+00  9.164335e+00
  131. C     2.559443e+00  6.859505e+00  9.164335e+00
  132. C     6.033244e+00 -1.516942e+00  9.164027e+00
  133. C     7.220228e+00  7.472283e+00  9.164335e+00
  134. C     8.281591e+00 -6.004324e-01  9.164335e+00
  135. C     1.090184e+00  4.922139e+00  9.164027e+00
  136. C     9.750849e+00  1.336934e+00  9.164027e+00
  137. C     3.620807e+00  7.472284e+00  9.865993e+00
  138. C     7.597321e-01  3.742316e+00  9.865993e+00
  139. C     4.807788e+00 -1.516942e+00  9.866301e+00
  140. C     6.033245e+00  7.776015e+00  9.866301e+00
  141. C     9.750850e+00  4.922138e+00  9.866301e+00
  142. C     7.220227e+00 -1.213211e+00  9.865993e+00
  143. C     1.090184e+00  1.336935e+00  9.866301e+00
  144. C     1.702912e+00  5.983414e+00  9.866301e+00
  145. C     9.138122e+00  2.756587e-01  9.866301e+00
  146. C     8.281591e+00  6.859505e+00  9.865993e+00
  147. C     2.559442e+00 -6.004316e-01  9.865993e+00
  148. C     1.008130e+01  2.516757e+00  9.865993e+00
  149. C     1.090184e+00  1.336935e+00  1.127851e+01
  150. C     8.281591e+00  6.859505e+00  1.127882e+01
  151. C     9.750850e+00  4.922138e+00  1.127851e+01
  152. C     7.220227e+00 -1.213211e+00  1.127882e+01
  153. C     7.597321e-01  3.742316e+00  1.127882e+01
  154. C     2.559442e+00 -6.004316e-01  1.127882e+01
  155. C     6.033245e+00  7.776015e+00  1.127851e+01
  156. C     9.138122e+00  2.756587e-01  1.127851e+01
  157. C     1.702912e+00  5.983414e+00  1.127851e+01
  158. C     3.620807e+00  7.472284e+00  1.127882e+01
  159. C     4.807788e+00 -1.516942e+00  1.127851e+01
  160. C     1.008130e+01  2.516757e+00  1.127882e+01
  161. H     1.034046e+01  3.792535e+00  1.308949e+01
  162. H     7.332814e+00  7.711029e+00  1.308949e+01
  163. H     6.075107e+00 -1.756419e+00  1.309456e+01
  164. H     1.502337e+00  1.382764e-01  1.309456e+01
  165. H     9.970114e+00  1.231923e+00  1.309456e+01
  166. H     9.324583e+00  6.139406e+00  1.309456e+01
  167. H     2.386372e+00  7.058833e+00  1.308949e+01
  168. H     8.618598e-01  5.005622e+00  1.309456e+01
  169. H     3.508219e+00 -1.451956e+00  1.308949e+01
  170. H     8.432058e+00 -8.173082e-01  1.308949e+01
  171. H     4.789099e+00  8.018410e+00  1.309456e+01
  172. H     5.005735e-01  2.466538e+00  1.308949e+01
  173. *
复制代码




作者
Author:
ggdh    时间: 2017-1-14 22:59
拿你的Au系统测了一下结果如下:
88 X Intel(R) Xeon(R) CPU E5-2699 v4 @ 2.20GHz detected
system: 741 primitive gaussian shells,  2223 primitive gaussian functions
Number of cores     execution time      number of SCF cycles
4                   519.541512          24
20                  274.588456          24
40                  274.591471          24
这里时间单位是秒
可以看到4线程大概是8.6分钟
20线程大概是4.6分钟。
40线程不再增快(应该是体系不够大导致,orca运行速度在40核还达不到最大)
其它条件:
openmpi1.65,使用intel2015编译。硬盘是三星950pro M2固态硬盘 16G*4 内存。
作者
Author:
缠绕指    时间: 2017-1-14 22:59
本帖最后由 缠绕指 于 2017-1-14 23:11 编辑
liyuanhe211 发表于 2017-1-14 06:46
噫→_→容易想到的都已经排除过了,只说几个可能性很小的原因,仅供参考

你说用那个ORCA并行效率的帖子 ...

换了不同体系测试了,
测试了一个160左右原子的纳米碳管片段,末端用H饱和。
PC机4核用时25分钟,服务器4核用时19分钟,8核用时12分钟,16核、20核用时8分钟,并行效率也在可以接受的范围。
也试了含有其他元素的基组,似乎是大量含有Rb以后的元素的体系计算都会非常慢,前四周期体系一切正常。
是不是因为用到赝势的问题?def2和LANL系列基组试过了都不行,PBE、BLYP泛函都会出现这个问题,B3LYP根本算不动。
SWAP已经关闭。
睿频问题上面也说了,睿频检测正常,而且睿频15%不到的频率变化不会引起这种不同机器四线程并行时100%以上的效率差距。
我明天换RHEL,换个编译器再试试吧。



作者
Author:
缠绕指    时间: 2017-1-14 23:05
本帖最后由 缠绕指 于 2017-1-14 23:11 编辑
ggdh 发表于 2017-1-14 22:59
拿你的Au系统测了一下结果如下:
88 X Intel(R) Xeon(R) CPU E5-2699 v4 @ 2.20GHz detected
system: 741 ...

谢谢!你这个四线程运行时间是没问题的,说明我这个体系是可以在双路E5上正常算的。我这双路E5-2670 V2 四线程是26分钟,E5-2680V4的节点,四线程跑也同样用时20多分钟(集群上的节点,没法占用太多时间做系统测试),确实用时不太对。磁盘性能也不至于导致这么大的差距,因为计算过程中目测磁盘IO非常低。20核并行速度不重要,可能确实是体系太小,并行不起来。

现在唯一的盲点就是我的系统和编译器了。

或许真的是我编译器的问题?我明天换个系统和编译器试试。

能否提供一下你用的编译器的下载地址?intel2015这个描述我不太清楚到底是什么编译器。



作者
Author:
ggdh    时间: 2017-1-14 23:53
本帖最后由 ggdh 于 2017-1-14 23:57 编辑
缠绕指 发表于 2017-1-14 23:05
谢谢!你这个四线程运行时间是没问题的,说明我这个体系是可以在双路E5上正常算的。我这双路E5-2670 V2  ...

intel 15的下载见:http://bbs.keinsci.com/forum.php?mod=viewthread&tid=379

这是你的有机体系的测试结果。供参考
88 X Intel(R) Xeon(R) CPU E5-2699 v4 @ 2.20GHz detected
system: 1848 primitive gaussian shells,  3624 primitive gaussian functions

Number of cores     execution time      number of SCF cycles
4                   896.093558          28
8                   568.299725          28
16                  411.771255          28
20                  388.413250          28
40                  422.164279          28





作者
Author:
缠绕指    时间: 2017-1-16 01:33
本帖最后由 缠绕指 于 2017-1-16 01:41 编辑
ggdh 发表于 2017-1-14 23:53
intel 15的下载见:http://bbs.keinsci.com/forum.php?mod=viewthread&tid=379

这是你的有机体系的测 ...

换了你发的这个15版的编译器,openmpi编译时是
./configure CC=icc CXX=icpc F77=ifort FC=ifort --prefix=/opt/openmpi --enable-static  
编译的,现在20核并行算上面Au团簇用时17min,更慢了,不过至少说明编译器对计算用时影响很大。

你的gcc版本是多少?我这是
[root@cluster 4cores]# gcc -v
Using built-in specs.
Target: x86_64-redhat-linux
Configured with: ../configure --prefix=/usr --mandir=/usr/share/man --infodir=/usr/share/info --with-bugurl=http://bugzilla.redhat.com/bugzilla --enable-bootstrap --enable-shared --enable-threads=posix --enable-checking=release --with-system-zlib --enable-__cxa_atexit --disable-libunwind-exceptions --enable-gnu-unique-object --enable-languages=c,c++,objc,obj-c++,java,fortran,ada --enable-java-awt=gtk --disable-dssi --with-java-home=/usr/lib/jvm/java-1.5.0-gcj-1.5.0.0/jre --enable-libgcj-multifile --enable-java-maintainer-mode --with-ecj-jar=/usr/share/java/eclipse-ecj.jar --disable-libjava-multilib --with-ppl --with-cloog --with-tune=generic --with-arch_32=i686 --build=x86_64-redhat-linux
Thread model: posix
gcc version 4.4.7 20120313 (Red Hat 4.4.7-11) (GCC)
难道是gcc的锅?

你在安装icc、ifort以后还是需要系统里有gcc才能编译openmpi的吧?

我卸载gcc以后发现没法编译openmpi,会报错
checking build system type... x86_64-unknown-linux-gnu
checking host system type... x86_64-unknown-linux-gnu
checking target system type... x86_64-unknown-linux-gnu
checking for gcc... icc
checking whether the C compiler works... no
然后我装上gcc以后才正常编译的,编译完成以后mpirun -n 4 xxx提示
mpirun: error while loading shared libraries: libimf.so: cannot open shared
我把libimf.so所在目录的所有文件复制到openmpi/lib路径下以后mpirun测试才正常的

你在安装过程中遇到类似问题了吗?还是我安装编译器或者编译openmpi的姿势不对?
还有,在安装intel 15的那个时,之前发现openmpi会和intel的mpi冲突,不知道怎么办,只好重装系统以后再安装的时候只选了icc、ifort和math库。

是否方便提供一下你安装icc、ifort编译器,以及用icc、ifort编译openmpi的具体步骤,或者参考的网页的地址(网上说法太多,不清楚哪个对),用的系统版本,gcc编译器的版本。
可能还是有什么细节地方我没太注意到,所以编译有问题,谢谢!

作者
Author:
ggdh    时间: 2017-1-16 10:11
本帖最后由 ggdh 于 2017-1-16 15:52 编辑

之前发现openmpi会和intel的mpi冲突
这个问题在设置path环境变量的时候把openmpi 的路径设置到intel的路径之前就行。
我gcc版本4.8.5
Using built-in specs.
COLLECT_GCC=gcc
COLLECT_LTO_WRAPPER=/usr/libexec/gcc/x86_64-redhat-linux/4.8.5/lto-wrapper
Target: x86_64-redhat-linux
Configured with: ../configure --prefix=/usr --mandir=/usr/share/man --infodir=/usr/share/info --with-bugurl=http://bugzilla.redhat.com/bugzilla --enable-bootstrap --enable-shared --enable-threads=posix --enable-checking=release --with-system-zlib --enable-__cxa_atexit --disable-libunwind-exceptions --enable-gnu-unique-object --enable-linker-build-id --with-linker-hash-style=gnu --enable-languages=c,c++,objc,obj-c++,java,fortran,ada,go,lto --enable-plugin --enable-initfini-array --disable-libgcj --with-isl=/builddir/build/BUILD/gcc-4.8.5-20150702/obj-x86_64-redhat-linux/isl-install --with-cloog=/builddir/build/BUILD/gcc-4.8.5-20150702/obj-x86_64-redhat-linux/cloog-install --enable-gnu-indirect-function --with-tune=generic --with-arch_32=x86-64 --build=x86_64-redhat-linux

安装方法 sudo yum group install ‘Development Tools’
intel15 就是mout iso以后 用他自带的脚本自动装的。
openmpi的安装方法和你一样。
另外也有可能是硬盘的问题。我的硬盘可是比你快多了。
待会我用机械盘测试下看看会不会慢
system: 741 primitive gaussian shells,  2223 primitive gaussian functionsNumber of cores     execution time      number of SCF cycles
4                   594.142847          32
20                  277.036332          24
40                  275.858256          24
只是慢了几秒钟,看来不是硬盘的问题了





作者
Author:
缠绕指    时间: 2017-1-17 19:29
本帖最后由 缠绕指 于 2017-1-17 19:40 编辑
ggdh 发表于 2017-1-16 10:11
之前发现openmpi会和intel的mpi冲突
这个问题在设置path环境变量的时候把openmpi 的路径设置到intel的路径 ...

感谢!问题解决,就是GCC的锅。

换个RHEL 7.3,Cent OS 7.0都试了过,都没问题。啥都没动,装完系统,gcc编译openmpi,直接算就可以。
自带的GCC就是你那个版本的,也不需要用icc、ifort编译,就./configure --prefix=/opt/openmpi一切正常。
Au团簇的体系20核并行5分多钟,4核用时10分多钟。(之前是20核10分钟,4核26分钟)比你的明显慢很多,但也是意料之中,可能是AVX2指令集的问题,我这边用dmol计算,同频同核性能,2代E5也就只有3、4代E5的不到80%。



作者
Author:
ggdh    时间: 2017-1-18 00:16
缠绕指 发表于 2017-1-17 19:29
感谢!问题解决,就是GCC的锅。

换个RHEL 7.3,Cent OS 7.0都试了过,都没问题。啥都没动,装完系统, ...

原来GCC版本影响这么大。看来有理由淘汰CentOs 6了!
长知识了!谢谢分享




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3