计算化学公社

 找回密码 Forget password
 注册 Register
Views: 7309|回复 Reply: 16
打印 Print 上一主题 Last thread 下一主题 Next thread

[配置讨论] [已解决] 请问大家 两台8173M机器计算速度差异的疑问

[复制链接 Copy URL]

21

帖子

0

威望

109

eV
积分
130

Level 2 能力者

跳转到指定楼层 Go to specific reply
楼主
本帖最后由 seabiscuit 于 2020-5-31 11:54 编辑

感谢几位大佬的指点,我去把node02 内存1313的插法换成了2222的插法,对reax的体系再次进行测试,这次node02的计算速度到了node01的水准,10000步两个任务计算时间分别为1126.9886和1128.2902s.

结论:内存的插法对Lammps计算中特定体系影响也很大,如本例中的Reax体系。内存没有插满的前提下一定按手册推荐的插法插,当然最好的是把通道插满(如8173M的6通道插满)。

-----------------------------------------------------------------------------------------------------

大家好,本人高校小青椒,最近我参照社长这边的推荐采购了几台双路8173M的机器,最近刚到货,用Lammps做了一些测试,但是发现了一些奇怪的计算速度差异问题,想请教大家,搞清楚是什么原因
机器配置如下:

处理器: XEON Platinum 8173M 正式版* 2
散热器: 猫头鹰 U12S 3647 散热器*2
主板: 超微C621服务器主板X11DAI-N* 1
内存: 三星 DDR4 2666V RECC 32G* 8
固态:西部数据1TB SSD 蓝盘 SATA接口* 1
硬盘:希捷10TB ST10000NM001G*1
电源: 长城巨龙服务器 GW-EPS1650DA *1 (后期准备多加几块卡)

测试体系1:Lammps + REAX势函数 使用完全相同的计算输入文件和结构文件,两台机器上均采用每个任务28核并行计算,各跑两个任务

在node01上面两个任务运行10000步时间分别为 1127.0657 和 1127.1544 s
在node02上面两个任务运行10000步时间分别为 1662.5765 和 1695.9815 s

在两台机器上计算速度差 ~50%

使用 sensors | grep Package 命令查看cpu温度时发现node01和node02温度有明细差异,运行较慢的节点node02 两颗cpu温度均低 6~9度. CPU 0 和 CPU 1 存在约10度的温差时因为目前机箱上只有一个朝上的机箱风扇,后期准备再加一个朝上的机箱风扇

[root@node01 ~]# sensors | grep Package
Package id 0:  +64.0°C  (high = +71.0°C, crit = +81.0°C)
Package id 1:  +55.0°C  (high = +71.0°C, crit = +81.0°C)

[root@node02 ~]# sensors | grep Package
Package id 0:  +55.0°C  (high = +71.0°C, crit = +81.0°C)
Package id 1:  +49.0°C  (high = +71.0°C, crit = +81.0°C)

然而,神奇的事情时,我换另外一个LJ计算体系的时候,两台机器测试出来的计算速度竟然非常的接近,非常的令人疑惑

测试体系2:Lammps + LJ势函数 使用完全相同的计算输入文件和结构文件,两台机器上均采用每个任务28核并行计算,各跑两个任务

在node01上面两个任务运行10000步时间分别为 558.08406 和 560.6213 s
在node02上面两个任务运行10000步时间分别为 550.63861 和 544.55455 s

使用 sensors | grep Package 命令查看cpu温度时发现node02cpu温度上升明细

[root@node01 ~]# sensors | grep Package
Package id 0:  +63.0°C  (high = +71.0°C, crit = +81.0°C)
Package id 1:  +56.0°C  (high = +71.0°C, crit = +81.0°C)

[root@node02 ~]# sensors | grep Package
Package id 0:  +59.0°C  (high = +71.0°C, crit = +81.0°C)
Package id 1:  +52.0°C  (high = +71.0°C, crit = +81.0°C)

使用watch -n1 "cat /proc/cpuinfo | grep \"^[c]pu MHz\"" 命令,两个测试案例cpu运行频率均基本为2.7G满载频率

附件中给出了reax的案例,提前谢过大家!

lammps_test_reax.7z

21.58 KB, 下载次数 Times of downloads: 7

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

2#
发表于 Post on 2020-5-30 20:50:33 | 只看该作者 Only view this author
你可以再确认一下:
是否只要运行的时间稍微长一点,两台机器就会出现明显的时间差异?

或者,你单纯采用stress烤一下,烤1个小时比如,同时监控CPU温度,频率,磁盘运行状态。
如果超过一定时间后,机器运行状态就存在明显性能差异,则可以推定,其中一个机器的CPU存在不稳定的状态。

用这个试试:
stress -c 112 -i 112 -m 112 --vm-bytes 128M -t 1h

28核心,2个处理器,56核心,算上超线程,应该是112.
如果关闭了超线程,使用了112进程,机器不应该死机,这才是标准负载的2倍。
服务器搞到负载的5倍也不会死,就是慢而已。
建议先把-i -m调低一些。


CPU温度差异应该是不是原因。

另,如果是塔式机箱,多买几个12cm的机箱风扇,都接上。
注意控制风向,掌握好风路控制。

八条内存条,这个用法好新奇。 应该用12条。
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

14

帖子

0

威望

2215

eV
积分
2229

Level 5 (御坂)

3#
发表于 Post on 2020-5-30 22:25:59 | 只看该作者 Only view this author
内存最好是搞12条,插满,8条的插法不知道你是插得哪些插槽

21

帖子

0

威望

109

eV
积分
130

Level 2 能力者

4#
 楼主 Author| 发表于 Post on 2020-5-30 22:49:03 | 只看该作者 Only view this author
abin 发表于 2020-5-30 20:50
你可以再确认一下:
是否只要运行的时间稍微长一点,两台机器就会出现明显的时间差异?

谢谢大佬的指点,我再深度测试一下,把问题的原因找找。

内存条的买的时候也没有想太多,感觉差不多256G就够了?然后看这个主板是可以插16条的,想得插一半,留一半后期升级的空间。
我看大家都说插满是12条,是我弄错了吗?

找了一张主板的参数图,如下https://www.supermicro.org.cn/zh_cn/products/motherboard/X11DAi-N



2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

5#
发表于 Post on 2020-5-30 23:05:17 | 只看该作者 Only view this author
seabiscuit 发表于 2020-5-30 22:49
谢谢大佬的指点,我再深度测试一下,把问题的原因找找。

内存条的买的时候也没有想太多,感 ...

你的处理器支持六个通道。
两个处理器,使用12条内存。
这种双路机器,要发挥好的性能, 应该是12 x 8GB, 或者 12 x 16 GB, 或者 12 x 32 GB。

如果采用8条,请务必确保两台机器内存占用的接口完全一样再做测试。

High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

119

帖子

2

威望

2075

eV
积分
2234

Level 5 (御坂)

6#
发表于 Post on 2020-5-30 23:06:12 | 只看该作者 Only view this author
插12条就够了,内存查不满对计算速度有极大的影响,按照主板手册插,如果是vasp测插4条和12条,计算速度能差2-3倍。

21

帖子

0

威望

109

eV
积分
130

Level 2 能力者

7#
 楼主 Author| 发表于 Post on 2020-5-30 23:20:16 | 只看该作者 Only view this author
本帖最后由 seabiscuit 于 2020-6-1 10:15 编辑
abin 发表于 2020-5-30 23:05
你的处理器支持六个通道。
两个处理器,使用12条内存。
这种双路机器,要发挥好的性能, 应该是12 x  ...

说到内存插槽这个事情,我一个小时前还跟供应商那边联系了,供应商说他那装机的技术员给这两台机器用了不同的插法。一台是1313(跑的慢的这台),另外一台是2222的插法,我明天把这台奇葩的1313换成2222再来比较速度,没想到这玩意影响还可能不小。

另外,请问一下,如果是12条的插法的话,应该是插在主板上那12条蓝色槽里面嘛?得再一台机器加4条内存条了!

Snipaste_2020-05-30_23-13-53.png (32.58 KB, 下载次数 Times of downloads: 59)

Snipaste_2020-05-30_23-13-53.png

21

帖子

0

威望

109

eV
积分
130

Level 2 能力者

8#
 楼主 Author| 发表于 Post on 2020-5-30 23:22:58 | 只看该作者 Only view this author
啦啦黑还黑 发表于 2020-5-30 23:06
插12条就够了,内存查不满对计算速度有极大的影响,按照主板手册插,如果是vasp测插4条和12条,计算速度能 ...

第一次玩这个,感觉还是有点意思,多谢大佬指点!

之前是听说过Vasp对内存比较敏感,看来插的不对整体都有影响啊。

119

帖子

2

威望

2075

eV
积分
2234

Level 5 (御坂)

9#
发表于 Post on 2020-5-30 23:24:48 | 只看该作者 Only view this author
seabiscuit 发表于 2020-5-30 23:22
第一次玩这个,感觉还是有点意思,多谢大佬指点!

之前是听说过Vasp对内存比较敏感,看来插的不对整体 ...

不但要对称,而且优先插哪几个槽都有讲究,建议把主板手册翻出来看看。

21

帖子

0

威望

109

eV
积分
130

Level 2 能力者

10#
 楼主 Author| 发表于 Post on 2020-5-30 23:37:41 | 只看该作者 Only view this author
啦啦黑还黑 发表于 2020-5-30 23:24
不但要对称,而且优先插哪几个槽都有讲究,建议把主板手册翻出来看看。

翻了一下手册,给出了不同的插法,也分享给大家参考一下


1236

帖子

1

威望

3495

eV
积分
4751

Level 6 (一方通行)

11#
发表于 Post on 2020-5-31 15:23:28 | 只看该作者 Only view this author
该不会是把内存条插进黑色插槽了吧,那个本来是为傲腾非易失性内存设计的,除非其它插满了是不建议在那里用普通内存的

21

帖子

0

威望

109

eV
积分
130

Level 2 能力者

12#
 楼主 Author| 发表于 Post on 2020-5-31 15:28:26 | 只看该作者 Only view this author
biogon 发表于 2020-5-31 15:23
该不会是把内存条插进黑色插槽了吧,那个本来是为傲腾非易失性内存设计的,除非其它插满了是不建议在那里用 ...

这个到是没有,都是插在蓝色插槽里面的

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

13#
发表于 Post on 2020-5-31 16:23:35 | 只看该作者 Only view this author
凑个热闹,发个牢骚。
我没机器都是这么操作:
打电话给买机器的,指定要哪一个CPU,然后内存装满通道。
剩下的主板电源,让商家适配。
并给我三个档次的配置报价,
我自己按照预算选一个。

其他我从来不过问。
因为不懂硬件,要过问细节,浪费太多精力。
专业的事情交给专业的人士做,精力用来干活吧。

其实商家也有自己的考量,弄的货不好,是砸自己的招牌。

当然,商家肯定要赚钱的,
他如果转不到钱,拿来的精力给你做售后质保?
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

21

帖子

0

威望

109

eV
积分
130

Level 2 能力者

14#
 楼主 Author| 发表于 Post on 2020-5-31 17:33:44 | 只看该作者 Only view this author
abin 发表于 2020-5-31 16:23
凑个热闹,发个牢骚。
我没机器都是这么操作:
打电话给买机器的,指定要哪一个CPU,然后内存装满通道。
...

确实是这样的,这个操作好,学习了。

第一次攒机自己玩一下还行,也有点乐趣,后面就不管了,当甩手掌柜了。

19

帖子

0

威望

133

eV
积分
152

Level 3 能力者

15#
发表于 Post on 2020-7-3 16:12:16 | 只看该作者 Only view this author
朋友,麻烦咨询下您这机子噪声大吗,放在办公桌旁边会吵不

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 15:06 , Processed in 0.350412 second(s), 24 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list