计算化学公社

标题: [已解决] 请问大家 两台8173M机器计算速度差异的疑问 [打印本页]

作者
Author:
seabiscuit    时间: 2020-5-30 17:01
标题: [已解决] 请问大家 两台8173M机器计算速度差异的疑问
本帖最后由 seabiscuit 于 2020-5-31 11:54 编辑

感谢几位大佬的指点,我去把node02 内存1313的插法换成了2222的插法,对reax的体系再次进行测试,这次node02的计算速度到了node01的水准,10000步两个任务计算时间分别为1126.9886和1128.2902s.

结论:内存的插法对Lammps计算中特定体系影响也很大,如本例中的Reax体系。内存没有插满的前提下一定按手册推荐的插法插,当然最好的是把通道插满(如8173M的6通道插满)。

-----------------------------------------------------------------------------------------------------

大家好,本人高校小青椒,最近我参照社长这边的推荐采购了几台双路8173M的机器,最近刚到货,用Lammps做了一些测试,但是发现了一些奇怪的计算速度差异问题,想请教大家,搞清楚是什么原因
机器配置如下:

处理器: XEON Platinum 8173M 正式版* 2
散热器: 猫头鹰 U12S 3647 散热器*2
主板: 超微C621服务器主板X11DAI-N* 1
内存: 三星 DDR4 2666V RECC 32G* 8
固态:西部数据1TB SSD 蓝盘 SATA接口* 1
硬盘:希捷10TB ST10000NM001G*1
电源: 长城巨龙服务器 GW-EPS1650DA *1 (后期准备多加几块卡)

测试体系1:Lammps + REAX势函数 使用完全相同的计算输入文件和结构文件,两台机器上均采用每个任务28核并行计算,各跑两个任务

在node01上面两个任务运行10000步时间分别为 1127.0657 和 1127.1544 s
在node02上面两个任务运行10000步时间分别为 1662.5765 和 1695.9815 s

在两台机器上计算速度差 ~50%

使用 sensors | grep Package 命令查看cpu温度时发现node01和node02温度有明细差异,运行较慢的节点node02 两颗cpu温度均低 6~9度. CPU 0 和 CPU 1 存在约10度的温差时因为目前机箱上只有一个朝上的机箱风扇,后期准备再加一个朝上的机箱风扇

[root@node01 ~]# sensors | grep Package
Package id 0:  +64.0°C  (high = +71.0°C, crit = +81.0°C)
Package id 1:  +55.0°C  (high = +71.0°C, crit = +81.0°C)

[root@node02 ~]# sensors | grep Package
Package id 0:  +55.0°C  (high = +71.0°C, crit = +81.0°C)
Package id 1:  +49.0°C  (high = +71.0°C, crit = +81.0°C)

然而,神奇的事情时,我换另外一个LJ计算体系的时候,两台机器测试出来的计算速度竟然非常的接近,非常的令人疑惑

测试体系2:Lammps + LJ势函数 使用完全相同的计算输入文件和结构文件,两台机器上均采用每个任务28核并行计算,各跑两个任务

在node01上面两个任务运行10000步时间分别为 558.08406 和 560.6213 s
在node02上面两个任务运行10000步时间分别为 550.63861 和 544.55455 s

使用 sensors | grep Package 命令查看cpu温度时发现node02cpu温度上升明细

[root@node01 ~]# sensors | grep Package
Package id 0:  +63.0°C  (high = +71.0°C, crit = +81.0°C)
Package id 1:  +56.0°C  (high = +71.0°C, crit = +81.0°C)

[root@node02 ~]# sensors | grep Package
Package id 0:  +59.0°C  (high = +71.0°C, crit = +81.0°C)
Package id 1:  +52.0°C  (high = +71.0°C, crit = +81.0°C)

使用watch -n1 "cat /proc/cpuinfo | grep \"^[c]pu MHz\"" 命令,两个测试案例cpu运行频率均基本为2.7G满载频率

附件中给出了reax的案例,提前谢过大家!

作者
Author:
abin    时间: 2020-5-30 20:50
你可以再确认一下:
是否只要运行的时间稍微长一点,两台机器就会出现明显的时间差异?

或者,你单纯采用stress烤一下,烤1个小时比如,同时监控CPU温度,频率,磁盘运行状态。
如果超过一定时间后,机器运行状态就存在明显性能差异,则可以推定,其中一个机器的CPU存在不稳定的状态。

用这个试试:
stress -c 112 -i 112 -m 112 --vm-bytes 128M -t 1h

28核心,2个处理器,56核心,算上超线程,应该是112.
如果关闭了超线程,使用了112进程,机器不应该死机,这才是标准负载的2倍。
服务器搞到负载的5倍也不会死,就是慢而已。
建议先把-i -m调低一些。


CPU温度差异应该是不是原因。

另,如果是塔式机箱,多买几个12cm的机箱风扇,都接上。
注意控制风向,掌握好风路控制。

八条内存条,这个用法好新奇。 应该用12条。
作者
Author:
tanyazhi    时间: 2020-5-30 22:25
内存最好是搞12条,插满,8条的插法不知道你是插得哪些插槽
作者
Author:
seabiscuit    时间: 2020-5-30 22:49
abin 发表于 2020-5-30 20:50
你可以再确认一下:
是否只要运行的时间稍微长一点,两台机器就会出现明显的时间差异?

谢谢大佬的指点,我再深度测试一下,把问题的原因找找。

内存条的买的时候也没有想太多,感觉差不多256G就够了?然后看这个主板是可以插16条的,想得插一半,留一半后期升级的空间。
我看大家都说插满是12条,是我弄错了吗?

找了一张主板的参数图,如下https://www.supermicro.org.cn/zh_cn/products/motherboard/X11DAi-N
(, 下载次数 Times of downloads: 63)



作者
Author:
abin    时间: 2020-5-30 23:05
seabiscuit 发表于 2020-5-30 22:49
谢谢大佬的指点,我再深度测试一下,把问题的原因找找。

内存条的买的时候也没有想太多,感 ...

你的处理器支持六个通道。
两个处理器,使用12条内存。
这种双路机器,要发挥好的性能, 应该是12 x 8GB, 或者 12 x 16 GB, 或者 12 x 32 GB。

如果采用8条,请务必确保两台机器内存占用的接口完全一样再做测试。


作者
Author:
啦啦黑还黑    时间: 2020-5-30 23:06
插12条就够了,内存查不满对计算速度有极大的影响,按照主板手册插,如果是vasp测插4条和12条,计算速度能差2-3倍。
作者
Author:
seabiscuit    时间: 2020-5-30 23:20
本帖最后由 seabiscuit 于 2020-6-1 10:15 编辑
abin 发表于 2020-5-30 23:05
你的处理器支持六个通道。
两个处理器,使用12条内存。
这种双路机器,要发挥好的性能, 应该是12 x  ...

说到内存插槽这个事情,我一个小时前还跟供应商那边联系了,供应商说他那装机的技术员给这两台机器用了不同的插法。一台是1313(跑的慢的这台),另外一台是2222的插法,我明天把这台奇葩的1313换成2222再来比较速度,没想到这玩意影响还可能不小。

另外,请问一下,如果是12条的插法的话,应该是插在主板上那12条蓝色槽里面嘛?得再一台机器加4条内存条了!

作者
Author:
seabiscuit    时间: 2020-5-30 23:22
啦啦黑还黑 发表于 2020-5-30 23:06
插12条就够了,内存查不满对计算速度有极大的影响,按照主板手册插,如果是vasp测插4条和12条,计算速度能 ...

第一次玩这个,感觉还是有点意思,多谢大佬指点!

之前是听说过Vasp对内存比较敏感,看来插的不对整体都有影响啊。
作者
Author:
啦啦黑还黑    时间: 2020-5-30 23:24
seabiscuit 发表于 2020-5-30 23:22
第一次玩这个,感觉还是有点意思,多谢大佬指点!

之前是听说过Vasp对内存比较敏感,看来插的不对整体 ...

不但要对称,而且优先插哪几个槽都有讲究,建议把主板手册翻出来看看。
作者
Author:
seabiscuit    时间: 2020-5-30 23:37
啦啦黑还黑 发表于 2020-5-30 23:24
不但要对称,而且优先插哪几个槽都有讲究,建议把主板手册翻出来看看。

翻了一下手册,给出了不同的插法,也分享给大家参考一下
(, 下载次数 Times of downloads: 56) (, 下载次数 Times of downloads: 52)


作者
Author:
biogon    时间: 2020-5-31 15:23
该不会是把内存条插进黑色插槽了吧,那个本来是为傲腾非易失性内存设计的,除非其它插满了是不建议在那里用普通内存的
作者
Author:
seabiscuit    时间: 2020-5-31 15:28
biogon 发表于 2020-5-31 15:23
该不会是把内存条插进黑色插槽了吧,那个本来是为傲腾非易失性内存设计的,除非其它插满了是不建议在那里用 ...

这个到是没有,都是插在蓝色插槽里面的
作者
Author:
abin    时间: 2020-5-31 16:23
凑个热闹,发个牢骚。
我没机器都是这么操作:
打电话给买机器的,指定要哪一个CPU,然后内存装满通道。
剩下的主板电源,让商家适配。
并给我三个档次的配置报价,
我自己按照预算选一个。

其他我从来不过问。
因为不懂硬件,要过问细节,浪费太多精力。
专业的事情交给专业的人士做,精力用来干活吧。

其实商家也有自己的考量,弄的货不好,是砸自己的招牌。

当然,商家肯定要赚钱的,
他如果转不到钱,拿来的精力给你做售后质保?

作者
Author:
seabiscuit    时间: 2020-5-31 17:33
abin 发表于 2020-5-31 16:23
凑个热闹,发个牢骚。
我没机器都是这么操作:
打电话给买机器的,指定要哪一个CPU,然后内存装满通道。
...

确实是这样的,这个操作好,学习了。

第一次攒机自己玩一下还行,也有点乐趣,后面就不管了,当甩手掌柜了。
作者
Author:
19dg    时间: 2020-7-3 16:12
朋友,麻烦咨询下您这机子噪声大吗,放在办公桌旁边会吵不
作者
Author:
seabiscuit    时间: 2020-7-4 11:17
本帖最后由 seabiscuit 于 2020-7-4 11:21 编辑
19dg 发表于 2020-7-3 16:12
朋友,麻烦咨询下您这机子噪声大吗,放在办公桌旁边会吵不

你好,这台机器目前据我体会,放在办公桌前满载运行的时候噪声还是会影响到正常办公。主要噪声来源于我选用的长城巨龙电源。长城巨龙电源相对便宜和皮实,但是噪声相对台厂一线较大,而且没有智能转速控制,开机就满速转。如果实在需要放在办公室使用,可以选用价格较高的台厂一线白金电源。但是没有经过测试,不能保证结果,敬请参考。
作者
Author:
akang    时间: 2020-7-7 14:16
19dg 发表于 2020-7-3 16:12
朋友,麻烦咨询下您这机子噪声大吗,放在办公桌旁边会吵不

塔式一般静音效果比较好,只要不是是四路设备机架式或者GPU加速的设备都不会太吵!




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3