本帖最后由 seabiscuit 于 2020-5-31 11:54 编辑
感谢几位大佬的指点,我去把node02 内存1313的插法换成了2222的插法,对reax的体系再次进行测试,这次node02的计算速度到了node01的水准,10000步两个任务计算时间分别为1126.9886和1128.2902s.
结论:内存的插法对Lammps计算中特定体系影响也很大,如本例中的Reax体系。内存没有插满的前提下一定按手册推荐的插法插,当然最好的是把通道插满(如8173M的6通道插满)。
-----------------------------------------------------------------------------------------------------
大家好,本人高校小青椒,最近我参照社长这边的推荐采购了几台双路8173M的机器,最近刚到货,用Lammps做了一些测试,但是发现了一些奇怪的计算速度差异问题,想请教大家,搞清楚是什么原因
机器配置如下:
处理器: XEON Platinum 8173M 正式版* 2 散热器: 猫头鹰 U12S 3647 散热器*2 主板: 超微C621服务器主板X11DAI-N* 1 内存: 三星 DDR4 2666V RECC 32G* 8 固态:西部数据1TB SSD 蓝盘 SATA接口* 1 硬盘:希捷10TB ST10000NM001G*1 电源: 长城巨龙服务器 GW-EPS1650DA *1 (后期准备多加几块卡)
测试体系1:Lammps + REAX势函数 使用完全相同的计算输入文件和结构文件,两台机器上均采用每个任务28核并行计算,各跑两个任务
在node01上面两个任务运行10000步时间分别为 1127.0657 和 1127.1544 s
在node02上面两个任务运行10000步时间分别为 1662.5765 和 1695.9815 s
在两台机器上计算速度差 ~50%
使用 sensors | grep Package 命令查看cpu温度时发现node01和node02温度有明细差异,运行较慢的节点node02 两颗cpu温度均低 6~9度. CPU 0 和 CPU 1 存在约10度的温差时因为目前机箱上只有一个朝上的机箱风扇,后期准备再加一个朝上的机箱风扇
[root@node01 ~]# sensors | grep Package
Package id 0: +64.0°C (high = +71.0°C, crit = +81.0°C)
Package id 1: +55.0°C (high = +71.0°C, crit = +81.0°C)
[root@node02 ~]# sensors | grep Package
Package id 0: +55.0°C (high = +71.0°C, crit = +81.0°C)
Package id 1: +49.0°C (high = +71.0°C, crit = +81.0°C)
然而,神奇的事情时,我换另外一个LJ计算体系的时候,两台机器测试出来的计算速度竟然非常的接近,非常的令人疑惑
测试体系2:Lammps + LJ势函数 使用完全相同的计算输入文件和结构文件,两台机器上均采用每个任务28核并行计算,各跑两个任务
在node01上面两个任务运行10000步时间分别为 558.08406 和 560.6213 s
在node02上面两个任务运行10000步时间分别为 550.63861 和 544.55455 s
使用 sensors | grep Package 命令查看cpu温度时发现node02cpu温度上升明细
[root@node01 ~]# sensors | grep Package
Package id 0: +63.0°C (high = +71.0°C, crit = +81.0°C)
Package id 1: +56.0°C (high = +71.0°C, crit = +81.0°C)
[root@node02 ~]# sensors | grep Package
Package id 0: +59.0°C (high = +71.0°C, crit = +81.0°C)
Package id 1: +52.0°C (high = +71.0°C, crit = +81.0°C)
使用watch -n1 "cat /proc/cpuinfo | grep \"^[c]pu MHz\"" 命令,两个测试案例cpu运行频率均基本为2.7G满载频率
附件中给出了reax的案例,提前谢过大家!
|