计算化学公社

 找回密码 Forget password
 注册 Register
Views: 7606|回复 Reply: 26
打印 Print 上一主题 Last thread 下一主题 Next thread

[硬件评测] 求助:8173M 机器计算速度再次异常大幅下降

[复制链接 Copy URL]

21

帖子

0

威望

109

eV
积分
130

Level 2 能力者

本帖最后由 seabiscuit 于 2020-6-1 12:40 编辑

大家好,昨天遇到了一些计算速度的问题,在这里跟大家讨论,经过各大佬的指点,得到了解决
详情见:http://bbs.keinsci.com/thread-17726-1-1.html

但是,今天又出现了一个令人奇怪性能大幅下降问题,感觉有点头晕

情况是这样,我今天在node01这个节点上做几个Lammps LJ体系并行的测试,然后同时跑了两个28核的任务,

刚开始都很正常,两个任务跑1000步的时间大约45.7s左右。

然后,我把这两个任务取消了,过了一会儿,我重新提交了这个两个任务,奇怪的发现计算速度变得非常的慢

两个任务跑1000步的时间大约842.5s左右。下降了又小18倍了。然后我把机器重启了,依然是这样

我用昨天reax体系测试,也是相同的情况由正常的8.8s变成了319.5s左右。

整个测试过程,未作任何的硬件修改,甚至都没有去碰机器。

然后从CPU温度来看,速度变慢以后比原来正常时有3-5°的下降。

1236

帖子

1

威望

3495

eV
积分
4751

Level 6 (一方通行)

2#
发表于 Post on 2020-5-31 17:52:34 | 只看该作者 Only view this author
跑别的程序也有这种情况吗

221

帖子

0

威望

2685

eV
积分
2906

Level 5 (御坂)

3#
发表于 Post on 2020-5-31 18:59:16 | 只看该作者 Only view this author
不会是内存坏了吧。重启看看

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

4#
发表于 Post on 2020-5-31 20:33:27 | 只看该作者 Only view this author
推荐,不要动硬件,啥都不要动。

执行, stress -c 112 -i 112 -m 112 --vm-bytes 128M -t 1h
同时检测CPU频率,内存占用, I/O负载,以及系统负载。

High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

14

帖子

0

威望

1004

eV
积分
1018

Level 4 (黑子)

5#
发表于 Post on 2020-5-31 21:46:46 | 只看该作者 Only view this author
lammps的任务可能会存在没有被kill的情况,建议在运行前用top看看cpu占用

21

帖子

0

威望

109

eV
积分
130

Level 2 能力者

6#
 楼主 Author| 发表于 Post on 2020-5-31 23:36:30 | 只看该作者 Only view this author
本帖最后由 seabiscuit 于 2020-5-31 23:48 编辑
abin 发表于 2020-5-31 20:33
推荐,不要动硬件,啥都不要动。

执行, stress -c 112 -i 112 -m 112 --vm-bytes 128M -t 1h

感谢大佬指点,我在三台机器上同时采用“stress -c 112 -i 112 -m 112 --vm-bytes 128M -t 1h”命令进行测试
其中node01为速度慢的机器,node02, node03为速度正常的机器。

首先检查三台机器的CPU频率:node01,node02,node03均为部分2.7G主频运行,部分2.56G主频运行,差异不大

内存占用为node01,node02,node03分别为8.1G 8.9G 9.7G

I/O负载这里变发现了有较大的差异,使用iotop命令查看发现node01 IO 只有3-5% ,而node02和node03均为70%-80%左右。

iotop of node01


iotop of node02


据此看来大概率是IO导致系统性能下降?如果是这个原因的话,可能会是什么硬件的故障导致的呢?

三个节点都是使用SSD做系统盘,然后node02和node03/home目录都是nfs挂在node01的机械盘上的。

使用cat /proc/loadavg 命令查看三台机器的负载,相差也不大

[root@node01 ~]$ cat /proc/loadavg
343.51 341.41 273.78 247/1693 83343

[root@node02 ~]$ cat /proc/loadavg
336.97 334.26 262.22 268/1647 33459

[root@node03 ~]# cat /proc/loadavg
337.14 320.39 208.26 252/1649 33006






21

帖子

0

威望

109

eV
积分
130

Level 2 能力者

7#
 楼主 Author| 发表于 Post on 2020-5-31 23:38:18 | 只看该作者 Only view this author
shalene 发表于 2020-5-31 18:59
不会是内存坏了吧。重启看看

感谢大佬提点,之前还一直把关注点放在CPU上面了,下面测试的结果是不是可能指向内存导致的IO问题?

21

帖子

0

威望

109

eV
积分
130

Level 2 能力者

8#
 楼主 Author| 发表于 Post on 2020-5-31 23:39:21 | 只看该作者 Only view this author
复前行79 发表于 2020-5-31 21:46
lammps的任务可能会存在没有被kill的情况,建议在运行前用top看看cpu占用

感谢大佬提点,这个我都仔细确认, 没有其他的占用

21

帖子

0

威望

109

eV
积分
130

Level 2 能力者

9#
 楼主 Author| 发表于 Post on 2020-5-31 23:40:19 | 只看该作者 Only view this author
biogon 发表于 2020-5-31 17:52
跑别的程序也有这种情况吗

感谢大佬提点,我去跑了一下vasp,也发现有明显的变慢

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

10#
发表于 Post on 2020-5-31 23:53:28 | 只看该作者 Only view this author
seabiscuit 发表于 2020-5-31 23:36
感谢大佬指点,我在三台机器上同时采用“stress -c 112 -i 112 -m 112 --vm-bytes 128M -t 1h”命令进行 ...

修改参数,再次测试。

-c 112 -i 112 -m 112
-c CPU
-i I/O
-m memory.
分别把其中两个设定为1, 测试30分钟或者1个小时,看看是否存在差异?

怀疑那一个组件存在问题,就把对应参数调大。

从系统层面debug硬件,反正要折腾好些时间的。
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

21

帖子

0

威望

109

eV
积分
130

Level 2 能力者

11#
 楼主 Author| 发表于 Post on 2020-6-1 00:29:14 | 只看该作者 Only view this author
abin 发表于 2020-5-31 23:53
修改参数,再次测试。

-c 112 -i 112 -m 112

反复调整测试了,感觉还是IO有差异, -i 加到1000,node01的IO能到40-50%,另外两台在90%。
其他的参数调整后好像差异不大。

哎,实在不行让供应商他们拉回去搞,太费劲了。

21

帖子

0

威望

109

eV
积分
130

Level 2 能力者

12#
 楼主 Author| 发表于 Post on 2020-6-1 01:56:52 | 只看该作者 Only view this author
本帖最后由 seabiscuit 于 2020-6-1 01:59 编辑
abin 发表于 2020-5-31 23:53
修改参数,再次测试。

-c 112 -i 112 -m 112

我用“dd if=/dev/zero of=test bs=64k count=4k oflag=dsync” 命令分别在node01和node02, node03上进行测试,
发现在node01的 /home/iamcms目录下面速度惊人的慢

需要说明的是,几台机器的/root目录均为机器的SSD,而node02和node03的/home/iamcms目录实际为nfs挂载在node01的hdd的/home/iamcms。

所以node02上/home/iamcms目录表现正常,可以排除是HDD的硬件故障。

那么为什么/home/iamcms目录在node01上速度这么慢呢?有可能是系统的问题?node01用winscp下载文件速度为20M/s,另外两台均为70M/s.
另外一个疑问就是为什么node02和node03的HDD的速度比SDD还快一点?

[iamcms@node01 ~]$ dd if=/dev/zero of=test bs=64k count=4k oflag=dsync
4096+0 records in
4096+0 records out
268435456 bytes (268 MB, 256 MiB) copied, 117.309 s, 2.3 MB/s

在/root 目录下面正常

[root@node01 ~]# dd if=/dev/zero of=test bs=64k count=4k oflag=dsync
4096+0 records in
4096+0 records out
268435456 bytes (268 MB, 256 MiB) copied, 8.3055 s, 32.3 MB/s

而在node02 和node03 机器上速度均正常

[iamcms@node02 ~]$ dd if=/dev/zero of=test bs=64k count=4k oflag=dsync
4096+0 records in
4096+0 records out
268435456 bytes (268 MB, 256 MiB) copied, 5.51383 s, 48.7 MB/s

[root@node02 ~]# dd if=/dev/zero of=test bs=64k count=4k oflag=dsync
4096+0 records in
4096+0 records out
268435456 bytes (268 MB, 256 MiB) copied, 7.82344 s, 34.3 MB/s





2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

13#
发表于 Post on 2020-6-1 07:30:53 | 只看该作者 Only view this author
seabiscuit 发表于 2020-6-1 01:56
我用“dd if=/dev/zero of=test bs=64k count=4k oflag=dsync” 命令分别在node01和node02, node03上进行 ...

SATA接口的固态硬盘,坑特别多的。
在实际使用上,还不如HDD RAID 0效果好。

推荐,如果主要是用场景是单节点内并行,
廉价的方案是, HDD RAID0 做读写。
或者高规格的NVME固态做读写,其他的基本就是听个响,没啥实际用途。

普通固态,温度上来后,掉速十分明显的。
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

1236

帖子

1

威望

3495

eV
积分
4751

Level 6 (一方通行)

14#
发表于 Post on 2020-6-1 08:39:05 | 只看该作者 Only view this author
seabiscuit 发表于 2020-6-1 01:56
我用“dd if=/dev/zero of=test bs=64k count=4k oflag=dsync” 命令分别在node01和node02, node03上进行 ...

让卖家换个硬盘来看看

21

帖子

0

威望

109

eV
积分
130

Level 2 能力者

15#
 楼主 Author| 发表于 Post on 2020-6-1 10:13:17 | 只看该作者 Only view this author
abin 发表于 2020-6-1 07:30
SATA接口的固态硬盘,坑特别多的。
在实际使用上,还不如HDD RAID 0效果好。

不跟大家讨论,还真不知道有这么多坑。之前之所以选sata接口,是感觉换硬盘什么的会比较方便,直接插拔就完事了。

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 15:36 , Processed in 0.245132 second(s), 24 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list