计算化学公社

标题: 求助:8173M 机器计算速度再次异常大幅下降 [打印本页]

作者
Author:
seabiscuit    时间: 2020-5-31 16:13
标题: 求助:8173M 机器计算速度再次异常大幅下降
本帖最后由 seabiscuit 于 2020-6-1 12:40 编辑

大家好,昨天遇到了一些计算速度的问题,在这里跟大家讨论,经过各大佬的指点,得到了解决
详情见:http://bbs.keinsci.com/thread-17726-1-1.html

但是,今天又出现了一个令人奇怪性能大幅下降问题,感觉有点头晕

情况是这样,我今天在node01这个节点上做几个Lammps LJ体系并行的测试,然后同时跑了两个28核的任务,

刚开始都很正常,两个任务跑1000步的时间大约45.7s左右。

然后,我把这两个任务取消了,过了一会儿,我重新提交了这个两个任务,奇怪的发现计算速度变得非常的慢

两个任务跑1000步的时间大约842.5s左右。下降了又小18倍了。然后我把机器重启了,依然是这样

我用昨天reax体系测试,也是相同的情况由正常的8.8s变成了319.5s左右。

整个测试过程,未作任何的硬件修改,甚至都没有去碰机器。

然后从CPU温度来看,速度变慢以后比原来正常时有3-5°的下降。


作者
Author:
biogon    时间: 2020-5-31 17:52
跑别的程序也有这种情况吗
作者
Author:
shalene    时间: 2020-5-31 18:59
不会是内存坏了吧。重启看看
作者
Author:
abin    时间: 2020-5-31 20:33
推荐,不要动硬件,啥都不要动。

执行, stress -c 112 -i 112 -m 112 --vm-bytes 128M -t 1h
同时检测CPU频率,内存占用, I/O负载,以及系统负载。


作者
Author:
复前行79    时间: 2020-5-31 21:46
lammps的任务可能会存在没有被kill的情况,建议在运行前用top看看cpu占用
作者
Author:
seabiscuit    时间: 2020-5-31 23:36
本帖最后由 seabiscuit 于 2020-5-31 23:48 编辑
abin 发表于 2020-5-31 20:33
推荐,不要动硬件,啥都不要动。

执行, stress -c 112 -i 112 -m 112 --vm-bytes 128M -t 1h

感谢大佬指点,我在三台机器上同时采用“stress -c 112 -i 112 -m 112 --vm-bytes 128M -t 1h”命令进行测试
其中node01为速度慢的机器,node02, node03为速度正常的机器。

首先检查三台机器的CPU频率:node01,node02,node03均为部分2.7G主频运行,部分2.56G主频运行,差异不大

内存占用为node01,node02,node03分别为8.1G 8.9G 9.7G

I/O负载这里变发现了有较大的差异,使用iotop命令查看发现node01 IO 只有3-5% ,而node02和node03均为70%-80%左右。

iotop of node01
(, 下载次数 Times of downloads: 33)

iotop of node02
(, 下载次数 Times of downloads: 34)

据此看来大概率是IO导致系统性能下降?如果是这个原因的话,可能会是什么硬件的故障导致的呢?

三个节点都是使用SSD做系统盘,然后node02和node03/home目录都是nfs挂在node01的机械盘上的。

使用cat /proc/loadavg 命令查看三台机器的负载,相差也不大

[root@node01 ~]$ cat /proc/loadavg
343.51 341.41 273.78 247/1693 83343

[root@node02 ~]$ cat /proc/loadavg
336.97 334.26 262.22 268/1647 33459

[root@node03 ~]# cat /proc/loadavg
337.14 320.39 208.26 252/1649 33006







作者
Author:
seabiscuit    时间: 2020-5-31 23:38
shalene 发表于 2020-5-31 18:59
不会是内存坏了吧。重启看看

感谢大佬提点,之前还一直把关注点放在CPU上面了,下面测试的结果是不是可能指向内存导致的IO问题?
作者
Author:
seabiscuit    时间: 2020-5-31 23:39
复前行79 发表于 2020-5-31 21:46
lammps的任务可能会存在没有被kill的情况,建议在运行前用top看看cpu占用

感谢大佬提点,这个我都仔细确认, 没有其他的占用
作者
Author:
seabiscuit    时间: 2020-5-31 23:40
biogon 发表于 2020-5-31 17:52
跑别的程序也有这种情况吗

感谢大佬提点,我去跑了一下vasp,也发现有明显的变慢
作者
Author:
abin    时间: 2020-5-31 23:53
seabiscuit 发表于 2020-5-31 23:36
感谢大佬指点,我在三台机器上同时采用“stress -c 112 -i 112 -m 112 --vm-bytes 128M -t 1h”命令进行 ...

修改参数,再次测试。

-c 112 -i 112 -m 112
-c CPU
-i I/O
-m memory.
分别把其中两个设定为1, 测试30分钟或者1个小时,看看是否存在差异?

怀疑那一个组件存在问题,就把对应参数调大。

从系统层面debug硬件,反正要折腾好些时间的。

作者
Author:
seabiscuit    时间: 2020-6-1 00:29
abin 发表于 2020-5-31 23:53
修改参数,再次测试。

-c 112 -i 112 -m 112

反复调整测试了,感觉还是IO有差异, -i 加到1000,node01的IO能到40-50%,另外两台在90%。
其他的参数调整后好像差异不大。

哎,实在不行让供应商他们拉回去搞,太费劲了。
作者
Author:
seabiscuit    时间: 2020-6-1 01:56
本帖最后由 seabiscuit 于 2020-6-1 01:59 编辑
abin 发表于 2020-5-31 23:53
修改参数,再次测试。

-c 112 -i 112 -m 112

我用“dd if=/dev/zero of=test bs=64k count=4k oflag=dsync” 命令分别在node01和node02, node03上进行测试,
发现在node01的 /home/iamcms目录下面速度惊人的慢

需要说明的是,几台机器的/root目录均为机器的SSD,而node02和node03的/home/iamcms目录实际为nfs挂载在node01的hdd的/home/iamcms。

所以node02上/home/iamcms目录表现正常,可以排除是HDD的硬件故障。

那么为什么/home/iamcms目录在node01上速度这么慢呢?有可能是系统的问题?node01用winscp下载文件速度为20M/s,另外两台均为70M/s.
另外一个疑问就是为什么node02和node03的HDD的速度比SDD还快一点?

[iamcms@node01 ~]$ dd if=/dev/zero of=test bs=64k count=4k oflag=dsync
4096+0 records in
4096+0 records out
268435456 bytes (268 MB, 256 MiB) copied, 117.309 s, 2.3 MB/s

在/root 目录下面正常

[root@node01 ~]# dd if=/dev/zero of=test bs=64k count=4k oflag=dsync
4096+0 records in
4096+0 records out
268435456 bytes (268 MB, 256 MiB) copied, 8.3055 s, 32.3 MB/s

而在node02 和node03 机器上速度均正常

[iamcms@node02 ~]$ dd if=/dev/zero of=test bs=64k count=4k oflag=dsync
4096+0 records in
4096+0 records out
268435456 bytes (268 MB, 256 MiB) copied, 5.51383 s, 48.7 MB/s

[root@node02 ~]# dd if=/dev/zero of=test bs=64k count=4k oflag=dsync
4096+0 records in
4096+0 records out
268435456 bytes (268 MB, 256 MiB) copied, 7.82344 s, 34.3 MB/s






作者
Author:
abin    时间: 2020-6-1 07:30
seabiscuit 发表于 2020-6-1 01:56
我用“dd if=/dev/zero of=test bs=64k count=4k oflag=dsync” 命令分别在node01和node02, node03上进行 ...

SATA接口的固态硬盘,坑特别多的。
在实际使用上,还不如HDD RAID 0效果好。

推荐,如果主要是用场景是单节点内并行,
廉价的方案是, HDD RAID0 做读写。
或者高规格的NVME固态做读写,其他的基本就是听个响,没啥实际用途。

普通固态,温度上来后,掉速十分明显的。

作者
Author:
biogon    时间: 2020-6-1 08:39
seabiscuit 发表于 2020-6-1 01:56
我用“dd if=/dev/zero of=test bs=64k count=4k oflag=dsync” 命令分别在node01和node02, node03上进行 ...

让卖家换个硬盘来看看
作者
Author:
seabiscuit    时间: 2020-6-1 10:13
abin 发表于 2020-6-1 07:30
SATA接口的固态硬盘,坑特别多的。
在实际使用上,还不如HDD RAID 0效果好。

不跟大家讨论,还真不知道有这么多坑。之前之所以选sata接口,是感觉换硬盘什么的会比较方便,直接插拔就完事了。
作者
Author:
abin    时间: 2020-6-1 10:24
seabiscuit 发表于 2020-6-1 10:13
不跟大家讨论,还真不知道有这么多坑。之前之所以选sata接口,是感觉换硬盘什么的会比较方便,直接插 ...

SATA接口HDD,便宜又耐用。
softRAID基本可以满足需求了。

作者
Author:
biogon    时间: 2020-6-1 11:23
seabiscuit 发表于 2020-6-1 10:13
不跟大家讨论,还真不知道有这么多坑。之前之所以选sata接口,是感觉换硬盘什么的会比较方便,直接插 ...

不过sata的西数蓝盘应该没那么多毛病的,我们买了两个2TB的拿来热插拔转移数据用的,跑高斯在上面读取速度也能达到300mB/s以上,所以这就让人感觉很奇怪
作者
Author:
shalene    时间: 2020-6-1 12:00
seabiscuit 发表于 2020-5-31 23:38
感谢大佬提点,之前还一直把关注点放在CPU上面了,下面测试的结果是不是可能指向内存导致的IO问题?

我也是新手。前几天淘宝买的山寨内存坏了一根,然后就各种慢,现象和你描述的非常类似
作者
Author:
seabiscuit    时间: 2020-6-1 12:37
本帖最后由 seabiscuit 于 2020-6-1 12:38 编辑
biogon 发表于 2020-6-1 11:23
不过sata的西数蓝盘应该没那么多毛病的,我们买了两个2TB的拿来热插拔转移数据用的,跑高斯在上面读取速 ...

是的,这次这个西数的硬盘测试速度真的不给力,不知道为什么,我用下面的命令做了测试

sysbench --test=fileio --num-threads=16 --file-total-size=3G --file-test-mode=rndrw prepare
sysbench --test=fileio --num-threads=16 --file-total-size=3G --file-test-mode=rndrw run

sysbench --test=fileio --num-threads=16 --file-total-size=3G --file-test-mode=rndrw cleanup

然后发现node01在/home/iamcms(HDD)目录下读写速度奇慢,而node02在/home/iamcms(HDD)目录下速度正常,node02在/root (SDD)目录下读写速度与/home/iamcms(HDD)基本相近。

以下速度分别为node01@/home/iamcms  node02@/home/iamcms node02@root

(, 下载次数 Times of downloads: 36)










作者
Author:
seabiscuit    时间: 2020-6-1 12:40
shalene 发表于 2020-6-1 12:00
我也是新手。前几天淘宝买的山寨内存坏了一根,然后就各种慢,现象和你描述的非常类似

这样啊,请问你们是通过怎样的测试排查到这个问题的?是坏了一根?换掉就OK了?
作者
Author:
biogon    时间: 2020-6-1 13:34
seabiscuit 发表于 2020-6-1 12:37
是的,这次这个西数的硬盘测试速度真的不给力,不知道为什么,我用下面的命令做了测试

sysbench --tes ...

这个该不会是板子有问题吧
作者
Author:
shalene    时间: 2020-6-2 09:42
seabiscuit 发表于 2020-6-1 12:40
这样啊,请问你们是通过怎样的测试排查到这个问题的?是坏了一根?换掉就OK了?

重启,发现内存容量小了。换掉就行了
作者
Author:
abin    时间: 2020-6-2 09:49
听了半天,感觉像是买了一辆泡水车,
市区代步还凑合,上了高速就歇菜了。

这种事情真闹心啊。
本地能上门解决就好了, 要不然这种扯皮的事情,太浪费精力了。
作者
Author:
seabiscuit    时间: 2020-6-2 10:06
abin 发表于 2020-6-2 09:49
听了半天,感觉像是买了一辆泡水车,
市区代步还凑合,上了高速就歇菜了。

是啊,还好当时是找的本地的供应商拿的货,尾款还没有付,人家为了这尾款肯定也是会积极处理,不过也是感觉很闹心了。
作者
Author:
dingniu2    时间: 2020-6-2 23:36
abin 发表于 2020-5-31 23:53
修改参数,再次测试。

-c 112 -i 112 -m 112

你好,请问加入想测试服务器共有96G内存,用这个命令如何侧满96G,是stress -c 112 -i 112 -m 112 --vm-bytes 96G -t 1h吗?谢谢!
作者
Author:
abin    时间: 2020-6-2 23:50
本帖最后由 abin 于 2020-6-2 23:52 编辑
dingniu2 发表于 2020-6-2 23:36
你好,请问加入想测试服务器共有96G内存,用这个命令如何侧满96G,是stress -c 112 -i 112 -m 112 --vm-b ...

你自己理解一下:
       -m, --vm N
              spawn N workers spinning on malloc()/free()

       --vm-bytes B
              malloc B bytes per vm worker (default is 256MB)

man stress for more info.

作者
Author:
dingniu2    时间: 2020-6-3 00:10
abin 发表于 2020-6-2 23:50
你自己理解一下:
       -m, --vm N
              spawn N workers spinning on malloc()/free()

感谢,已理解。




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3