计算化学公社

标题: CPU调用情况似乎有异常——Intel Scalable Silver 4114 初测——现已真相大白 [打印本页]

作者
Author:
dreamyeye    时间: 2018-12-19 21:37
标题: CPU调用情况似乎有异常——Intel Scalable Silver 4114 初测——现已真相大白
本帖最后由 dreamyeye 于 2018-12-27 21:52 编辑

新入手一台Intel Scalable Silver 4114*2(10C20T, 2.2GHz),其余配置是镁光DDR4 2666MHz(由于CPU不支持这么高,实际运行是2400MHz)16G*4, 4T企业级机械硬盘 系统为CentOS 7.5
虽然配置属于比较低端的,但是也是Scalable系列首次尝试,入手后,抓紧评测

首先想到的例子就是经典的test0397,20核开动起来,算呀!结果发现在L101,L202,L301这些以前都是秒过的link,居然都要停很长一段时间,感觉有所不正常,于是想比较一番,手头也有同是2.2GHz的上一代旗舰产品E5 2699V4(22C44T,2.2Ghz)(系统是CentOS 7.4),于是乎,也算了一个,结果见帖子的最后的图和log文件,调用资源都为:%nproc=20,%mem=50gb

比较一番,发现:
1.Silver 4114在一些应该秒过的link(101,202,301等等)都停留时间巨长,大约都是30s左右,实际观察一下,在经过这些link的时候CPU占用率都是100%,也就是调用单核,只有L502和L703时,CPU占用 率才达到1900%-2000%之间,这应该也是其实际用时(10 min 54 s)和Elapsed time(3 min 53.2 s)差别巨大的原因吧,因此我怀疑这个CPU的调用有问题

2.E5 2699V4的实际用时(3 min 27 s)和 Elapsed time(3 min 25.2 s)差不多,也就是说,在整个计算期间,所有的核都是基本被全部调用的,实际上,计算的时候,CPU占用率一直是1900%-2000%

3.计算的时候的CPU频率,虽然二者的基频都是2.2GHz,但是E5 2699V4在计算时候,有睿频加成,实际的频率大概在2.6-2.8GHz左右,而Silver 4114只有极个别的Link(L502,L703,经其他测试,L1002也可以)频率能够接近2.2GHz,其余的Link,除了一个核之外,其他的都停留在最低的0.8GHz,这与查到的也不相符(10 Core Normal 2.5GHz, AVX2 2.2GHz,参考文献:https://en.wikichip.org/wiki/intel/xeon_silver/4114,这里也发现,E5-2699V4对不同的指令集,睿频机制没有差别,10Core都是是2.8GHz,参考文献:https://en.wikichip.org/wiki/intel/xeon_e5/e5-2699_v4),因此二者虽然基频相同,但是实际运行的频率是不同的,因此Elapsed time还是有差别的(Silver 4114  3 min 53.2 s   vs  E5 2699V4  3 min 25.2 s )

总的来说,这个结果让我很疑惑,Intel Scalable Silver 4114即使不更好,也不应该更差呀,特别是在实际计算当中的CPU并行调用情况,让我不解,不知各位大神有没有什么建议和评论。
这些天来,又经过多方排查,最终发现,可能是现在安装的系统CentOS 7.5的问题(具体是什么原因还未知),换了CentOS7.3,立马正常了。。。也就是说,CentOS7.5对于intel XEON Scalable系列有可能兼容性不好?不知道有没有其他的类似的情况,既然整好了,就放一波评测结果

Gaussian版本G16 B01, test0397.com

Silver 4114(4*16G内存) %nproc=20 %mem=50GB :3 min 47 s
E5-2699V4(4*32G内存) %nproc=20 %mem=50GB :3 min 27 s
E5-2699V4 (4*32G内存)%nproc=44 %mem=100GB:2 min 55 s
E5-2687WV4(4*32G内存) %nproc=20 %mem=50GB :3 min 20 s
E5-2687WV4(4*32G内存) %nproc=24 %mem=50GB :3 min 7s
E5-2687WV4(4*32G内存) %nproc=24 %mem=100GB :3 min 14s

E5-2667V4(4*16G内存) %nproc=16 %mem=50GB :3 min 44 s

发现Silver 4114和E5V4的一些中高端的CPU相比,似乎不弱了,不过手中的E5V4都是没有插满8条的,可能发挥会有折扣吧,总感觉手头的这些E5V4没有充分发挥性能。









作者
Author:
Tanya    时间: 2018-12-20 08:11
肯定有点问题了,你用了什么主板?
另外,你只装了4根内存,每个CPU两根?根据我的测试,内存带宽还是会有影响的。不过也不会差到这个程度。

Elapsed time和实际用时差这么多?感觉是硬件有问题了。

你关掉超线程了么?

另外,你在BIOS里面选择Default optimization试试(如果有这项的话)
作者
Author:
dreamyeye    时间: 2018-12-20 09:12
本帖最后由 dreamyeye 于 2018-12-20 09:13 编辑
Tanya 发表于 2018-12-20 08:11
肯定有点问题了,你用了什么主板?
另外,你只装了4根内存,每个CPU两根?根据我的测试,内存带宽还是会有 ...
超线程是打开的,内存是4*16,每个CPU2条
作者
Author:
一颗赛艇    时间: 2018-12-20 10:34
本帖最后由 一颗赛艇 于 2018-12-20 10:37 编辑

内存有瓶颈也不至于这样,NUMA开了吗,CPU是不是ES,系统节能怎么设置的

你系统怎么配置的基本什么也没说
作者
Author:
dreamyeye    时间: 2018-12-20 12:35
一颗赛艇 发表于 2018-12-20 10:34
内存有瓶颈也不至于这样,NUMA开了吗,CPU是不是ES,系统节能怎么设置的

你系统怎么配置的基本什么也没 ...

您说的这些配置我都没有设置过,目前也不清楚在哪里查看,是否可以给一点提示?CPU不是ES版。
作者
Author:
Tanya    时间: 2018-12-20 15:36
dreamyeye 发表于 2018-12-20 12:35
您说的这些配置我都没有设置过,目前也不清楚在哪里查看,是否可以给一点提示?CPU不是ES版。

在BIOS 内设置,大部分主板都是在开机的时候有提示如何进入BIOS, 以按del键或者F1键进入的居多。进去看看吧,不会弄的话就选Default Optimization,或者Default也行,最好关掉超线程。
作者
Author:
jessenju    时间: 2018-12-21 09:44
是不是还是由于4114性能差啊,我看天梯图上4114排名比2699 V4差100多,跑分差几乎一半
作者
Author:
dreamyeye    时间: 2018-12-21 11:16
jessenju 发表于 2018-12-21 09:44
是不是还是由于4114性能差啊,我看天梯图上4114排名比2699 V4差100多,跑分差几乎一半

天梯上的2699V4评测应该是在22核(满核)下测的,我这个都是在核数相同的情况下比较的
作者
Author:
jessenju    时间: 2018-12-21 16:07
dreamyeye 发表于 2018-12-21 11:16
天梯上的2699V4评测应该是在22核(满核)下测的,我这个都是在核数相同的情况下比较的

原来是这样,明白了
作者
Author:
qchem    时间: 2018-12-23 20:10
你这个银牌怎么和2699V4比呀,金牌都比不过的
作者
Author:
dreamyeye    时间: 2018-12-23 20:39
qchem 发表于 2018-12-23 20:10
你这个银牌怎么和2699V4比呀,金牌都比不过的

是在同核心数的情况下比的,比如银牌4114有20个核,而2699也用20个核,用来比较是因为两款CPU的基频相同,都是2.2GHz。手头也有比2699V4低的CPU,但是基频都更高,等我也比较一下,把结果放上来。
作者
Author:
asdf    时间: 2018-12-24 17:25
双路6161测出来1m52.130s
作者
Author:
dreamyeye    时间: 2018-12-24 19:41
asdf 发表于 2018-12-24 17:25
双路6161测出来1m52.130s

6161是多少核啊?实际计算的时候调用了多少核核内存?
作者
Author:
asdf    时间: 2018-12-24 22:44
dreamyeye 发表于 2018-12-24 19:41
6161是多少核啊?实际计算的时候调用了多少核核内存?

22核,我没注意呢,明天再测看一下。
作者
Author:
qchem    时间: 2018-12-26 21:20
dreamyeye 发表于 2018-12-23 20:39
是在同核心数的情况下比的,比如银牌4114有20个核,而2699也用20个核,用来比较是因为两款CPU的基频相同 ...

赛扬时代就比较过,同样的主频,赛扬是没有奔腾快的。L2 cache起作用的
现在Intel各种牌之间肯定是有不小差异的
作者
Author:
dreamyeye    时间: 2018-12-26 21:48
本帖最后由 dreamyeye 于 2018-12-26 21:50 编辑
qchem 发表于 2018-12-26 21:20
赛扬时代就比较过,同样的主频,赛扬是没有奔腾快的。L2 cache起作用的
现在Intel各种牌之间肯定是有不 ...

其实这几天我又做了几波测试,包括和供货商沟通,让他们用4116也在同核数下测了一波,4116的各项数据就和2699比较接近,除了l502和l703基本都是秒过,而且测试还发现,对于当前的4114,随着内存从10G——20G——30G——40G——50G,计算是明显地越来越慢了,所以肯定还是有问题,还在进一步排查原因中


作者
Author:
dreamyeye    时间: 2018-12-27 18:50
这些天来,又经过多方排查,最终发现,可能是现在安装的系统CentOS 7.5的问题(具体是什么原因还未知),换了CentOS7.3,立马正常了。。。也就是说,CentOS7.5对于intel XEON Scalable系列有可能兼容性不好?不知道有没有其他的类似的情况。一楼有具体的评测。
作者
Author:
Tanya    时间: 2018-12-27 23:36
本帖最后由 Tanya 于 2018-12-27 23:42 编辑

还有这事!?幸好我偷懒, 装的就是CentOS 7.3。因为手头有一张以前刻录的7.3。装好后都没在线升级


作者
Author:
sobereva    时间: 2018-12-28 01:49
dreamyeye 发表于 2018-12-27 18:50
这些天来,又经过多方排查,最终发现,可能是现在安装的系统CentOS 7.5的问题(具体是什么原因还未知),换 ...

可以试试CentOS 7.6
作者
Author:
highlight    时间: 2018-12-28 11:06
本帖最后由 highlight 于 2018-12-28 11:24 编辑

https://serverfault.com/question ... -and-other-newer-cp
监控一下不同系统版本的频率,会不会是kernel的问题呢?
作者
Author:
dreamyeye    时间: 2018-12-28 11:54
highlight 发表于 2018-12-28 11:06
https://serverfault.com/question ... -and-other-newer-cp
监控一下不同系统版本的频率,会不会是kernel ...

现在已经更换了CentOS 7.3,之前CentOS 7.5的时候除了l502和l703,其他的那些link只有一个核达到基频,其他的只是停留在最小频率
作者
Author:
jessenju    时间: 2018-12-28 13:11
期待lz测试7.6的情况,感觉挺奇怪,为什么和操作系统有关系。
作者
Author:
qchem    时间: 2018-12-29 17:16
dreamyeye 发表于 2018-12-27 18:50
这些天来,又经过多方排查,最终发现,可能是现在安装的系统CentOS 7.5的问题(具体是什么原因还未知),换 ...

我的是Gold 6149 CPU
用你的设置测了一下,link101这些都是秒过的
总的时间是2 minutes 41.3 seconds

我的系统是CentOS 7.5
我现在就是感觉网络有问题,会卡

作者
Author:
dreamyeye    时间: 2018-12-29 20:01
qchem 发表于 2018-12-29 17:16
我的是Gold 6149 CPU
用你的设置测了一下,link101这些都是秒过的
总的时间是2 minutes 41.3 seconds

CentOS 7.3,101这些也都是秒过的,而且CPU耗时和实际耗时相差不超过1秒,感觉并行性更好了。




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3