计算化学公社

 找回密码 Forget password
 注册 Register
Views: 4868|回复 Reply: 4
打印 Print 上一主题 Last thread 下一主题 Next thread

[硬件评测] 【求助】可扩展系列处理器的架构效率测试

[复制链接 Copy URL]

6

帖子

0

威望

28

eV
积分
34

Level 2 能力者

跳转到指定楼层 Go to specific reply
楼主
各位老师好。最近我所在的组里可能要采购一批服务器做VASP计算,经过我的初步调研,有一个问题有困惑,希望已经用上可扩展系列处理器的老师能给解答。
问题概述:希望知道可扩展系列处理器的ipc效率(或称之为架构加成系数,定义见测试方法)比V4系列强多少,比V2系列又强多少(可选,主要用于和天河2租赁机时比较性价比)
问题来源:采购的时候需要计算V4处理器和可扩展处理器的性价比区别,因此需要先估算其实际软件性能,这不得不涉及到ipc效率的区别。因为如果ipc都一样,显然V4的处理器性价比更高,而如果可扩展处理器的ipc效率更高,则有可能可扩展处理器有更高的性价比。
测试方法:
现定义单个处理器的总性能估算如下:Performance per CPU=Cores*Full load frenquency*ipc coefficient 其中Cores是处理器的核心数,Fullload frenquency是处理器的满载睿频频率,ipc coefficientipc效率,现规定V3 V4系统的ipc效率系数为1 测试软件最好使用VASP需要注意的是,VASP需要在编译的时候加入-xCORE-AVX512 来启用AVX-512指令集优化,不然将得到与V4接近的ipc效率。编译可参考帖子(http://bbs.keinsci.com/thread-5743-1-1.html, 为了减少软件并行损失的问题,希望都使用合理的npar值。测试使用相同的VASP版本跑相同的测试文件。设在可扩展处理器系统上下使用c1个核心跑的时间为t1,可扩展处理器系统的满载频率为f1;在V4系统上使用c2个核心跑的时间为t2V4系统的满载频率为f2.则可扩展处理器的ipc系数为 (t2*f2*c2)/(t1*f1*c1)V2系统的对比同理。
附:
Ipc效率差别的来源:主要有两方面,其一是不同代的cpu的微架构的区别,导致轻微的效率差距,其二是新的指令集的引入使得ipc效率发生很大变化,例如V1  V2 系列的CPU只有AVX指令集, V3 V4系列的CPUAVX2指令集 ,而可扩展处理器则有AVX-512指令集。这三者在执行可矢量化的密集型浮点运算的时候理论性能是依次翻倍的。论坛里(http://bbs.keinsci.com/thread-9855-1-1.html 有不少人说ipc效率和V4的一样,这可能来源于他们并没有打开AVX-512的编译优化,而有一位老师(id五十八)则提到使用AVX-512正确编译的VASPipc效率可以相比于V4系统有大幅提升,根据他给出的信息,其一,四路6140系统是双路2697v3系统的6倍,则可以计算出ipc效率系数为2.26(算法参考上面公式),这里面定义V3 V4系统的ipc效率倍率为1.0。其二,单路6140轻松干掉双路2697v3,则可以估算ipc效率系数为1.5. 因为id五十八老师给出的信息比较笼统,因此只能估算出ipc系数正确编译之后应该大于1.5,但是具体是多少还需要详细的测试。@五十八
另,如果不得不使用Gaussian测试,可能直接拿到的二进制发行版并没有AVX-512优化,需要拿到源码加入-xCORE-AVX512重新编译才能正确发挥可扩展处理器系统的能力。
希望各位老师能不吝赐教,能给出一个AVX-512编译后的VASP的ipc效率系数,这样也可以给买了至强可扩展处理器的其他老师一些帮助。谢谢。

353

帖子

0

威望

2029

eV
积分
2382

Level 5 (御坂)

真 掘墓者

2#
发表于 Post on 2018-6-12 11:20:23 | 只看该作者 Only view this author
闲的蛋疼
圣诞刨坟忙

6

帖子

0

威望

28

eV
积分
34

Level 2 能力者

3#
 楼主 Author| 发表于 Post on 2018-6-12 18:03:06 | 只看该作者 Only view this author

为何? 测试可扩展处理器的架构加成系数难道没意义?

13

帖子

0

威望

231

eV
积分
244

Level 3 能力者

4#
发表于 Post on 2018-6-17 22:38:27 | 只看该作者 Only view this author
你这个测试没太多意义
首先要确认软件对AVX512指令集有没有特殊优化,用同一个编译版本的软件来比较其运行效率有可能不能得到架构效率的直接比较,不同软件给出的效率提升也并不相同。AVX、AVX2、AVX512指令集对浮点运算的速率并不是简单的依次翻倍关系,具体可以去看看intel的技术文档
其次不同代cpu,支持的内存频率、延迟,以及UPI/QPI带宽等等也不一样,不能简单比较效率
再次就算是同一款cpu,普通满载频率,AVX2满载频率和AVX512满载频率都是不一样的,而且这个似乎intel没有给出官方的值
这些问题的存在,就决定了不能简单定义ipc来衡量新架构效率提升

评分 Rate

参与人数
Participants 1
eV +1 收起 理由
Reason
sobereva + 1

查看全部评分 View all ratings

6

帖子

0

威望

28

eV
积分
34

Level 2 能力者

5#
 楼主 Author| 发表于 Post on 2018-6-18 13:44:58 | 只看该作者 Only view this author
binarec 发表于 2018-6-17 22:38
你这个测试没太多意义
首先要确认软件对AVX512指令集有没有特殊优化,用同一个编译版本的软件来比较其运行 ...

ok,既然都觉得没必要那就不测了。。

(其实是我发现GPU更有性价比)。。

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-27 05:00 , Processed in 0.165942 second(s), 22 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list