计算化学公社

 找回密码 Forget password
 注册 Register
Views: 26816|回复 Reply: 8
打印 Print 上一主题 Last thread 下一主题 Next thread

[硬件] 简谈CPU峰值性能怎么计算

[复制链接 Copy URL]

5万

帖子

99

威望

5万

eV
积分
112353

管理员

公社社长

跳转到指定楼层 Go to specific reply
楼主
简谈CPU峰值性能怎么计算
A brief discussion on how to calculate CPU peak performance

文/Sobereva @北京科音  2015-Feb-13


CPU峰值性能就是CPU运算能力满打满算最最理想情况下的性能,这只有理论意义,实际性能要以软件实测为准。有人问寡人峰值性能怎么算,这里就很简单地说两句。搞计算化学的一般只关注浮点性能,所以这里只提峰值浮点性能。

峰值浮点性能=CPU核数*CPU频率*每周期执行的浮点操作数

时下普通的CPU的单精度(SP)浮点性能是双精度(DP)浮点性能的两倍。目前常见的几类CPU内核的每周期浮点操作数以及细节如下(引自网络,见http://stackoverflow.com/questions/15655835/flops-per-cycle-for-sandy-bridge-and-haswell-sse2-avx-avx2

Intel Core 2 and Nehalem:
4 DP FLOPs/cycle: 2-wide SSE2 addition + 2-wide SSE2 multiplication
8 SP FLOPs/cycle: 4-wide SSE addition + 4-wide SSE multiplication

Intel Sandy Bridge/Ivy Bridge:
8 DP FLOPs/cycle: 4-wide AVX addition + 4-wide AVX multiplication
16 SP FLOPs/cycle: 8-wide AVX addition + 8-wide AVX multiplication

Intel Haswell:
16 DP FLOPs/cycle: two 4-wide FMA (fused multiply-add) instructions
32 SP FLOPs/cycle: two 8-wide FMA (fused multiply-add) instructions

AMD K10:
4 DP FLOPs/cycle: 2-wide SSE2 addition + 2-wide SSE2 multiplication
8 SP FLOPs/cycle: 4-wide SSE addition + 4-wide SSE multiplication

AMD Bulldozer/Piledriver/Steamroller, per module (two cores):
8 DP FLOPs/cycle: 4-wide FMA
16 SP FLOPs/cycle: 8-wide FMA


时下搞计算化学的人最常用的XEON E3/E5中,v3对应Haswell,v2对应Ivy Bridge,不带后缀的对应Sandy Bridge。更老的,比如XEON 5500系列对应Nehalem。如果不清楚,建议查阅笔者编纂的《硬件资料库》(http://pan.baidu.com/s/1hq7PLeG

根据这些资料,可以容易地计算峰值浮点性能,比如E5-2690 v2,基本频率为3.0GHz(这里不考虑Turbo boost动态升频),有10个核,每个核每周期可以做8次双精度浮点运算或16次单精度浮点运算,因此:
单精度峰值浮点性能=3.0*10*16=480 GFLOPs
双精度峰值浮点性能=3.0*10*8=240 GFLOPs

这里FLOPs (FLoating-point Operations Per Second)是衡量浮点性能的常用单位,即每秒做的浮点运算次数。1GFLOPs代表每秒十亿次浮点运算。目前世界顶尖的高性能计算机(HPC)的浮点性能都以PFLOPs来计,1P=1000T=1000000G。


从上面列的数据中看似XEON v3 (Haswell)比v2的浮点性能高一倍,这被一些商家用来忽悠消费者。实际上,同频同核下,v3比v2性能提升很小。如果v3价格只比v2贵一点,那么可以买v3,但如果贵得很多,切勿被表面上看多一倍的峰值性能所冲昏了头脑。适当了解下不同内核以及指令集的特点对理解这个问题是有益的。为了方便,这里我们只考虑双精度浮点。

第一代奔腾支持的MMX、奔3开始支持的SSE(最后发展到SSE4/4A),以及从Sandy Bridge开始支持的AVX等等都是SIMD(单指令多数据)指令集,它允许一个指令同时对多个数据进行处理以达到很大的吞吐量。Sandy Bridge/Ivy Bridge支持的AVX指令集可以一次处理256bit浮点指令,双精度浮点数长度为64bit,即通过AVX指令一次可以做四个双精度浮点运算。如前面给出的信息所示,Sandy Bridge/Ivy Bridge一个周期可以执行一次AVX浮点乘和一次AVX浮点加,也就是说一个周期可以做四个双精度浮点加和四个双精度浮点乘,故曰每周期可以做8个双精度浮点运算。这只是理论最大值,实际上水分很大,因为前提是必须所处理的完全是AVX 256bit指令,但实际中是做不到的,能利用上AVX指令集的只是实际计算程序中的某些部分而已(这需要编译器和操作系统的支持。如果写的时候专为AVX来调整代码编写方式可以更好地利用AVX来达到更好的性能)。另外,不可能总是恰好要算的是一条加法指令和一条乘法指令,比如传来的只有一串浮点加指令,那么乘法运算单元就空闲了,浮点性能也就浪费了一半。所以,虽然我们从前面列的数据中看到Sandy Bridge/Ivy Bridge得益于AVX而比Nehalem每周期能做的浮点运算次数高一倍,但这只是最理想的状况而已,而且这和实际表现出来的性能不是那么的密切。一般应用中前者比后者在同频同核数情况下性能高近一半,这主要还是因为CPU架构做了多方面改进带来的,具体说起来就比较复杂了,这里就不提了。可以说,如果所运行的程序对AVX优化较好,Sandy Bridge/Ivy Bridge表现的性能比Nehalem提升得会更多。

再来看XEON v3和v2的关系。Haswell相比Sandy Bridge/Ivy Bridge的一个主要改进是支持了AVX 2.0指令集,相比AVX有了一些改进,其中很关键的是支持了FMA3指令,这里FMA是Fused Multiply-Add(融合乘加)的缩写,FMA3是一种具体实现。原本,做result=a+(b*c)需要先做一次乘法再做一次加法,而利用FMA指令可以在一个周期内做完这个运算,所以可以认为做一次FMA运算等于做两次常规浮点运算。如前面列出的信息所示,Haswell的每个内核一个周期可以处理两个FMA指令,每条指令包含4个双精度浮点,一次FMA浮点运算又能当两次普通浮点运算来计,因此每个核每周期内满打满算可以做2*4*2=16次双精度浮点操作。由于支持了FMA,表面上看XEON v3比v2浮点性能高了一倍,但这种说法实际上水分巨大:哪可能要做的总是乘加运算?比如传来的就是一条AVX浮点乘指令,此时v3虽然支持FMA却也派不上用场,v3和v2都需要一个周期来完成,即表现出的性能相等。所以说,如果有人说v3比v2性能提升一倍那纯粹是天方夜谭,除非跑的是专门炫耀Haswell的程序,里面的运算全都是乘加。根据实际测试来看,Haswell跑现有的程序也就比Ivy Bridge性能高不到10%,但这很难说是支持FMA的功劳。以后的程序可能会有一些针对FMA专门进行优化,或在编译时使用相应的优化选项(如ifort里用-fma)而使v3有更好的性能,但不要抱太高期待。所以前面提到,买服务器时如果v3比v2贵一点可接受,但贵得太多就算了。


再来说说为什么如今AMD CPU的浮点性能为什么如此之烂。从推土机架构开始,即前面列的Bulldozer/Piledriver/Steamroller这一类,AMD就用了很糟糕的设计,两个核心作为一个模块,共用一个浮点单元,一个周期只能处理一次256bit FMA指令,而Haswell一个核就能同时处理两条256bit FMA指令,也就是说,论峰值浮点性能,现今AMD的U四个核才顶Haswell一个核。不过实际没这么夸张,抛开那些很虚的峰值性能数据,要达到如今XEON v2或v3的N个核的实际性能,同频情况下,如今的Opteron必须要用>2N个核。如果程序的并行效率很低,那么Opteron实际效能简直惨不忍睹,不管怎么算都远不如XEON划得来。所以说,如今做计算化学买AMD的U只有后悔的份。AMD的U的核数比较坑人,N个核才有N/2个浮点单元(想来,当年AMD还无耻地说Intel的Pentium D是胶水粘的,有点自己打脸的意味),但是整数性能还说得过去,整数单元和核数是相同的,但搞计算化学的人才不稀罕整数性能呢。


最后再说一下GPU。从峰值性能上看,GPU比起CPU弱点在于频率低,不支持SIMD,但它的浮点性能之所以胜于CPU在于流处理器数目多。以nVidia的高端的GTX Titan black为例,基础频率是0.889GHz,有2880个单精度浮点单元和960个双精度浮点单元,每个浮点单元每周期能做一次FMA指令,因此
单精度峰值浮点性能:0.889*2880*2=5120GFLOPs
双精度峰值浮点性能:0.889*960*2=1707GFLOPs

可见GTX Titan black峰值性能比前面举的E5-2690 v2的例子高了约一个数量级,但这水分太大,显然不能因为FMA就当成实际中有两倍处理能力,所以公平来说双精度浮点性能前者是后者4、5倍的样子。GPU的单精度浮点性能的确很好,性价比远胜于CPU,但一定要注意大多数消费级GPU的双精度性能其实不咋地。GTX Titan black价格比起同样流处理数目的GTX 780Ti贵出一倍,在我来看贵的主要道理不是因为它是烧包级,而是双精度性能能达到单精度的1/3,而这个比例对于GTX 780Ti仅为1/24!GTX 780Ti的基准频率为0.876GHz,单精度性能和GTX Titan black基本无异,但双精度峰值性能才区区210GFLOPs而已,要不把FMA满打满算记入峰值性能计算公式,那么还明显不如E5-2690 v2呢。

PS:这篇文章观点有点意思,大家不妨看看《GPU运算即将退潮 CPU浮点性能革命》(http://www.cgan.net/cganself/founder/?p=2681
北京科音自然科学研究中心http://www.keinsci.com)致力于计算化学的发展和传播,长期开办高质量的各种计算化学类培训:初级量子化学培训班中级量子化学培训班高级量子化学培训班量子化学波函数分析与Multiwfn程序培训班分子动力学与GROMACS培训班CP2K第一性原理计算培训班,内容介绍以及往届资料购买请点击相应链接查看。这些培训是计算化学从零快速入门以及进一步全面系统性提升研究水平的高速路!培训各种常见问题见《北京科音办的培训班FAQ》
欢迎加入“北京科音”微信公众号获取北京科音培训的最新消息、避免错过网上有价值的计算化学文章!
欢迎加入人气非常高、专业性特别强的综合性理论与计算化学交流QQ群“思想家公社QQ群”:1号:18616395,2号:466017436,3号:764390338,搜索群号能搜到哪个说明目前哪个能加,合计9000人。北京科音培训班的学员在群中可申请VIP头衔,提问将得到群主Sobereva的最优先解答。
思想家公社的门口Blog:http://sobereva.com(发布大量原创计算化学相关博文)
Multiwfn主页:http://sobereva.com/multiwfn(十分强大的量子化学波函数分析程序)
ResearchGate:https://www.researchgate.net/profile/Tian_Lu
Money and papers are rubbish, get a real life!

148

帖子

0

威望

1063

eV
积分
1211

Level 4 (黑子)

9#
发表于 Post on 2015-3-17 22:20:22 | 只看该作者 Only view this author
sobereva 发表于 2015-3-17 22:02
和XEON一样,AMD的所有服务器产品都是Opteron。架构不断在改,但这个系列的名称是一直不变的。
2431是Is ...

啊。这个太有用了,非常感谢!

5万

帖子

99

威望

5万

eV
积分
112353

管理员

公社社长

8#
 楼主 Author| 发表于 Post on 2015-3-17 22:02:12 | 只看该作者 Only view this author
ChaosChiao 发表于 2015-3-17 16:05
AMD的架构感觉很混乱啊,我们服务器10年买的是AMD的Opteron(tm) 2431 6cores/2.4G 的CPU,我想计算一下浮点 ...

和XEON一样,AMD的所有服务器产品都是Opteron。架构不断在改,但这个系列的名称是一直不变的。
2431是Istanbul核心的,K10架构。名称和内核对应关系可以查文中提到的《硬件资料库》,更详细的可以查www.cpu-world.com
北京科音自然科学研究中心http://www.keinsci.com)致力于计算化学的发展和传播,长期开办高质量的各种计算化学类培训:初级量子化学培训班中级量子化学培训班高级量子化学培训班量子化学波函数分析与Multiwfn程序培训班分子动力学与GROMACS培训班CP2K第一性原理计算培训班,内容介绍以及往届资料购买请点击相应链接查看。这些培训是计算化学从零快速入门以及进一步全面系统性提升研究水平的高速路!培训各种常见问题见《北京科音办的培训班FAQ》
欢迎加入“北京科音”微信公众号获取北京科音培训的最新消息、避免错过网上有价值的计算化学文章!
欢迎加入人气非常高、专业性特别强的综合性理论与计算化学交流QQ群“思想家公社QQ群”:1号:18616395,2号:466017436,3号:764390338,搜索群号能搜到哪个说明目前哪个能加,合计9000人。北京科音培训班的学员在群中可申请VIP头衔,提问将得到群主Sobereva的最优先解答。
思想家公社的门口Blog:http://sobereva.com(发布大量原创计算化学相关博文)
Multiwfn主页:http://sobereva.com/multiwfn(十分强大的量子化学波函数分析程序)
ResearchGate:https://www.researchgate.net/profile/Tian_Lu
Money and papers are rubbish, get a real life!

148

帖子

0

威望

1063

eV
积分
1211

Level 4 (黑子)

7#
发表于 Post on 2015-3-17 16:05:20 | 只看该作者 Only view this author
AMD的架构感觉很混乱啊,我们服务器10年买的是AMD的Opteron(tm) 2431 6cores/2.4G 的CPU,我想计算一下浮点,查不到是属于什么架构的。怎么感觉AMD的每个架构都有Opteron系列产品。

125

帖子

1

威望

1047

eV
积分
1192

Level 4 (黑子)

6#
发表于 Post on 2015-2-16 15:50:06 | 只看该作者 Only view this author
新人学习!!

5万

帖子

99

威望

5万

eV
积分
112353

管理员

公社社长

5#
 楼主 Author| 发表于 Post on 2015-2-13 10:43:27 | 只看该作者 Only view this author
ChaosChiao 发表于 2015-2-13 08:57
受教了,我看网上其他说浮点计算的还考虑了每个核的浮点单元数目,要把这个也乘进去,跟这里的 “峰值浮点 ...

这已经考虑在了"每周期执行的浮点操作数"里面。比如列出的资料中写two 8-wide FMA (fused multiply-add) instructions就可以当成是两个FMA浮点单元。
北京科音自然科学研究中心http://www.keinsci.com)致力于计算化学的发展和传播,长期开办高质量的各种计算化学类培训:初级量子化学培训班中级量子化学培训班高级量子化学培训班量子化学波函数分析与Multiwfn程序培训班分子动力学与GROMACS培训班CP2K第一性原理计算培训班,内容介绍以及往届资料购买请点击相应链接查看。这些培训是计算化学从零快速入门以及进一步全面系统性提升研究水平的高速路!培训各种常见问题见《北京科音办的培训班FAQ》
欢迎加入“北京科音”微信公众号获取北京科音培训的最新消息、避免错过网上有价值的计算化学文章!
欢迎加入人气非常高、专业性特别强的综合性理论与计算化学交流QQ群“思想家公社QQ群”:1号:18616395,2号:466017436,3号:764390338,搜索群号能搜到哪个说明目前哪个能加,合计9000人。北京科音培训班的学员在群中可申请VIP头衔,提问将得到群主Sobereva的最优先解答。
思想家公社的门口Blog:http://sobereva.com(发布大量原创计算化学相关博文)
Multiwfn主页:http://sobereva.com/multiwfn(十分强大的量子化学波函数分析程序)
ResearchGate:https://www.researchgate.net/profile/Tian_Lu
Money and papers are rubbish, get a real life!

5万

帖子

99

威望

5万

eV
积分
112353

管理员

公社社长

4#
 楼主 Author| 发表于 Post on 2015-2-13 10:41:52 | 只看该作者 Only view this author
ChemiAndy 发表于 2015-2-13 04:40
学习了。话说社长不是该自称“哀家”或者“本宫”么?

这是sobereva(3)写的,称寡人,哀家适用另外的Sobereva
北京科音自然科学研究中心http://www.keinsci.com)致力于计算化学的发展和传播,长期开办高质量的各种计算化学类培训:初级量子化学培训班中级量子化学培训班高级量子化学培训班量子化学波函数分析与Multiwfn程序培训班分子动力学与GROMACS培训班CP2K第一性原理计算培训班,内容介绍以及往届资料购买请点击相应链接查看。这些培训是计算化学从零快速入门以及进一步全面系统性提升研究水平的高速路!培训各种常见问题见《北京科音办的培训班FAQ》
欢迎加入“北京科音”微信公众号获取北京科音培训的最新消息、避免错过网上有价值的计算化学文章!
欢迎加入人气非常高、专业性特别强的综合性理论与计算化学交流QQ群“思想家公社QQ群”:1号:18616395,2号:466017436,3号:764390338,搜索群号能搜到哪个说明目前哪个能加,合计9000人。北京科音培训班的学员在群中可申请VIP头衔,提问将得到群主Sobereva的最优先解答。
思想家公社的门口Blog:http://sobereva.com(发布大量原创计算化学相关博文)
Multiwfn主页:http://sobereva.com/multiwfn(十分强大的量子化学波函数分析程序)
ResearchGate:https://www.researchgate.net/profile/Tian_Lu
Money and papers are rubbish, get a real life!

148

帖子

0

威望

1063

eV
积分
1211

Level 4 (黑子)

3#
发表于 Post on 2015-2-13 08:57:46 | 只看该作者 Only view this author
受教了,我看网上其他说浮点计算的还考虑了每个核的浮点单元数目,要把这个也乘进去,跟这里的 “峰值浮点性能=CPU核数*CPU频率*每周期执行的浮点操作数” 有什么不一样吗?

83

帖子

3

威望

1445

eV
积分
1588

Level 5 (御坂)

2#
发表于 Post on 2015-2-13 04:40:24 | 只看该作者 Only view this author
学习了。话说社长不是该自称“哀家”或者“本宫”么?

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 18:35 , Processed in 0.181664 second(s), 22 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list