计算化学公社

标题: 为什么不要用AMD的CPU做量子化学计算? [打印本页]

作者
Author:
yjcmwgk    时间: 2016-11-24 12:10
标题: 为什么不要用AMD的CPU做量子化学计算?
本帖最后由 yjcmwgk 于 2016-12-12 15:33 编辑

今天打开qq,有人问我买机器的事儿。他觉得AMD标称主频那么高,核心也多,价钱便宜,所以想拿来组个服务器玩儿。
其实sob君早就告诫过大家,做量化计算千万别选AMD。

突然想起个老笑话:
AMD:我屮艸芔茻,这一行儿怎么这么难混?!我要破产!!
INTEL:堂弟你说啥?破产?别发疯!我这儿有十个亿,你先拿去用,不够了再找哥要!
NVIDIA:妹夫,你又咋啦?你可千万别破产。这是五亿,拿着花!再花完了,还跟姐说啊!
在处理器市场,AMD最辉煌那几年,曾经十分天下有三四。那时候INTEL可没现在这么“好心”,两大厂商竞争滴你死我活。现在INTEL一家独大遥遥领先,倒是生怕把AMD拖死,防止出现彻底垄断被调查的窘境。ATI刚过门儿哪会儿,AMD掏了五billion美刀的彩礼钱。AMD当初市值应该在20个billion以上,ATI当时市值4个billion。然而现在AMD+ATI一共才2个billion。而且因为迎娶ATI,AMD与NVIDIA彻底化友为敌。这么看AMD+ATI是极度失败的。当然到了现在,NVIDIA大大超越AMD+ATI了,倒是转换心态,跟INTEL一样,也怕把AMD拖死,时不时地救济一下。
AMD不得不在CPU和GPU两条线上分别与本领域TOP1的强敌竞争。这无形中拉近了Intel和NVIDIA的关系,AMD却不得不在两条线上疲于奔命。要知道Intel和NVIDIA的体量之和,比之AMD有数量级上的优势。这对于从研发经费和市场资源的层面本来就都不占优的AMD来说,无疑是更加捉襟见肘。这是造成今天AMD彻底陷入窘境的真正原因!
面对困境,AMD昏招迭出,居然卖掉了自己的晶圆厂给ATIC,从此AMD丧失了自主的晶圆制造能力。Intel一直保持自己的晶圆制造能力,而且不断的加大投资提升产能。同时,为了在制程上不受制于人,Intel携手台积电和三星,联手斥巨资控股ASML,从此三家分享ASML最新制程的光刻机,而给AMD等其他IT企业提供的光刻机制程则必须落后2代以上。按照Intel给出的资料,目前Intel在制程和工艺上远远领先其他对手至少2-3年。压力之下AMD再出昏招,只用了十七分之一个billion的美刀(你没看错,连一亿美元都不到)就把手持设备部门卖给了高通,之后就有了高通引以为豪的Adreno骁龙!去年,AMD又出价五分之二个billion卖掉了自己的芯片封装和测试部门。卖给了谁?中国企业通富微电。AMD这是要彻底变成只管设计不管制造的ARM第二嘛?!
其实如果做ARM第二也没啥不好的,你看人家ARM的小日子也是滋润的不要不要的,但是x86系列架构是INTEL和AMD共享的架构,两家公司之间有几万件排他性专利交叉授权协议。AMD怎么给别人授权又是个大问题!

AMD研发经费匮乏,制程落后,它凭什么与intel竞争?在CPU市场,AMD在高端领域彻底销声匿迹,中端领域市场占有率极低,低端领域也在苦苦支撑。然后AMD脑洞大开,剑走偏锋,推出了推土机系列(不愧是农企)!
AMD认为多数应用尤其服务器应用都是以整数运算为主,浮点运算的应用并不多,而且未来要发展异构计算的路线,浮点任务要交给显卡来做,所以决定在处理器的浮点单元上下手。于是砍下的第一刀就是浮点单元的规模,在酷睿的浮点运算单元发展到256bit*2的时候,推土机还在沿用老羿龙的128bit*2。但这样还不够,还要再砍一刀,搞个模块化,两个计算核心共享一个浮点运算单元。这样算下来AMD浮点运算总规模只有Intel的四分之一,八核推土机的浮点运算单元倒是跟双核酷睿差不多了。这对我们量子化学计算软件来说简直是灾难。小卒以前阐述过Gaussian09和DMol3糟糕的并行效率。无论Gaussian09还是DMol3,在双核并行情况下,并行效率都超过了95%,而八核并行效率分别只有50~60%和65~70%。也就是说,理论上用八核推土机的浮点运算单元跟双核酷睿差不多了,实践上我们还要遭受量子化学软件糟糕的并行效率的惩罚
这还没完,哪怕就是单核心能比拼,受限于推土机系列远比酷睿系列粗大的制程,实际上同样芯片面积内能堆进去的晶体管数量要少得多。AMD被迫在提升晶体管利用率上作文章。AMD通过增加流水线深度来拉高主频(这又造成了分支预测准确性的低下);堆上了巨大的二级缓存;猛堆解码器(然而这些解码器主要考虑对游戏的支持,尤其是对整数运算的支持,我们关注的浮点运算仍旧没有地位);从压路机到挖掘机不断增大的一级缓存等等。这些措施又导致了发热量的暴增。费了这么多劲,才勉勉强强的在挖掘机这一代终于在单线程的整数同频性能上追平了老羿龙。而此时酷睿的单核性能早已绝尘而去。同时,制程的落后,造成巨大的能耗和发热量。于是近几年兴起的轻薄型笔记本又把AMD甩到一边去了,真是吃啥都赶不上一口热的!

AMD也还是要继续求生,于是做了APU系列。AMD将中央处理器和独显核心做在一个晶片上,它同时具有中低端处理器和中低端独显的处理性能。我觉得这是AMD剑走偏锋的另一个举措。APU系列当然有缺点,第一,发热不可控(基本都是TDP在90~100瓦之间的东西,至少配个玄冰,保险起见配大霜塔)。这玩意儿的GPU部分还要在内存里存数据,稍大一些的数据量就会卡一卡。而且在内存普遍在DDR3或DDR4的情况下,怎么跟真正的独显(DDR5的显存)刚正面?APU系列基本也就是个办公专用系列了。

说了这么多,AMD的产品,我觉得咱们还是要支持。小卒的建议是,服务器用至强,高配PC用酷睿,普通PC就一定要选AMD!原因无他,让AMD活着!如果AMD死了,INTEL非涨价不可。君不见,至强系列高端产品,因为没有同级竞争者,一颗就卖几千美刀!所以,一定要让AMD活着,反正办公PC用AMD(尤其是APU)绰绰有余,价格还便宜,就是多掏点电费罢了。

大半年前,绝路中的AMD与天津海光达成协议,AMD提供X86授权,合资公司将利用该技术开发只在中国销售的芯片,而AMD可获得十分之三billion美刀的许可费和版税收入。虽然AMD在与Intel竞争中处于下风,但是它的技术拿到咱国家,对我们来说也是准天顶星技术。希望x86在中国发扬光大,就像alpha在中国诞生了申威(这个厉害了),mips在中国诞生了龙芯(这个很不行),ARM在中国诞生了麒麟(这个很不错),以我们中国人的智慧,说不定就真让x86在中国做大做强了呢。AMD(美籍华人)未竟的事业,就让我们真正的中国人来完成吧。(这一段太鸡汤,太主旋律了,捂脸)如果第一款x86芯片在中国上市,只要性能稍微过得去,哪怕价格稍微高一些呢,我也一定买一颗。(没买到兆芯是个遗憾)

普通电脑购机建议(2016年下半年有效)
  
项目
  
型号
京东价
为什么买它
  
处理器
  
A10-7890K
1099
这是当前AMD APU A10系列的顶级。CPU部分相当于中端i5或高端i3,GPU部分相当于中端的独显,这足够了。AMD简直就是穷人福音。
  
散热风扇
  
九州风神大霜塔
219
双扇,6管,专为高热APU/CPU而生。之所以采用这个风扇,纯粹是因为这颗处理器的TDP达到了骇人听闻的95瓦(都快赶上服务器了)。
  
主板
  
A88XM-PLUS
459
我自己攒的PC常年使用华硕主板,属于长期信任。这个板子被划归为“入门级游戏板”类型,所以折腾个办公电脑绰绰有余了吧。
  
内存
  
骇客神条DDR3 2133
409
金士顿是非常牛叉的内存条生产商。骇客神条是我攒PC常年使用的,也属于长期信任。优点是稳定,用料扎实,缺点当然是偏贵。之所以买两条4G的,而不是一条8G的,是因为这样买便宜些。
  
固态盘
  
东芝Q300-240G
599
这是个240G容量的盘子。分成三部分,C盘100G装系统和某些特殊应用;D盘50G-70G装常用软件;E盘60-80G装常用文件。
  
机械盘
  
西部数据WD10EZEX
349
西部数据的蓝盘,1TB,普通SATA盘,6Gb/s,7200转,缓存64M,总之就是个极为主流极为普通的硬盘。分三个盘,F盘200G装不常用软件,G盘300G装不常用文件包括软件的安装文件们,H盘400多G装杂七杂八,还剩下几十个G做系统急救备份。
  
电源
  
安钛克新模尊Neo Eco 550M
409
安钛克的电源也是我攒PC常年使用的,也属于长期信任。这个电源有550瓦的功率和88%的效率,带前述那些硬件比较轻松。
  
机箱
  
酷冷至尊毁灭者经典U3升级版
229
这是一个中塔机箱,一直以来就是我攒PC的首选机箱,内部空间足够庞大。之所以选择中塔而不是普通机箱,首要原因就是,小机箱根本塞不下咱的散热神器(九州风神大霜塔)
  
显示器
  
微软之星E2208
499
21.5寸的显示器(1920*1080,响应时间GTG 8ms,VA面板),无线键鼠套装。唯一的优点是便宜。当然,这一项随着个人喜好不同,会产生重大差异。我这儿给出的是最低配置。
键鼠套装
魔豹G7000
40

个人亲测,此配置基本胜任普通计算化学工作者的日常需求。
MS-Office套件和ChemBioDraw,没问题。
看1080p电影,没问题。
玩模拟城市5,中等显示精度,没问题;高等显示精度,略卡。
开Multiwfn(win版),略弱,主要是计算时间有些让人抓狂。同理Gaussian(win版)。
开GaussView,200原子球棍模型,特效全开,没问题;500原子球棍模型,静止时精度设置到顶,旋转时精度设置中等,没问题;1500原子以上球棍模型,无论如何设置,总卡成幻灯片,当然这种情况根本就应该设成键线模型才对。
开MS,显示界面流畅,如果在本机搞计算也是慢。毕竟是AMD不擅长的浮点计算领域了。

作者
Author:
sobereva    时间: 2016-11-24 17:02
AMD明显高估了GPU加速的发展速度和普适性,搞出个垃圾来
就看未来的Zen争不争气了
作者
Author:
yjcmwgk    时间: 2016-11-24 18:14
sobereva 发表于 2016-11-24 17:02
AMD明显高估了GPU加速的发展速度和普适性,搞出个垃圾来
就看未来的Zen争不争气了

如果zen系列不争气,AMD可能真就完了。背水一战的感觉。
作者
Author:
qczgzly    时间: 2016-11-27 12:41
读完更纠结该买Intel还是AMD了~
作者
Author:
Jasminer    时间: 2016-11-27 12:55
sobereva 发表于 2016-11-24 17:02
AMD明显高估了GPU加速的发展速度和普适性,搞出个垃圾来
就看未来的Zen争不争气了

按照传统,Zen的ppt一定会争气的!
作者
Author:
yjcmwgk    时间: 2016-11-27 15:52
Jasminer 发表于 2016-11-27 12:55
按照传统,Zen的ppt一定会争气的!

话说明年开春儿就能看到zen的实体了。到时候就能给ppt挤水分了
作者
Author:
yjcmwgk    时间: 2016-11-27 15:54
qczgzly 发表于 2016-11-27 12:41
读完更纠结该买Intel还是AMD了~

AMD也可以了,卡秒英特尔,U秒英伟达
作者
Author:
dreamyeye    时间: 2016-11-27 17:21
yjcmwgk 发表于 2016-11-27 15:54
AMD也可以了,卡秒英特尔,U秒英伟达


作者
Author:
lao7    时间: 2016-12-6 14:42
AMD的浮点运算要差,而且针对AMD内核的程序编译执行效率较低。两个原因制约AMD在计算领域的应用。不过我一台AMD,另外一台Intel工作站。
作者
Author:
yjcmwgk    时间: 2016-12-8 20:56
lao7 发表于 2016-12-6 14:42
AMD的浮点运算要差,而且针对AMD内核的程序编译执行效率较低。两个原因制约AMD在计算领域的应用。不过我一 ...

  还挺全乎的。要不要来一台龙芯服务器我的中国芯
作者
Author:
Thavincy    时间: 2017-1-22 02:48
用AMD核心跑过半年计算
——————————————
那是我人生最黑暗的半年
作者
Author:
agent99    时间: 2017-1-22 03:46
intel不会让AMD倒的,否则他们一定会被告垄断。据说intel还出钱给AMD盖大楼,不知是真是假
作者
Author:
cdh1075    时间: 2017-2-6 12:53
作为一个被老板抓到实验室已经负责了一年实验室各种计算集群建设维护的网管,真心劝大家尽量别上amd做计算,我被坑惨了,做计算最怕什么?1.算了一个周死机了2.所用的软件没针对你的硬件优化3.遇到了一个和硬件有关的错误去查资料结果发现没人用你这样的硬件,问工程师,工程师回复“在intel机器上运行良好”
作者
Author:
yjcmwgk    时间: 2017-2-12 21:22
cdh1075 发表于 2017-2-6 12:53
作为一个被老板抓到实验室已经负责了一年实验室各种计算集群建设维护的网管,真心劝大家尽量别上amd做计算 ...

第三天看得我莫名喜感
作者
Author:
一颗赛艇    时间: 2017-2-28 14:24
yjcmwgk 发表于 2016-12-8 20:56
还挺全乎的。要不要来一台龙芯服务器我的中国芯

此处应有音乐。“我的~中~ 国~ 芯~~~~~~~”
作者
Author:
stecue    时间: 2017-3-24 07:09
亲测 Ryzen 跑 g09,效率不比 Haswell 差。诸位可以入手试一试了。
作者
Author:
gauss98    时间: 2017-3-24 08:04
求测试详情
test397,频率对比 等

作者
Author:
yjcmwgk    时间: 2017-3-24 09:58
本帖最后由 yjcmwgk 于 2017-3-24 10:01 编辑
stecue 发表于 2017-3-24 07:09
亲测 Ryzen 跑 g09,效率不比 Haswell 差。诸位可以入手试一试了。

对于这个版里的大部分人来说,其实正在等naples而不是ryzen。不过naples用的也是zen架构,所以你做的测试也很有意义。能否给出比较详细的测试数据?
作者
Author:
stecue    时间: 2017-3-24 11:31
yjcmwgk 发表于 2017-3-24 09:58
对于这个版里的大部分人来说,其实正在等naples而不是ryzen。不过naples用的也是zen架构,所以你做的测试 ...

大规模 production 计算是得等 naples 或者上超算。搞个便宜8核做桌面和调试用也不错哈。8核直接分四个给 win7 虚拟机都不要紧
作者
Author:
stecue    时间: 2017-3-24 11:42
gauss98 发表于 2017-3-24 08:04
求测试详情
test397,频率对比 等

我在另外一个帖子里写了一点
http://bbs.keinsci.com/forum.php ... 26&fromuid=1246

test397 不错。已按照8核/12GB内存提交运算。
作者
Author:
stecue    时间: 2017-3-24 11:51
本帖最后由 stecue 于 2017-3-24 11:54 编辑

gauss98 发表于 2017-3-24 08:04
求测试详情
test397,频率对比 等


超频到3.9GHz。test397算好了,高斯自己的统计:
  1. Job cpu time:       0 days  0 hours 29 minutes  9.4 seconds.
  2. File lengths (MBytes):  RWF=    405 Int=      0 D2E=      0 Chk=     44 Scr=      1
  3. Normal termination of Gaussian 09 at XXXXX
复制代码
time 命令的统计:
  1. $ tail test397.time

  2. real    3m39.490s
  3. user    29m8.068s
  4. sys     0m1.420s
复制代码


作者
Author:
gauss98    时间: 2017-3-27 09:47
stecue 发表于 2017-3-24 11:51
gauss98 发表于 2017-3-24 08:04
求测试详情
test397,频率对比 等

非常好,谢谢!
这几天,仔细查了网上的一些测试,主要是这里的 http    ://   www.hpc.co.jp    /benchmark_index.html
你的这个成绩比2667 v3 和2697v3 在八核时运行成绩都好,但是你这个频率太高,服务器不可能有这么高的满载频率,假设最后naples 能够在 3.0-3.3G全核运行, 这个成绩跟V3,V4也是可以同频相抗的,而最后64核并行出来应该有超过现在2699v4的成绩。
只是没有naples宣传的那么惊喜 (是2699v4的 2-2.5倍成绩)

另外,我注意到,你的cpu job time 和实际real time 非常接近,这是个好现象,我的real比job time/core 都要延迟一些。说不行并行效率可以比xeon 更好

作者
Author:
gauss98    时间: 2017-3-27 09:53
只不过 Ryzen 的avx2 是阉割版, 更是没有avx3, 而gaussian16对avx2做了一定优化, 如果后来版本加入avx3 (512)的话, 可能xeon绝对性能还是更好,而amd又只好打价格战了
作者
Author:
sonyxu    时间: 2017-3-28 16:53
学到了,以后要多支持一下amd
作者
Author:
stecue    时间: 2017-3-28 23:39
gauss98 发表于 2017-3-27 09:47
非常好,谢谢!
这几天,仔细查了网上的一些测试,主要是这里的 http    ://   www.hpc.co.jp    /benchm ...

E5-2699 v4 是22核吧。AMD 说过 naples 是2699 v4的 2-2.5 倍?按照现在的消息 naples 也就 32 核,无论如何也算不出来啊。
作者
Author:
gauss98    时间: 2017-3-29 23:19
stecue 发表于 2017-3-28 23:39
E5-2699 v4 是22核吧。AMD 说过 naples 是2699 v4的 2-2.5 倍?按照现在的消息 naples 也就 32 核,无论 ...

宣传的时候做的演示
某个地震波程序
naples  vs 2699 v4

naples  用 22核, 18秒, 2699 35秒,约 2倍
naples  用32核    14秒                       约 2.5倍





欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3