计算化学公社

标题: 【作业帖】双路2686v4+1080Ti计算节点的装机和简单评测 [打印本页]

作者
Author:
tomwong4253    时间: 2018-6-15 18:14
标题: 【作业帖】双路2686v4+1080Ti计算节点的装机和简单评测
本帖最后由 tomwong4253 于 2018-6-15 18:12 编辑

经过大半年的折腾,终于得到领导的支持,hao到了一点点经费来装自己的计算节点。折腾了大半个月,现在基本的功能都已经配好了,发一篇装机测试帖给各位准备装机的老师同学参考。

---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
1. 硬件选择和购买
---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

首先确认预算:经过一番折腾,最终和领导敲定含税不超过40000。
然后确认一下我自己的需求:主要用gromacs和amber做蛋白质的MD模拟,次要用途是用Gaussian做药物小分子的化学性质和反应过程的QM计算,可能还需要进行药物虚拟筛选的计算工作,以及转录组分析等生物信息学的计算。

这些需求对计算机的性能要求的方面不一样,加上预算的限制,最终我敲定了以下配置单:
==================================
【CPU】Intel Xeon E5 2686 v4 正式版,两颗。【散热】酷冷至尊T400i,两个。
【主板】华硕 Z10-PA D8 双路服务器主板。

【内存】海力士(原名现代)DDR4 2133MHz 8G 服务器内存,八条。
【GPU】耕升1080Ti 11G 显卡
【固态】三星 860 EVO 250G
【机械】希捷4T 企业级硬盘
【机箱】先马坦克机箱
【电源】台达850W
【显示器】现代 23.5寸
===================================
【含增值税总价】:38980元
===================================
关于选用以上配置的一点说明:


1. 社长的有关2696v3的帖子发布距离现在已经有很长一段时间了,2696v3的价格从最开始的4750元已经涨到8000+元还不含增值税,含增值税后可能会破万元,甚至有商家开价含税13000+的天价。虽然2696v3在极致性价比上仍然是比较高的,但是由于绝对价格的高昂,买家不断减少,也使得不少供货商对这个CPU没有备货,非北上广地区购买起来会比较麻烦。笔者这几个月一直在跟踪CPU的售价,如果要追求极致性能并且没有太大预算问题的,仍然可以考虑2696v3,如果预算有略微不足的,可以考虑2686v4,核数相同,主频一样,只是睿频有明显下降(单核和全核睿频均是),因此如果顶到预算天花板可以考虑2686v4,不过即使是2686v4目前含税价也要8000左右一块,各位斟酌一下自己的预算和性能需求来购买。如果预算还是不够,可以考虑CPU降到2678v3,12核心的那款,目前含税可能不到4000一块。但是性能肯定是有明显下降的。


2. 有关选用v2系列CPU作为计算平台的问题,在这里统一说明一下。v2系列的CPU比如2680v2比起v3 v4系列的CPU便宜的多,而v3 v4系列CPU相较v2主要的优势就在于拥有AVX2指令集,对于比如gmx这样的CPU+GPU混合计算的软件是有不小提升的。而如果v2平台仅用于Gaussian计算例如G09版本,也是性价比很不错的选择.因为G09版本目前国内只有SSE指令集版本和AVX指令集版本,在没有特殊渠道的情况下,是找不到源码或者AVX2指令集这种预编译版本的,因此v3系列CPU在指令集上并没有优势。v2系列还有一个价格优势点是配套内存的售价,因为v2系列搭配的是DDR3代的内存,整体比目前仍然居于高位的DDR4内存便宜不少,需要大内存的情况下有明显价格优势。记得Sob社长的帖子也有测试,内存速度并不构成计算的瓶颈。因此当做Gaussian计算时实在挤不出预算的话,可以考虑v2系列的平台搭配DDR3代内存。v2系列的劣势主要在于现在所有硬件都是停产状态(X79华南寨板除外,但那个是单路板子),各位买到的都是存货或者二手货,老旧主板这种东西如果有暗病之类的会很麻烦。并且在用公款购买的时候增值税发票这方面也是个不小的问题。


3. GPU的选择问题。截至发帖时老黄家的11代新GPU还没见到,要不要等新GPU请自行斟酌。市面上已有的GPU中。对于不差钱的土豪,建议购入Tesla系列的V100或者P100这样的GPU,很贵但是很稳,即使关掉ECC显存也很稳。而对于一般的刚工作的青椒或者手头基金不宽裕的老师可以考虑使用游戏卡,例如耕升的1080Ti或者1080(声明耕升没给我任何广告费),测试表明耕升显卡功耗稍微高一些而性能相对其它品牌来说稍微强一些,推荐选用。如果预算很有限,但仍需要GPU,请各位起码购入1065(1060 5G,不过目前好像不好弄到了)或者1063(1060,3G),不建议选用1050系的,显存太小而且性能实在是。。。emmmmm。


4. 公社里有朋友写过一个帖子,就是双路CPU一定要弄八条内存,这样才能开启每个CPU的内存四通道,不然性能将会有明显损失,请各位注意。


---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
2. 硬件安装和基本性能测试
---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
首先是先找个合适的屋子,建议各位如果实在没地方放,找学校/研究所的网络中心的机房放那也行。我们这边刚好冷冻切片机搬走了,先把这家伙放到冷冻切片机那屋,以后再说。屋子里如果没有空调,至少也得有个通风的地方,不然夏天温度上的很快。不仅危险而且对硬件寿命也是个损伤。
(, 下载次数 Times of downloads: 203)

接下来就是一阵拆拆拆and装装装。。。


可以看到,华硕这款双路服务器板子的两个CPU确实太近了,装水冷更好。装酷冷这种大体积的风扇确实有点挤,不过好在能装,再宽一点点的风扇恐怕就装不进去了。
而且还有个问题,两个风扇的风道是前后串联的,CPU2会一直吸CPU1排出来的热风,使得CPU2的烤机温度比CPU1多近10度,如果是超微的板子,弄个高一点的散热器不要吹内存,CPU1和CPU2可以弄成平行竖直的排风,这样对CPU散热会比较好。不过东西买都买来了,凑合着用吧。


(, 下载次数 Times of downloads: 177)


装好以后点亮进BIOS,忘记拍照了,可以看到64G内存已经全部认出。Good。
随便装了个Windows10进行性能测试,首先装个娱乐大师看看硬件基本信息:
(, 下载次数 Times of downloads: 160)

其次还有CPU-Z和GPU-Z对CPU和GPU信息的精确确认。


(, 下载次数 Times of downloads: 183)        (, 下载次数 Times of downloads: 163)     (, 下载次数 Times of downloads: 176)


OK,硬件信息没问题。接下来就是全套测试,首先单烤FPU半小时:

(, 下载次数 Times of downloads: 177)

温度基本在50度左右,酷冷这个大家伙的散热确实不错,手放在机箱出风口感觉到跟放在火的旁边一样。
顺便说一下为了散热,我在机箱正面面板后面加了两个12cm的大风扇对着吹。过几天准备在机箱上面装冷排的地方也搞两个风扇,这样能吸走一部分CPU1的热量~~~

死亡甜甜圈烤GPU烤了10分钟(心疼我的1080Ti,没烤太久),满载温度维持在79度左右。


(, 下载次数 Times of downloads: 178)

SSD速度测试结果。emmmmmm,果然便宜没好货,860EVO这个速度有点感人,早知道就咬咬牙买960了。

(, 下载次数 Times of downloads: 184)


最后来一发CineBench渲染测试,这速度确实吓人,3804分。。。。。

(, 下载次数 Times of downloads: 187)

---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
3. 计算软件简单测试
---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

基本性能测试结束,Windows10完成了他的使命,接下来改装Linux。
我装的是CentOS7,这个版本比起之前用的CentOS6安装和配置简直痛苦无比,不过确实学到不少东西。
磁盘我是自己分的区,基本原则是把除了home之外的分区全部挂载在固态上。分区大小这一块我没啥经验,就XJB分吧:
/boot给了5G,/var给了28G,/给了196G,剩下的是/swap,/home是机械硬盘的全部空间。
大体就是这样。


Gaussian09,AMBER18,Gromacs2018。。。。目前用得到的软件各种hao来,装起:


(, 下载次数 Times of downloads: 189)


这里提几个小事情:
1. Gromacs201X版的默认使用cmake安装,cmake是一个集成的编译工具,可以调用gnu或intel的C和C++编译器。但是CentOS7目前好多yum源里边的cmake版本居然才2.8,会被gmx各种嫌弃,会拒绝安装。所以用cmake最好到官网上自己搞个包自己安装一下。


2. AMBER核心的pmemd部分有不少fortran代码,据社长等大佬测试,使用Intel编译器编译比使用gnu里的gfortran编译出来的pmemd模拟速度要快。但是AMBER18目前不支持最新的Intel Compiler 2018版本(居然嫌弃人家版本高),请需要用这个编译器的用2017或者2016。

3. GPU加速程序大多数是基于老黄的CUDA架构的,但是安装CUDA会自作主张地给你安装显卡驱动,请各位务必跳过,只装CUDA-Toolkit就够了。最新的显卡驱动在计算上有时候有优化的。


装好,开测。
Gaussian09还是用的test397,忘记截图了。默认关键词,最终时间90s~~~(快了5秒哦,嘿嘿)


Gromacs看官网上说好像test有问题,我找了个我自己做过的体系,用4核+GT1030一天只能跑5ns,而用现在这台怪物:


(, 下载次数 Times of downloads: 184)

OMG。。。整整十倍。

AMBER有自己的benchmark,我挑选了一个最小的,跑了一下,跟官网1080Ti的速度完全一致:


(, 下载次数 Times of downloads: 191)


---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
4. 总结
---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
好像没啥好总结的

作者
Author:
lonemen    时间: 2018-6-15 19:57
本帖最后由 lonemen 于 2018-6-16 09:25 编辑

厉害啦,终于等到评测了!辛苦辛苦!
另外,看起来你的显卡的空间没多少,想知道跑长时间MD时的温度怎么样?
作者
Author:
luwis    时间: 2018-6-15 21:39
恭喜!
自己家里用?咱们还有厨房?还是实验室自备水槽?
作者
Author:
dreamyeye    时间: 2018-6-15 22:33
内存是8*8G?
作者
Author:
tomwong4253    时间: 2018-6-15 22:51
luwis 发表于 2018-6-15 21:39
恭喜!
自己家里用?咱们还有厨房?还是实验室自备水槽?

实验室~~~~
作者
Author:
tomwong4253    时间: 2018-6-15 22:52
dreamyeye 发表于 2018-6-15 22:33
内存是8*8G?

对,预算限制没配128G,只配了64G,而且128G目前也没啥必要。
但内存一定要配够八条,这样CPU才都能开四通道。
作者
Author:
一颗赛艇    时间: 2018-6-16 03:45
让领导出钱给你打游戏……计画通り!

每回看见阿速死就忍不住想XX,有超微为啥不上超微,又差不了多少钱
作者
Author:
zorow    时间: 2018-6-16 08:04
厉害了楼主,不过最近似乎2696很难买到啊
作者
Author:
xylz6188    时间: 2018-6-16 08:32
学校不让买组装机,只能买品牌机,差不多的配置,花了我8万大洋
作者
Author:
tomwong4253    时间: 2018-6-16 08:37
本帖最后由 tomwong4253 于 2018-6-16 08:41 编辑
一颗赛艇 发表于 2018-6-16 03:45
让领导出钱给你打游戏……计画通り!

每回看见阿速死就忍不住想XX,有超微为啥不上超微,又差不了 ...

其实超微比阿苏斯还便宜 ,而且CPU布局还好。
emmmmm,主要是经销商那边有返利,一并买的其他设备可以更便宜

作者
Author:
tomwong4253    时间: 2018-6-16 08:39
zorow 发表于 2018-6-16 08:04
厉害了楼主,不过最近似乎2696很难买到啊

所以我买的是2686v4,核数和主频跟2696v3一样,比2696便宜一截,不过睿频低。
作者
Author:
tomwong4253    时间: 2018-6-16 08:39
xylz6188 发表于 2018-6-16 08:32
学校不让买组装机,只能买品牌机,差不多的配置,花了我8万大洋


作者
Author:
steven    时间: 2018-6-16 13:41
是把散件买回来自己动手装好的吗?
CPU是全新的?
作者
Author:
hakuna    时间: 2018-6-16 17:13
CPU这物件做计算用的话,三级缓存大小影响好像还是很明显的
作者
Author:
tomwong4253    时间: 2018-6-18 13:34
steven 发表于 2018-6-16 13:41
是把散件买回来自己动手装好的吗?
CPU是全新的?

CPU不是全新的,全新的就得一万好几千了,而且全新没必要。挑的成色好的测试没毛病就行。
好久没装机了手痒,这台是找本地经销商拿的货自己装的。
作者
Author:
steven    时间: 2018-6-19 03:33
tomwong4253 发表于 2018-6-18 13:34
CPU不是全新的,全新的就得一万好几千了,而且全新没必要。挑的成色好的测试没毛病就行。
好久没装机了 ...

谢谢啦!
作者
Author:
霜晨月    时间: 2018-6-20 16:50
“AMBER核心的pmemd部分有不少fortran代码,据社长等大佬测试,使用Intel编译器编译比使用gnu里的gfortran编译出来的pmemd模拟速度要快。”记得社长大人说的是AMBER14,ifort编译的amber比gfortran编译的快七倍。不过,我最近同时用gnu和intel 2015编译了AMBER18,实测pmemd.cuda两个版本的速度看不出有明显差别。sander和MPI版没测。仅供参考。
作者
Author:
sobereva    时间: 2018-6-20 17:21
霜晨月 发表于 2018-6-20 16:50
“AMBER核心的pmemd部分有不少fortran代码,据社长等大佬测试,使用Intel编译器编译比使用gnu里的gfortran ...

不同amber版本用的优化选项不同
我测的是很老的版本了
比如如果ifort用-O2,gfortran用-O0,那么必然前者吊打后者
反正有ifort尽量用ifort
作者
Author:
savorw    时间: 2018-7-19 12:17
tomwong4253 发表于 2018-6-15 22:52
对,预算限制没配128G,只配了64G,而且128G目前也没啥必要。
但内存一定要配够八条,这样CPU才都能开四 ...

四通道相对双通道对做Amber有明显提升和必要吗?本网那个测试是对用高斯QM计算而言的吧。如果内存带宽够大,双通道的,也能比CPU带宽高了,好象再上四通道也不一定就有计算性能的明显增长。
作者
Author:
tomwong4253    时间: 2018-9-3 09:52
savorw 发表于 2018-7-19 12:17
四通道相对双通道对做Amber有明显提升和必要吗?本网那个测试是对用高斯QM计算而言的吧。如果内存带宽够 ...

公社里确实没有人测过MD计算中双通道和四通道的影响。我自己主要有两方面考虑:第一是这个机器以后可能会算Gaussian,第二就是我个人理解即使AMBER计算也有2-3G的内存消耗的,内存性能对计算也是有影响的,四通道本身比双通道就是在带宽方面的明显优势,计算速度应该也会优于双通道。
作者
Author:
granvia    时间: 2018-9-3 13:53
tomwong4253 发表于 2018-9-3 09:52
公社里确实没有人测过MD计算中双通道和四通道的影响。我自己主要有两方面考虑:第一是这个机器以后可能会 ...

我准备进一套服务器,商家给双路cpu配的是4个32G的内存条,我跟他提起为什么不配8*16G的,他说“现在的内存技术不一样了,带纠错的成对就行。” 你看这么说靠谱吗?
作者
Author:
savorw    时间: 2018-9-14 11:12
tomwong4253 发表于 2018-9-3 09:52
公社里确实没有人测过MD计算中双通道和四通道的影响。我自己主要有两方面考虑:第一是这个机器以后可能会 ...

个人觉得带宽够大的话,再加也不见得有什么改善了。最近暑期也配了台双路服务器,测下来的结果是本网流传那个一定要加8根内存条并不见得就适用各种软件,甚至于对高斯各版本也不是这样,四通道和双通道有一定差距的主要是G16A03AUX2,对G09E01则相差不大。四通道计算速度并非优于双通道太多,更多可能是一种心理直觉吧。而对lammps这样程序,我们测了基本无差别,lammps主要依测于CPU数目。对于经费不足的话情况,可能双通道也就行了,个人觉得。对于不差钱经费充足,倒是无所谓可以多配些内存。不过就事论事,四通道未必就快很多。

作者
Author:
tomwong4253    时间: 2018-9-18 16:27
savorw 发表于 2018-9-14 11:12
个人觉得带宽够大的话,再加也不见得有什么改善了。最近暑期也配了台双路服务器,测下来的结果是本网流传 ...

感谢测试,其实这个双通道or四通道确实还是看计算所用的软件和计算任务。
我自己这边因为是小地方小学校,做计算的全校可能也就我一个,不是以前一个学校一堆课题组,分做QM做MD做其他的计算方向分的那么细致。我们这有时候指不定一个什么别的比如生物信息,大数据之类的计算任务就得用我这台机器,因此我就预先把该有的诸如四通道之类的东西弄好,省得后面麻烦了。公社里有些老师同学如果只从事某一类计算,那么应该按照自己特定的计算任务进行充分测试,来决定是否采用四通道or其它什么天花乱坠的计算设备。。。
作者
Author:
tomwong4253    时间: 2018-9-18 16:30
granvia 发表于 2018-9-3 13:53
我准备进一套服务器,商家给双路cpu配的是4个32G的内存条,我跟他提起为什么不配8*16G的,他说“现在的内 ...

可能服务器内存找16G的相对比较麻烦,也可能商家就是想从你这多hao点。参考上面的回答,建议你先用4×32G或8×16G跑你要做的计算测试性能,来决定怎么配内存。
作者
Author:
ChaosChiao    时间: 2018-9-26 17:41
2686比之2690和2680如何?
作者
Author:
abdoman    时间: 2018-10-14 21:09
不知道GPU1080的噪音如何?
作者
Author:
tomwong4253    时间: 2019-1-6 21:47
ChaosChiao 发表于 2018-9-26 17:41
2686比之2690和2680如何?

不太确定你说的参数,给个简单的判断:做并行化程度好的计算,看主频乘以核数的乘积,多核且主频高的是最好的,相应的也贵。如果有些不能并行或者并行程度低的计算,直接看主频就好。
作者
Author:
tomwong4253    时间: 2019-1-6 21:48
abdoman 发表于 2018-10-14 21:09
不知道GPU1080的噪音如何?

GPU没啥噪音,一般来说这种跑作业的机器找个角落塞进去就够了
作者
Author:
ltt_cfd    时间: 2022-11-18 03:43





欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3