计算化学公社

标题: 求教同样的资金买两台E5-2696 v3的机器好还是买一台8173M的机器好呢? [打印本页]

作者
Author:
mgqqlwq    时间: 2020-6-1 18:02
标题: 求教同样的资金买两台E5-2696 v3的机器好还是买一台8173M的机器好呢?
本帖最后由 mgqqlwq 于 2020-6-1 18:04 编辑

从论坛和卢老师的博文分享中学到很多,看到最近卢老师又更新了推荐的配置清单,正好自己有购买的需求,想请教下卢老师和各位坛友,我想购置4-6台机器做一个小的集群,博文里面E5-2696 v3的机器大概是15000,8173M的机器大概是30000,请问下同样的资金是购买两台E5-2696 v3的机器呢还是购买一台8173M的机器呢?比如8173M的机器买四台和E5-2696 v3的机器买八台两个应该怎么考虑呢?主要是用来做分子动力学LAMMPS计算,后续可能会用VASP,请大家多给些建议,谢谢啦!

PS: 我在Ubuntu下的Firefox和Chrome上登录论坛会遇到输入用户名和密码后登录论坛无反应的现象,就是点击后跳一下没有错误但是并没有登录,请问其他朋友有类似的问题吗?



作者
Author:
biogon    时间: 2020-6-1 18:07
两台2696v3算力大概能比一台8173M强点
作者
Author:
abin    时间: 2020-6-1 18:15
有传言说,
VASP使用双路服务器上的两颗处理器,效率不怎么理想。

我这里的测试实例是,千兆网, 两个节点,每个机器用1颗处理器,居然比独占一个机器上的两颗处理器还算的快。
VASP 5.4.4, E5-2696v2。

其他未测试。

再说 你都要做成集群考虑了,
那么,买第二台,会便宜点,因为不需要配置大硬盘哦。
作者
Author:
niobium    时间: 2020-6-1 18:54
真不明白一般的课题组要组集群干什么,现在CPU都那么多核,跨节点的必要性应该很低了,而且效率会打折扣
作者
Author:
zyn792102916    时间: 2020-6-1 19:01
我们组有2686 V4的双路机器,这个CPU基本跟2696 V3相同,8173M机器基本比2686 V4机器快60~80%之间,快不到1倍,其幅度主要看体系大小,体系越大快的越多。
作者
Author:
abin    时间: 2020-6-1 19:43
niobium 发表于 2020-6-1 18:54
真不明白一般的课题组要组集群干什么,现在CPU都那么多核,跨节点的必要性应该很低了,而且效率会打折扣

多核心多节点计算只是应用之一。

你手里有多台机器的时候,就知道有集群的好处了。
作者
Author:
bobosiji    时间: 2020-6-2 08:10
zyn792102916 发表于 2020-6-1 19:01
我们组有2686 V4的双路机器,这个CPU基本跟2696 V3相同,8173M机器基本比2686 V4机器快60~80%之间,快不到1 ...

跑啥程序?开avx512加速了么? 8173m 核数比2686v4多 (28-18)/18=55%,
满载频率似乎和2686v4一样都是2.7G?
作者
Author:
zyn792102916    时间: 2020-6-2 08:22
Lammps;没开avx512,就平常的normal模式;我们实测,如果是4/5万原子以下的体系,差不多是8173M快60%。如果是10万原子以上的体系(我们最大试到过12万),能快到80%,没准更大的体系就能快到将近1倍呢;8173M和2686 V4的满载频率都是2.7GHz。
作者
Author:
sobereva    时间: 2020-6-2 08:28
既然现在用lammps较多,GPU加速应当重点考虑,此时CPU的性能没那么关键,何况VASP和QE也支持GPU加速。
作者
Author:
mgqqlwq    时间: 2020-6-2 17:57
biogon 发表于 2020-6-1 18:07
两台2696v3算力大概能比一台8173M强点

谢谢您的回复!请问多台之间需要考虑交换机吗?再往后面看几年的话选择哪个更合适一些呢?
作者
Author:
mgqqlwq    时间: 2020-6-2 18:00
abin 发表于 2020-6-1 18:15
有传言说,
VASP使用双路服务器上的两颗处理器,效率不怎么理想。

谢谢您的回复!千兆网就可以跨节点计算了吗?之前听别人讲的10G的跨节点好像都做不了,您能多说说吗?千兆网可以节约很多钱
作者
Author:
mgqqlwq    时间: 2020-6-2 18:01
niobium 发表于 2020-6-1 18:54
真不明白一般的课题组要组集群干什么,现在CPU都那么多核,跨节点的必要性应该很低了,而且效率会打折扣

您的意思是推荐买单台吗?我想的是多台可以多算几个任务,而且买机器比买超算实惠
作者
Author:
mgqqlwq    时间: 2020-6-2 18:07
本帖最后由 mgqqlwq 于 2020-6-2 18:18 编辑
bobosiji 发表于 2020-6-2 08:10
跑啥程序?开avx512加速了么? 8173m 核数比2686v4多 (28-18)/18=55%,
满载频率似乎和2686v4一样都是 ...

求教下avx512怎么运用呢?现在的程序都支持吗?
作者
Author:
biogon    时间: 2020-6-2 18:09
mgqqlwq 发表于 2020-6-2 17:57
谢谢您的回复!请问多台之间需要考虑交换机吗?再往后面看几年的话选择哪个更合适一些呢?

交换机肯定是有必要的,但是跨节点并行没啥必要
作者
Author:
mgqqlwq    时间: 2020-6-2 18:13
zyn792102916 发表于 2020-6-2 08:22
Lammps;没开avx512,就平常的normal模式;我们实测,如果是4/5万原子以下的体系,差不多是8173M快60%。如 ...

谢谢您的回复!8173M快80%指的是用28个核对比v4的18个核对吧?
如果考虑到两台v3的机器还需要交换机可能会降低效率,是不是还是8173M跟合适一些呢?
另外,请问开avx512是指用user intel的包吗?
作者
Author:
mgqqlwq    时间: 2020-6-2 18:18
sobereva 发表于 2020-6-2 08:28
既然现在用lammps较多,GPU加速应当重点考虑,此时CPU的性能没那么关键,何况VASP和QE也支持GPU加速。

谢谢卢老师!请问GPU卡的话推荐什么型号,价格大概多少呢?GPU我了解的特别有限。
我之前有稍微了解过,好像LAMMPS需要双精度的卡,具体细节就不是很懂了。
请问算VASP的话也是买GPU的机器性价比高吗?

作者
Author:
mgqqlwq    时间: 2020-6-2 18:20
biogon 发表于 2020-6-2 18:09
交换机肯定是有必要的,但是跨节点并行没啥必要

那是不是买千兆的交换机就可以了,然后不去跨节点计算?
速度快的交换机也不行吗?是因为性价比不高?
作者
Author:
zyn792102916    时间: 2020-6-2 18:21
mgqqlwq 发表于 2020-6-2 18:13
谢谢您的回复!8173M快80%指的是用28个核对比v4的18个核对吧?
如果考虑到两台v3的机器还需要交换机可能 ...

是的,都是满核心运行下的对比;我个人感觉8173M更合适一些;avx512我们组没用过,那个是Intel的指令集,某些运算下会有加成。
作者
Author:
niobium    时间: 2020-6-2 20:25
mgqqlwq 发表于 2020-6-2 18:01
您的意思是推荐买单台吗?我想的是多台可以多算几个任务,而且买机器比买超算实惠

就是买多台服务器就行,没必要搞共享存储,又要担心网络。每台机器配个1T的固态用来写临时文件,非常舒服
作者
Author:
abin    时间: 2020-6-2 20:37
本帖最后由 abin 于 2020-6-2 20:41 编辑
niobium 发表于 2020-6-2 20:25
就是买多台服务器就行,没必要搞共享存储,又要担心网络。每台机器配个1T的固态用来写临时文件,非常舒服

来来,
我稍微解答一下。

如果不涉及多个节点并行,可以采用所谓分布式存储阿。
就是每个计算,都在所分派的那台机器上进行读写,算完了,再拷贝回来。
这种场景中,千兆网都妥妥的满足需求。

这个时候,集群的千兆网,
仅仅负责,集群调度,具体就是特定时间查询一下各个机器的状态,你可以简单理解为ping一下每个机器;
如果有计算要加载,就查询一下状态,并把输入文件scp到干活的机器上,然后交给干苦力的机器执行。

如果部署为集群之后,
所有的App,用户ID等,部署一套,所有的机器都可以用了。
用户无需多个机器之间来回倒弄数据,十分便捷的。
这种应用场景,板载的千兆网非常够用。
200元左右的千兆交换机也十分够用。

如果集群的规模比较小,而且采用的分布式计算读写方案,
用户20人一下,平均5s内加载的计算量少于20个,
那么任何一个计算节点负载一下这个“集群调度”都是十分稳妥的。
集群调度的压力,可能比你打开浏览器看百度新闻的压力都低。
如果同时在线的用户数载100人左右,
同时登陆节点还负载比如10个节点左右的频繁读写负载,
可能需要独立管理节点。

简单说,10节点一下,
平均同时在线用户小于10人;
平均I/O负载低于10%;
平均5s内加载的计算量小于20个,
这种情形,任何一个苦力节点分担一下都可以。

或者,弄任何一个E3处理器的,3000元不到的PC主机,都能搞定的事情。


作者
Author:
abin    时间: 2020-6-2 20:44
mgqqlwq 发表于 2020-6-2 18:00
谢谢您的回复!千兆网就可以跨节点计算了吗?之前听别人讲的10G的跨节点好像都做不了,您能多说说吗?千 ...

并行效率,
首先取决于程序算法。

多节点并行,网络是读写的瓶颈。

10Gb的带宽,理论最高读写,能做大960MB/s左右。
如果你的机器读写性能达不到800MB/s以上的水准,
那么10Gb的网络,不回对你的计算造成负面影响。


如果买廉价的TP Link方案,
8口, 8台机器, 可能需要4000左右吧,
我按照京东的零件价格估算的。

作者
Author:
abin    时间: 2020-6-3 09:12
 同样的钱, 买一台了。
省电,省地方啊。
作者
Author:
CrysLantZ    时间: 2020-6-3 11:27
假如性价比相当的话,我倾向于买8173m,因为它晚推出2年,新一些
作者
Author:
sobereva    时间: 2020-6-3 21:25
mgqqlwq 发表于 2020-6-2 18:18
谢谢卢老师!请问GPU卡的话推荐什么型号,价格大概多少呢?GPU我了解的特别有限。
我之前有稍微了解过, ...

lammps的GPU加速相关讨论看https://sourceforge.net/p/lammps/mailman/message/36858507/。我自己不怎么用lammps
作者
Author:
bobosiji    时间: 2020-6-4 10:42
本帖最后由 bobosiji 于 2020-6-4 10:43 编辑


作者
Author:
mgqqlwq    时间: 2020-6-4 17:45
zyn792102916 发表于 2020-6-2 18:21
是的,都是满核心运行下的对比;我个人感觉8173M更合适一些;avx512我们组没用过,那个是Intel的指令集, ...

了解了,谢谢!登录论坛有点问题,抱歉回复晚了
请问下我这边试的一台机器上56个核心和36个核心速度并不是线性增加的,这种是正常的吗?大概只有1.3-1.4倍的速度,两个cpu似乎效率有损失
作者
Author:
mgqqlwq    时间: 2020-6-4 17:48
niobium 发表于 2020-6-2 20:25
就是买多台服务器就行,没必要搞共享存储,又要担心网络。每台机器配个1T的固态用来写临时文件,非常舒服

多台服务器组成小集群的话,网络用一个就可以了,数据也是在一起,好像更方便一些。
多台机器单独使用我没有经验,配置起来应该要容易一些,使用起来怎么样呢?
作者
Author:
mgqqlwq    时间: 2020-6-4 17:50
abin 发表于 2020-6-2 20:37
来来,
我稍微解答一下。

谢谢您的分享!也就是说只是几台机器的话,就不需要单独购买管理节点了,对吧?
作者
Author:
mgqqlwq    时间: 2020-6-4 17:54
abin 发表于 2020-6-2 20:44
并行效率,
首先取决于程序算法。

之前问过一些厂家的,因为说延迟的问题,跨节点的话推荐至少56g的。
我自己这边用lammps的时候,千兆网络跨节点算程序会报错,56g的网络可以正常算,但并行效率感觉很一般,不过我并不清楚原因。
作者
Author:
mgqqlwq    时间: 2020-6-4 17:55
abin 发表于 2020-6-3 09:12
 同样的钱, 买一台了。
省电,省地方啊。

嗯嗯,如果计算能力差不多的话,感觉还是一台更好些
作者
Author:
mgqqlwq    时间: 2020-6-4 17:56
CrysLantZ 发表于 2020-6-3 11:27
假如性价比相当的话,我倾向于买8173m,因为它晚推出2年,新一些

嗯嗯,是的,一台机器比起两台机器也更方便一些感觉
作者
Author:
abin    时间: 2020-6-4 18:07
mgqqlwq 发表于 2020-6-4 17:54
之前问过一些厂家的,因为说延迟的问题,跨节点的话推荐至少56g的。
我自己这边用lammps的时候,千兆网 ...

 厂家推荐的56G带宽的,是IB网络低配版本。
那玩意,交换机、线缆、卡,配四台机器,价格可能比你的机器还要贵的。

当然IB网络和以太网有本质差异的。

多节点并行, 效率低,
要分析是程序算法问题,
或者是I/O造成的效率低。
如果是后者,改造网络有办法,
如果是前者,减少CPU核心数目,或者优化并行算法。

作者
Author:
mgqqlwq    时间: 2020-6-4 18:11
sobereva 发表于 2020-6-3 21:25
lammps的GPU加速相关讨论看https://sourceforge.net/p/lammps/mailman/message/36858507/。我自己不怎么 ...

谢谢卢老师!您找到的这个讨论,问题就是我之前问的,但是了解的比较少,问完还是不太清楚怎么选
卢老师,我在Ubuntu下的Firefox和Chrome上登录论坛会遇到输入用户名和密码后登录论坛无反应的现象,就是点击后跳一下没有错误但是并没有登录,不知道这个是我自己的问题呢还是论坛登录的问题呢?最近一直都这样,需要再虚拟机Windows下面登录才行

作者
Author:
mgqqlwq    时间: 2020-6-4 18:13
bobosiji 发表于 2020-6-4 10:42
**** 本内容被作者隐藏 ****

不好意思,您回复的内容需要积分超过4000才能看,我不清楚是为什么
能麻烦您改下回复的模式或者私信下吗?
作者
Author:
niobium    时间: 2020-6-4 18:25
mgqqlwq 发表于 2020-6-4 17:48
多台服务器组成小集群的话,网络用一个就可以了,数据也是在一起,好像更方便一些。
多台机器单独使用我 ...

集群的优点你说了,就是数据都在一起,不用倒来倒去,软件也装一次就行。缺点是万一共享的存储坏了,就完蛋,计算节点基本就跟着用不了了。
单独使用,可能有些东西麻烦点,数据要从主节点传到计算节点上做计算。(如果你们网络允许,也可以每一台都是登录节点,也没啥不方便的)软件可能也要在每台机器上都装一遍,但这都是一次性劳动,也就机器买回来时装一下。


作者
Author:
mgqqlwq    时间: 2020-6-5 09:13
abin 发表于 2020-6-4 18:07
 厂家推荐的56G带宽的,是IB网络低配版本。
那玩意,交换机、线缆、卡,配四台机器,价格可能比你 ...

谢谢您的解答!具体是什么原因造成的我不是很清楚,请问LAMMPS您有用过吗?LAMMPS想跨节点的话最低需要什么样的网络呢?
您千兆网络并行计算用的是VASP?
作者
Author:
mgqqlwq    时间: 2020-6-5 09:16
niobium 发表于 2020-6-4 18:25
集群的优点你说了,就是数据都在一起,不用倒来倒去,软件也装一次就行。缺点是万一共享的存储坏了,就完 ...

嗯嗯,单独的几台机器感觉提交任务下载数据还是会麻烦一点,不过每个人都有自己喜欢的方式,谢谢您的分享!也是一种可参考的方式
不过从我目前使用的感觉来讲,我个人还是更喜欢集群的方式,不过我觉得集群最开始整个环境的配置和后续的管理会麻烦一些。
作者
Author:
zyn792102916    时间: 2020-6-5 09:24
mgqqlwq 发表于 2020-6-4 17:45
了解了,谢谢!登录论坛有点问题,抱歉回复晚了
请问下我这边试的一台机器上56个核心和36个核心速度并不 ...

这种情况是有可能的,因为使用不同核心数时的运行频率并不一样。您可以百度搜“wikichip 8173M”,里面有详细的8173M在非avx模式、avx2模式和avx512模式下使用不同核心数时对应的频率,我这边网络卡那个频率表一直加载不出来,这贴一张8176在普通模式下的频率(8176比8173M高0.1GHz的频率)。我师弟之前跑lammps模型时也发现,如果是2万原子的那种小体系,不用满核心(好像他当时就是因为记错了核心数用的36个)跑跟使用满核心的时候速度好像差不多,另外跑MS Dmol时满核心反而比较慢,除非体系比较大时满核心优势才明显。另外,2个cpu的效率这么说吧,我们有一台单路的8173M,当然计算效率还是看体系大小,如果是类似的体系,双路大概比单路提高90%左右,差不错接近1倍吧。
(, 下载次数 Times of downloads: 48)



作者
Author:
abin    时间: 2020-6-5 09:43
mgqqlwq 发表于 2020-6-5 09:16
嗯嗯,单独的几台机器感觉提交任务下载数据还是会麻烦一点,不过每个人都有自己喜欢的方式,谢谢您的分享 ...

系统和存储分开,

系统出现问题,直接换盘就搞定了。

数据,无论是共享模式存储,还是单独存储,都是一样的存储介质,都存在坏的可能性。

集群搭建,要么自己玩,也很刺激的。
要么找别人做。

我这里的使用体验是,集群一旦搭建好之后,
然后就一直用了,没啥需要维护的。
用了几年后,几乎都忘记了这玩意怎么搭建的。

集群一旦搭建好,你不需要管理。
Linux工作站,搭建好之后,也不需要管理。

作为用户级别的管理员,顶多需要添加一下新用户而已。

至于集群搭建时候,所需要的并行环境等,应该是由负责搭建集群的技术负责处理的。
除非你自己想从头撸一遍。

作者
Author:
sobereva    时间: 2020-6-6 10:49
mgqqlwq 发表于 2020-6-4 18:11
谢谢卢老师!您找到的这个讨论,问题就是我之前问的,但是了解的比较少,问完还是不太清楚怎么选
卢 ...

自身机子的问题。我这里CentOS系统用firefox登录论坛反正没遇到问题。
此类问题的反馈请发到本论坛的“公社大厅”板块,当前问题和帖子无关
作者
Author:
mgqqlwq    时间: 2020-6-11 19:50
zyn792102916 发表于 2020-6-5 09:24
这种情况是有可能的,因为使用不同核心数时的运行频率并不一样。您可以百度搜“wikichip 8173M”,里面有 ...

非常感谢您详细的回复!我自己查一下了解一下,不好意思,我登陆论坛有点问题,回复晚了。
请问如果是请求不超过28个核心,任务肯定会提交在一个cpu上是吧?
作者
Author:
mgqqlwq    时间: 2020-6-11 19:55
abin 发表于 2020-6-5 09:43
系统和存储分开,

系统出现问题,直接换盘就搞定了。

谢谢您的回复!抱歉回复晚了。
我们这之前有个小的集群,是供应厂家帮我们弄得系统和初始的并行等环境。我感觉靠普的会搭建集群的人还是有点难找,如果是从淘宝上买卢老师推荐的高性价比的机器,请问下怎样能找到靠谱的朋友帮着做集群的环境呢?
作者
Author:
mgqqlwq    时间: 2020-6-11 19:56
sobereva 发表于 2020-6-6 10:49
自身机子的问题。我这里CentOS系统用firefox登录论坛反正没遇到问题。
此类问题的反馈请发到本论坛的“ ...

好的,谢谢卢老师!我去那重新发个帖子
作者
Author:
abin    时间: 2020-6-11 20:27
mgqqlwq 发表于 2020-6-11 19:55
谢谢您的回复!抱歉回复晚了。
我们这之前有个小的集群,是供应厂家帮我们弄得系统和初始的并行等环境。 ...

我可以搭建集群。

我自己搭建的有几套在运行。

靠谱的朋友是google + manuals + time。
作者
Author:
abin    时间: 2020-6-11 20:34
mgqqlwq 发表于 2020-6-5 09:13
谢谢您的解答!具体是什么原因造成的我不是很清楚,请问LAMMPS您有用过吗?LAMMPS想跨节点的话最低需要什 ...

规模不是很大的话,
比如一个计算涉及两个节点并行, 总体也就8台左右机器,
可以考虑使用万兆网络。

新品采用便宜的TP-Link,
或者采用拆机货,也能用。

我自己购买的是拆机的交换机和网卡,
效果呢,我的设计目标是读写至少达到500MB/s以上,目前完全满足要求。

如果需要再快的网络,可能就没有那么便宜了。

另外,对于多节点之间的并行读写,
性能分析可能存在偏差。
比如两节点,合计112核心计算,
如果采用MPI方式,大概是112和读写进程。
根据一般科学计算的特点,是写的多,读的少。
计算过程中,是累积方式的小数据读写,
就是每一次可能写一部分,然后累积为一个大文件。

所以,只要保证磁盘在应对112或者120进程同时4K随机读写稳定就可以了。
这个时候,实际要求的读写大概在200MB/s左右。
万兆光纤网络足够用了。

以上数据,来自于我在自己的机器上,采用fio做的读写测试和网路带宽分析。

为了保证并发读写性能,
使用廉价的多硬盘组RAID0足够应付了。
作者
Author:
sobereva    时间: 2020-6-11 23:41
mgqqlwq 发表于 2020-6-11 19:50
非常感谢您详细的回复!我自己查一下了解一下,不好意思,我登陆论坛有点问题,回复晚了。
请问如果是请 ...

并非都在一个CPU上。系统会自动调度,如果没有设置内核绑定,会由所有核心共同负载

相关信息看
通过设置CPU内核绑定降低ORCA同时做多任务的耗时
http://sobereva.com/553http://bbs.keinsci.com/thread-17751-1-1.html
作者
Author:
fineren    时间: 2020-6-25 21:23
我最近买的8173M的主机,用56核计算的时候,CPU-Z显示的时钟有多数运行在3.2G,一部分运行在2.7G,但有几个核心在1G,而且经常在变化。这种情况是否说明CPU的体质不太好?
作者
Author:
mgqqlwq    时间: 2021-2-8 18:51
fineren 发表于 2020-6-25 21:23
我最近买的8173M的主机,用56核计算的时候,CPU-Z显示的时钟有多数运行在3.2G,一部分运行在2.7G,但有几个 ...

您用得什么程序呢?和程序本身的并行效率可能有关系,我猜的




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3