计算化学公社

标题: 求助 TB购买集群服务器 配置和价格是否合适 [打印本页]

作者
Author:
stuy    时间: 2020-9-14 15:54
标题: 求助 TB购买集群服务器 配置和价格是否合适
课题组准备搭一个小型集群服务器,用来做计算化学和分子动力学计算,会用到gaussian,cp2k,gromacs。目前的设想是购买三个节点,其中两个做纯计算节点,另一个计算兼做存储。参考sob老师给出的顶级双路服务器配置,跟商家沟通后确定的配置如下:
(, 下载次数 Times of downloads: 37)
(, 下载次数 Times of downloads: 47)
之前咨询了一下计算组的老师,老师推荐6系列的CPU比较适合计算,所以CPU选择了6278C。请问各位老师这样的配置合适吗?
目前还没有开始做分子动力学计算,对显卡的性能不太了解,我们主要算溶液,体系不会太大,不知道每个节点配一个显卡会不会利用率不高,请问老师们对显卡的配置有什么建议吗?
预计两三年之内没有并行的需求,如果暂时用千兆网,之后有需要了再改100G好改吗?还是一次配置齐全比较好?

另外计算组的老师说存储节点上的硬盘数据可以通过部署NFS共享到其他节点,请问除了NFS,集群服务器还建议进行哪些部署和设置(比如进行作业管理,登录用户管理,资源分配,网络设置等等)?

谢谢各位老师指教!

作者
Author:
biogon    时间: 2020-9-14 16:06
6278c还行,和8268差不了多少,但是这一套价格偏贵了
作者
Author:
xiaomidaxue    时间: 2020-9-14 16:16
自己去淘宝挨个查配件的价格,最后总价浮动10%左右就是合理价格。

作者
Author:
doublezhang    时间: 2020-9-14 16:27
显卡没必要的,你留好显卡供电,等年底30系列出来在上显卡也不迟
作者
Author:
llzz0309    时间: 2020-9-14 17:01
1. 首先你的GPU没必要了。30系列的都出来,就算你想用GPU加速,完全没必要买20系列的了。
2. 做3个节点集群的话,你的文件系统可以用nfs,相对来说容易部署。既然都用了集中nfs做集中存储了,那作业系统及其他集群环境也推荐做了。
3. 集群的网络的话,如果你们不需要跨节点并行,那么千兆就行,如果计算体系很大,那么最好需要一个万兆高速计算网络。当然,计算网络用什么最终是由你们的预算决定的。你所提到的计算软件,如果在10人以下用户的话,那么56GB IB网络就可以,无需100G。

作者
Author:
abin    时间: 2020-9-14 18:17
这么小的规模,
还有什么独立的存储管理节点?
如果真要独立的存储管理节点,搞一台E3机器,加装RAID卡,便宜很多。也稳定。


这个时候,每台机器搭配告诉读写磁盘就可以了。

存储啊,如果仅仅是用来存放用户数据,那么速度就有太高的要求,普通机械做RAID。
估计是采用RAID5。
做RAID的好处是,盘坏了,数据在。
不过在使用使用中,如果单盘容量大,恢复时间也长,更容易出现其他盘挂掉的情形。

所以,对于小规模的集群和数据,我建议,采用大容量的机械盘,并给用户配备移动硬盘自己备份自己的数据。

系统盘吗,金士顿的120GB就够了。
如果担心坏,买几个,把系统克隆一下放着,如果坏了,直接换盘。

楼上说配备56GB IB网,如果能找到旧货,可以试试,否则价格很高的。

根据我浅显的使用经验,gaussian,cp2k,gromacs, 这三个,貌似多机器并行效率一般般。
所以,实际使用中,可能是集群调度,单机运行的情形多。这种情形下,也许用不到高速网络,因为读写在本地做。

前几天,刚刚做了8175M平台双机+万兆网络的双节点集群,效果还行的。
实际配置是,
120GB系统盘2个+4TB机械盘1个+2个1TB NVME 做RAID0 +万兆光纤。
其实这个配置中,使用SATA接口的西数蓝盘4个,性能就很好了。
但是买机器的坚持要用NVME硬盘。实际上,双机万兆网络,发挥不出NVME RAID0阵列的读写性能的。

作者
Author:
stuy    时间: 2020-9-14 21:06
doublezhang 发表于 2020-9-14 16:27
显卡没必要的,你留好显卡供电,等年底30系列出来在上显卡也不迟

嗯嗯,谢谢您的建议
作者
Author:
stuy    时间: 2020-9-14 21:10
llzz0309 发表于 2020-9-14 17:01
1. 首先你的GPU没必要了。30系列的都出来,就算你想用GPU加速,完全没必要买20系列的了。
2. 做3个节点集 ...

谢谢您的建议!
请问作业系统和其他集群环境具体是指什么?网络传输速度和硬盘的读写速度会有一个限制另一个的说法吗?为什么较大的体系需要万兆网呢?
作者
Author:
llzz0309    时间: 2020-9-14 21:20
stuy 发表于 2020-9-14 21:10
谢谢您的建议!
请问作业系统和其他集群环境具体是指什么?网络传输速度和硬盘的读写速度会有一个限制另 ...

集群环境可以简单的概括为网络文件系统、网络信息系统、作业调度系统、并行环境、集群监控系统。跨节点计算涉及到节点之间通讯,需要用高速网络连接来减小延时增大带宽。而跨节点计算可以使用多于单节点的核数,所以这就是我所说的,大体系时考虑跨节点计算。小体系用单个节点就能计算完成。   你需要nfs做网络存储,那么你计算的数据都得经过计算网络传输到存储节点,所以当计算产生数据量大时,数据存储会因为网络速度而延时,进而导致计算速度降低。
作者
Author:
stuy    时间: 2020-9-14 21:26
llzz0309 发表于 2020-9-14 21:20
集群环境可以简单的概括为网络文件系统、网络信息系统、作业调度系统、并行环境、集群监控系统。跨节点计 ...

嗯嗯明白了,非常感谢您的解答!
作者
Author:
abin    时间: 2020-9-14 21:48
我仅仅有观测VASP双机器并行,合计72CPU核心,万兆网络。
读写缓存磁盘,4个机械SATA做RAID0。
在计算过程中过,硬盘读写可以忽略,大部分读写均在内存中完成,节点之间的数据交换部分,由网络承载,
数据量不大,间歇性数据交换。可能带宽不是问题,而响应时间延时才是关键。

至于这里用到的Gaussian,如果没有合理的版本,多机并行基本歇菜。
Gaussian16 linda,我有测试IB网络下的多机器并行,效果一般般。
也就是说,对于一个计算任务,一个节点,高斯算的慢,那么两个节点,基本也是慢,并不会快多少。

Gromacs,没具体测试,万兆网络,两节点应该没有太多的压力的。
cp2k,没用过,不晓得。

注意,普通民用级别的,如果买一台机器还考虑4万或者3万这种价格,IB网络就不要考虑了,比机器都贵的。

两三台机器,如果考虑多机器并行,
其实万兆网络就够了,再升级网络,费用很高的。

如果计算还要频繁写硬盘,多机器并行,不仅仅要网络,还需要读写跟上。
PCIe接口做了RAID卡,能做到多少速度? 12Gbps,那刚刚和10Gpbs网络搭配上。
如果来一个100Gbps的网络,读写跟不上,也不是照样等?

当然,也并非所有的计算都频繁读写磁盘。
如果计算99%都是内存读写,那保证网络低延时,可以忽略储存的速度。



作者
Author:
abdoman    时间: 2020-9-15 08:37
doublezhang 发表于 2020-9-14 16:27
显卡没必要的,你留好显卡供电,等年底30系列出来在上显卡也不迟

同意,老黄的30系列,性价王啊!




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3