计算化学公社

标题: 我用的集群以及经验分享 [打印本页]

作者
Author:
abin    时间: 2020-9-30 10:38
标题: 我用的集群以及经验分享
(, 下载次数 Times of downloads: 388)
不太会用Word,所以其他内容,请看附件PDF文档。
(, 下载次数 Times of downloads: 1032)

作者
Author:
pyscf    时间: 2020-10-1 05:52
这种业配应该发到wx公众号
作者
Author:
朙天儿    时间: 2020-10-2 16:08
本帖最后由 朙天儿 于 2020-10-3 03:10 编辑

虽然也看了些RAID相关介绍,但很多概念还是很模糊。
1 RAID后面一系列数字,分别适合什么作用场景。
2 物理硬盘与RAID逻辑的关系。硬盘容量如何对应。
3 数据存储可靠度。
4 数据传输速度受什么影响。
5 何时做RAID比较安全靠谱。
6 做RAID的方法步骤。
注:洛必达。标记。

作者
Author:
abin    时间: 2020-10-2 16:20
pyscf 发表于 2020-10-1 05:52
这种业配应该发到wx公众号

我拒绝使用公众号这种封闭的圈子。
作者
Author:
abin    时间: 2020-10-2 16:25
朙天儿 发表于 2020-10-2 16:08
虽然也看了些RAID相关介绍,但很多概念还是很模糊,姑且列出几条,请大佬指点。
1 RAID后面一系列数字,分 ...

前几条,看wiki。

RAID是以廉价的方案实现高可用,和可靠性没有太大关系。
可靠要依赖热备和异地备份。所谓鸡蛋不能在一个篮子里。

RAID如何做?你买的产品,附送的手册有描述。
RTFM.

基于Linux系统的RAID如何做?
Google Linux raid。
作者
Author:
ggdh    时间: 2020-10-5 10:33
性价比超高啊,图吧大佬。。
作者
Author:
abin    时间: 2020-10-5 14:22
我使用的私有高性能并行计算集群,全文链接如下。
链接:https://pan.baidu.com/s/11RRDeufksY1wbG2z_djWSQ
提取码:06l1

同时增加了百度共享链接。


作者
Author:
abin    时间: 2020-10-12 22:24
不久前,协助一硬件商家调试了一个两节点的集群。
采用万兆光纤网络,NVME双盘raid0读写。

今天收到用户反馈,双机并行跑vasp计算,效率很好。
很欣慰,这种廉价方案能解决问题。

应该是8175M双路服务器两台,华擎主板方案。
作者
Author:
abdoman    时间: 2020-10-13 09:23
abin 发表于 2020-10-12 22:24
不久前,协助一硬件商家调试了一个两节点的集群。
采用万兆光纤网络,NVME双盘raid0读写。

您好。有2个问题请教一下:
1. vasp双机并行计算,也就是说是通过万兆光纤网络进行数据传输?这个与InfiniBand (IB)相比,有什么优缺点?
2. raid0 是通过raid卡,还是主板自带raid控制器?
作者
Author:
abin    时间: 2020-10-13 09:31
abdoman 发表于 2020-10-13 09:23
您好。有2个问题请教一下:
1. vasp双机并行计算,也就是说是通过万兆光纤网络进行数据传输?这个与Infi ...

IB优,协议不同。
万兆也是以太网,和IB协议不同。

其他按照具体预算来配置呗。

现在保守估计,50Gb带宽的IB交换机和配套线缆,大概好几万呢,
可能和两台机器价格差不多。

IB交换机是按照时间做授权许可的。
没有授权,无法使用。简单说,就是订阅模式。

以太网和IB有个差异,自己读wiki吧!

你用不能指望十年前的捷达车,能跑过911吧?

作者
Author:
abin    时间: 2020-10-13 09:51
abdoman 发表于 2020-10-13 09:23
您好。有2个问题请教一下:
1. vasp双机并行计算,也就是说是通过万兆光纤网络进行数据传输?这个与Infi ...

或者你买一套自己试试?

和我合作的商家,可以提供“开箱即用”体验,收到机器,打开包装,开机,按照说明插网线就可以用了。

或者你买好硬件,我协助你做机器。
确认硬件前,请先让我看一下是否搭配合理,我只协助评估是否存在明显的短板。

理论上讲,只要你的机器可以单向访问互联网,我均可以在线调试机器,(温馨提示,需要支付劳务费)。
作者
Author:
abdoman    时间: 2020-10-14 09:02
abin 发表于 2020-10-13 09:51
或者你买一套自己试试?

和我合作的商家,可以提供“开箱即用”体验,收到机器,打开包装,开机,按 ...

好的,非常感谢您的回答。
作者
Author:
TDHFjiang    时间: 2020-10-14 10:09
如果4台机子的配置不用,核心数不同,内存不同,不适合组成集群吧?(没钱,一台一台配置的,导致机子的性能不一致,有些机子还做了升级)
作者
Author:
TDHFjiang    时间: 2020-10-14 10:15
本帖最后由 TDHFjiang 于 2020-10-14 12:42 编辑

一般都是NVME M.2 2Tb的,4Tb 的 NVME M.2接口的,您有推荐的吗?
作者
Author:
Shine剪水    时间: 2020-10-14 10:48
TDHFjiang 发表于 2020-10-14 10:09
如果4台机子的配置不用,核心数不同,内存不同,不适合组成集群吧?(没钱,一台一台配置的,导致机子的性 ...

(, 下载次数 Times of downloads: 307)
我们的服务器有用了好几年的。


作者
Author:
abin    时间: 2020-10-14 11:29
本帖最后由 abin 于 2020-10-14 11:32 编辑
TDHFjiang 发表于 2020-10-14 10:09
如果4台机子的配置不用,核心数不同,内存不同,不适合组成集群吧?(没钱,一台一台配置的,导致机子的性 ...

可以,但是仅仅推荐做调度,
不建议多节点并行,会被慢的机器托后腿。
作者
Author:
abin    时间: 2020-10-14 11:30
TDHFjiang 发表于 2020-10-14 10:15
另外4Tb 的 NVME M.2接口的,一般都是2Tb的,或者您有推荐的吗?

搜索, highpoint PCIEX16
作者
Author:
TDHFjiang    时间: 2020-10-14 12:47
Shine剪水 发表于 2020-10-14 10:48
我们的服务器有用了好几年的。

你好,请问你是用rocks cluster 集群部署的吗? 那你是做了一个登录节点,每个用户可以创建自己的文件夹用来存储数据,这个硬盘空间一般是多大? 然后把任务提交到其他可计算节点吗?
作者
Author:
Shine剪水    时间: 2020-10-14 16:04
TDHFjiang 发表于 2020-10-14 12:47
你好,请问你是用rocks cluster 集群部署的吗? 那你是做了一个登录节点,每个用户可以创建自己的文件夹 ...

是的,用的Rocks Cluster 7.0 Manzanita,控制节点(登录节点)的硬盘稍大一点(6T),因为主要是Gaussian作业,实际使用过程中用不了多少空间。
作者
Author:
abin    时间: 2020-10-14 16:27
Shine剪水 发表于 2020-10-14 16:04
是的,用的Rocks Cluster 7.0 Manzanita,控制节点(登录节点)的硬盘稍大一点(6T),因为主要是Gaussian ...

高斯DFT类计算,空间需求很低的。
普通硬盘就搞定了。

如果主要跑高斯,可以采用本地读写方式,
以免集群表现出来卡的问题。


作者
Author:
TDHFjiang    时间: 2020-10-14 19:38
abin 发表于 2020-10-14 16:27
高斯DFT类计算,空间需求很低的。
普通硬盘就搞定了。

您好,我们一般不会涉及到跨节点任务,主要是把任务提交到各个服务器上,不然每次就是单机炒作,文件比较分散,需要及时整理,主要涉及到Gaussian ORCA 等,其中ORCA 对硬盘空间要求比较多,如果用机械盘的话,计算比较慢,我们用NVME 1T 固态硬盘来计算,但是很容易硬盘空间不够
作者
Author:
zsu007    时间: 2020-10-14 20:20
谢谢楼主的分享!
作者
Author:
abin    时间: 2020-10-14 21:25
TDHFjiang 发表于 2020-10-14 19:38
您好,我们一般不会涉及到跨节点任务,主要是把任务提交到各个服务器上,不然每次就是单机炒作,文件比较 ...

ORCA 最好配备高速硬盘,看样子你应该已经有了。

空间不足,
可以采用RAID0拼接大空间,
或者采用LVG方案, 拓展现有空间。
但是如果当前NVME 1TB有用来安装系统, 而且未曾采用LVG,
那么要看具体分区情形来评估,如何在不重新安装系统的情况下,调整磁盘分区模式。

RAID0,读写性能有保障。
LVG,性能不确定。
作者
Author:
abin    时间: 2020-10-15 15:25
TDHFjiang 发表于 2020-10-14 10:15
一般都是NVME M.2 2Tb的,4Tb 的 NVME M.2接口的,您有推荐的吗?

京东有这种啊,
西部数据(Western Digital)
4TB SSD固态硬盘 PCIe Gen3 x8接口
WD_BLACK AN1500 NVMe 扩展卡SSD 疯狂速度

更高容量的,是采用PCIe x16接口
作者
Author:
djjj148    时间: 2021-6-20 23:07
请教一下,您提到“两块NVME安装到一个机器,做RAID0读写缓存”,是先把两块NVME做成RAID0,然后通过bcache把RAID0盘和数据盘制作成混合硬盘吗?如果是,那bcache的三种模式:write-through、write-back、及write-around,选哪种合理呢?

作者
Author:
abin    时间: 2021-6-21 07:29
djjj148 发表于 2021-6-20 23:07
请教一下,您提到“两块NVME安装到一个机器,做RAID0读写缓存”,是先把两块NVME做成RAID0,然后通过bcache ...

RAID0 only.
No hybrid disk.
作者
Author:
djjj148    时间: 2021-6-21 10:03
abin 发表于 2021-6-21 07:29
RAID0 only.
No hybrid disk.

您的原话是"两块NVME安装到一个机器,做RAID0读写缓存。一个8TB做数据盘,另一个8TB做备份盘,设定自动脚本, rsync增量备份。采用openPBS调度。"
我有点糊涂了,一般数据盘是挂载到/home或者某个用户的目录吧,用于存储计算得到的数据。计算节点也是直接对数据盘的目录进行读写吧?
不做hybrid disk,还想发挥NVME的高速读写能力的话,NVME做的RAID0和机械硬盘做的数据盘分别挂载到哪个目录呢?或者还有其他什么巧妙的操作呢?
作者
Author:
abin    时间: 2021-6-21 12:44
djjj148 发表于 2021-6-21 10:03
您的原话是"两块NVME安装到一个机器,做RAID0读写缓存。一个8TB做数据盘,另一个8TB做备份盘,设定自动脚 ...

"我有点糊涂了,一般数据盘是挂载到/home或者某个用户的目录吧,用于存储计算得到的数据。计算节点也是直接对数据盘的目录进行读写吧?"
显然你理解的不对。
或者你仅仅只用到了某一种部署方案,
而这个方案,和我提到的高性能读写方案不是一个事情。

“一般数据盘是挂载到/home或者某个用户的目录吧”?
我不晓得这个“一般”情况是哪里来的。
具体看你自己的解决方案吧。

“计算节点也是直接对数据盘的目录进行读写吧?”?
谁说的?
这得看具体使用场景和调优策略了。

I/O都无法控制的话,集群仅仅是集群,谈不上高性能。

另外提一下,
I/O功能是承载高性能读写操作,包括内存和硬盘两个层面。
Storage,存储,仅仅负载数据存放,具备基础的I/O性能就可以了。



我记得你有提到过自己做了集群。

如果你对于“两块NVME安装到一个机器,做RAID0读写缓存。一个8TB做数据盘,另一个8TB做备份盘,设定自动脚本, rsync增量备份。采用openPBS调度“,不甚理解,
可以推测,你自己做的集群,应该有很大的调优空间。

当然也可以采用slurm,或者其他的调度器。

作者
Author:
djjj148    时间: 2021-6-24 16:52
abin 发表于 2021-6-21 12:44
"我有点糊涂了,一般数据盘是挂载到/home或者某个用户的目录吧,用于存储计算得到的数据。计算节点也是直 ...

是的,我不太理解。
假设只有一个人,tom用万兆网络的集群,按照您说的"两块NVME安装到一个机器,做RAID0读写缓存。一个8TB做数据盘,另一个8TB做备份盘,设定自动脚本, rsync增量备份。"且不做固态机械的混合硬盘,我目前想到以下2种情况:
1. 在/home/tom/work目录下提交计算任务,把RAID0固定挂载到/home/tom/work,读写能力得到保证,通过rsync定时、增量同步到数据盘和备份盘。因为/home/tom/work已经被RAID0挂着了,数据盘和备份盘只能挂载到其他目录,假设分别挂到/home/tom/work-data和/home/tom/work-back。同时,每隔一段时间清空/home/tom/work,以给RAID0腾空间。
然而,我用超算也几年了,这样的部署方式从来没有见过。人家都是在哪个目录提交的目录,数据就会在哪里产生,不会说在/home/tom/work里提交还需要跑到/home/tom/work-data中去看,所以我网上查询后想到的是做固态机械的混合硬盘,可惜您说不是。

2. 直接在/home/tom/work-data目录下提交计算任务,提交任务的脚本中统一把输入文件先复制到/home/tom/work(对应的子目录都可以,反正就差个-data)并在其目录下计算,这样读写能力仍能得到保证。通过rsync增量且实时同步到/home/tom/work-data和/home/tom/work-back目录。这个方法“好像”合理一点,不过我依然没在超算的提交脚本中发现这样的策略。

还请您点拨一下,有合适什么方法?诸如INTEL快速存储技术?

作者
Author:
abin    时间: 2021-6-24 17:50
djjj148 发表于 2021-6-24 16:52
是的,我不太理解。
假设只有一个人,tom用万兆网络的集群,按照您说的"两块NVME安装到一个机器,做RAID ...

"人家都是在哪个目录提交的目录,数据就会在哪里产生"
谁说的?
难道你不在脚本中,
搞一搞cp之类的指令吗?

不敢居高临下,做什么点拨。
我觉得, 你看的资料对于超算的描述,以及架构逻辑,可能和我学习的不是一个东西。

INTEL超快存储技术,请恕我孤陋寡闻,不晓得。
只要硬件到位, 我调试的机器,本地可以做到7GB/s的读写。
多机器并行,也能做到7GB/s。 这里的速度我指的是写硬盘。
如果是写内存,仅仅测试网络性能,那就是网络的带宽上限了,合格的产品都可以达到标称值。

至于增量备份,
我可以做到 原始数据比如说是4GB, 每小时来一次增量备份, 保留100个时间点的备份,消耗空间大约是8GB不到。 大概类似苹果的时间机器。就是初次备份比较慢而已。 无GUI支持,最大的用处,就是防止手贱,数据干没了,可以回去按照时间去找。

相对于,告诉用户在XXX目录下做计算, 在YYY目录下存放数据。
我喜欢的逻辑是,用户就在系统默认路径存放数据,无需更改。
计算的时候,有调度系统控制读写去那里,
计算完毕后,最后的输出依旧在用户提交计算的地方。
所有的过程,都是无感,用户无需做任何必须要如何如何的操作。

至于用户,
也许仅仅需要修改核心数目,如有必要。
或许都不需要指定输入文件名。 我的机器上,的确如此,仅需执行脚本,无需提供任何其他设定。

以上个人遇见,仅供参考。
如有其他疑问,请通过签名电邮联系我。
作者
Author:
abin    时间: 2021-6-24 18:01
本帖最后由 abin 于 2021-6-25 14:21 编辑
djjj148 发表于 2021-6-24 16:52
是的,我不太理解。
假设只有一个人,tom用万兆网络的集群,按照您说的"两块NVME安装到一个机器,做RAID ...

我记得你有讲过,自己做了一个集群。

你可以做个测试。
就测试高斯吧。 标准TD-DFT计算频率,应该会涉及写硬盘。

不要弄多机器并行了。
就单独提10个计算,每一个计算都占用一整个节点。
你看看机器卡不卡?
就是在所谓管理节点上, 登录啥的, 编辑文件啥的,有没有稍微卡顿的迹象?

我实际使用的一个机器,
计算节点24台,千兆网络。
管理节点挂的RAID5阵列。
管理节点,仅有8核心处理器,32GB内存,常年负载1.0以下,从来不卡。

单位另有套集群,差不多规模,万兆光纤。
存储是浪潮的专业设备,接了好几个光纤。
管理节点,双路,48核心,96GB内存,经常爆卡。

浪潮说,是因为内存太小了,让加内存。

我只能呵呵呵。

让他们卡着去吧。 反正我不用那套机器,我也不是管理员。


补充几个图片。
以免被怀疑“张口就来”。
如下是我调试和管理的一套集群,master node过去一年的负载情形。
这套集群,具有24台计算节点,千兆互联。
头节点master node,同时负载用户登录,PBS调度,存储。
头节点处理器是 CPU E5-2609 v2 @ 2.50GHz。 系统是 CentOS release 6.5 (Final)。
已经运行快满六年了。

(, 下载次数 Times of downloads: 253)

(, 下载次数 Times of downloads: 248)

(, 下载次数 Times of downloads: 252)


作者
Author:
djjj148    时间: 2021-6-24 19:08
abin 发表于 2021-6-24 17:50
"人家都是在哪个目录提交的目录,数据就会在哪里产生"
谁说的?
难道你不在脚本中,

“难道你不在脚本中,
搞一搞cp之类的指令吗?”

也不清楚您说的“cp之类的指令"指的是备份还是留着继续其他计算。在我用过超算里,都是在哪个目录提交的输入文件,数据就会在哪里产生。如果是常规提交单独的一个任务,提交脚本里是不会有cp之类的指令的。除非有其他需要,比如想要VASP算完结构优化再算个单点做波函数分析啥的,会把之前的CONTCAR之类复制到新目录里再mpirun。。。。

当然,也可能我用的超算不多,大概有4:长沙超算,并行接下的广州超算,并行的AMD单节点64核新超算,**的单节点52核新超算。
作者
Author:
abin    时间: 2021-6-25 14:11
djjj148 发表于 2021-6-24 19:08
“难道你不在脚本中,
搞一搞cp之类的指令吗?”

你说的超算, 我用过其中两个。
管理员给的示例脚本,十分外行。
客户算的慢,机器负载高,两头都不讨好。

猜测,你似乎没有掌握控制读写的技能。
作者
Author:
abin    时间: 2021-6-25 14:51
我顺路补充一个,很多同学可能认为习以为常的现象: 机器全负荷做运算的时候,ssh登录就会卡,会比较慢。这简直是扯蛋。

我讲一个真实的故事。

有位朋友,说技术挺好,调试了一套集群。20台机器规模。万兆光纤+千兆双网络。
然后发现工作不符合预期。来找的我。

我看了下,那套集群是属于“半瘫痪"状态的:
无法让一个并行计算在多个节点运算,
这叫哪门子并行计算集群呀?
用户去任何一个节点,都要输入密码,你见过哪一个超算是这个玩法的?
还说这是为了安全。我认为对方的说法完全是文不对题。

另一个十分诡异的问题就是,一旦计算节点有任务在运行,
无论是否满负荷,ssh登录都十分卡;就算登录了,操作也很卡,卡的怀疑人生那种。
这位高人居然说,CPU有负载了, 当然会卡。
又说,交换机质量一般,网线不行之类。
我不认同。

CPU是有负载,就算负载200%,都不见得卡,况且,SWAP也没有明显使用痕迹。

ssh登录慢, 操作卡,我也见过。
就是CPU 100%负载,而且SWAP也基本耗尽的时候。

我的处理方案是,没有动任何交换机,也没有修改网络。
仅仅按照手册描述,调整了SSH配置。
立即实现了ssh登录即时响应。
就算是CPU100%负载情形下,只要物理内存还有剩余,也是即时响应的。
登录后,操作无任何卡顿。

某些片面的、固有的、基于微软桌面平台的使用经验和优化方案,
多数时候,不会给Linux平台上的并行计算,带来有价值的系统调优借鉴。

我的工作机器是Ubuntu台式机,经常满负荷跑小一些的计算。
同时,浏览器,PT下载啥的,都开着,没啥明显的卡顿呀。

以上言论,仅供参考。





作者
Author:
灰飞的旋律    时间: 2021-6-25 15:52
abin 发表于 2021-6-25 14:51
我顺路补充一个,很多同学可能认为习以为常的现象: 机器全负荷做运算的时候,ssh登录就会卡,会比较慢。这 ...

我这的集群现在不知道为啥从普通用户切换到root账号时特别慢,执行完su root后至少要等十几秒才会出来密码输入行,看了CPU负载也很低,swap也没有用到 (, 下载次数 Times of downloads: 296)

作者
Author:
abin    时间: 2021-6-25 16:01
灰飞的旋律 发表于 2021-6-25 15:52
我这的集群现在不知道为啥从普通用户切换到root账号时特别慢,执行完su root后至少要等十几秒才会出来密 ...

自己排查呗……

有时候,一下子就搞定了,
有时候,需要排查很久。

能凑合用,就对付着用吧……
如有闲功夫,可以去多方排查……

祝好。
作者
Author:
djjj148    时间: 2021-6-25 17:43
abin 发表于 2021-6-25 14:11
你说的超算, 我用过其中两个。
管理员给的示例脚本,十分外行。
客户算的慢,机器负载高,两头都不 ...

猜测倒是不用,不懂就问是我学习的方式,否则也不用一直回帖请教了。而且,我发现你回了那么多,我还是无法从其中知道你的部署方案是”当前目录提交,当前目录即时输出“还是”当前目录提交,其他目录即时输出“,可能我问到了收费内容,需要“电邮”,那不好意思了。我猜测是后者,如果是后者,我倒是觉得用你描述的方法很容易实现,我相信有个几年Linux使用经验的人都不难做到。只是因为个人习惯,我更喜欢前者,感觉更方便,所以愿意花时间琢磨。这应该也是大多数超算用户的习惯。

另,我也不知道其中两个超算的管理员是不是真外行,就我目前所见,无论是超算所用的XX目录提交-XX目录查看结果,还是XX目录提交-YY目录查看结果,仁者见仁,存在即合理,自己用的开心就好。或许,这些管理员真没您那么专业,有机会向您学习。
作者
Author:
abin    时间: 2021-6-25 18:02
djjj148 发表于 2021-6-25 17:43
猜测倒是不用,不懂就问是我学习的方式,否则也不用一直回帖请教了。而且,我发现你回了那么多,我还是无 ...

实现方案我已经提了,
脚本中进行cp mv处理即可。

需要我动手,当然需付酬劳了。

你自己动手即可。
作者
Author:
abin    时间: 2021-6-25 19:06
djjj148 发表于 2021-6-25 17:43
猜测倒是不用,不懂就问是我学习的方式,否则也不用一直回帖请教了。而且,我发现你回了那么多,我还是无 ...

我也懒得打字了,我所知道的实施方案,我已经提及了。

如果你不理解,可以找到我的即时联系方式,
打电话或者语音电话给我。

难道,通过电邮获取联系方式,会很麻烦吗?

我提及的方案都是免费公开共享的。

第三方能否实施我提及的方案,和我也没啥关系。

如需我动手部署调试,需支付茶水费,这没毛病吧。



作者
Author:
abin    时间: 2021-6-28 13:27
本帖最后由 abin 于 2021-6-28 19:19 编辑

最近出了一堆8端口的40Gbps IB交换机,
购物网站有售。
型号是 IS5022
8-port Non-blocking Unmanaged 40Gb/s InfiniBand Switch System
大概1000元左右。

但是二手的网卡可能不好找。

网络延时,大概是0.1微秒左右。
比起同规格的40Gbps的以太网,那就快多了。
另,现在有一堆56Gbps的IB网卡,
当然是拆机货了。
用来跑计算,效果应该不错的。



作者
Author:
yaohaozhe    时间: 2022-1-26 13:32
abin 发表于 2021-6-28 13:27
最近出了一堆8端口的40Gbps IB交换机,
购物网站有售。
型号是 IS5022

小白向您请教啊,这一款ib交换机商家说不要授权呢?
作者
Author:
abin    时间: 2022-1-26 13:38
本帖最后由 abin 于 2022-1-26 13:42 编辑
yaohaozhe 发表于 2022-1-26 13:32
小白向您请教啊,这一款ib交换机商家说不要授权呢?

谁卖给你的,你问谁。
不好用,可以退货呀。
作者
Author:
yaohaozhe    时间: 2022-1-26 13:51
本帖最后由 yaohaozhe 于 2022-1-26 13:56 编辑
abin 发表于 2022-1-26 13:38
谁卖给你的,你问谁。
不好用,可以退货呀。

(, 下载次数 Times of downloads: 303)
初步拟定了差不多这样的配置,能烦劳您看合理不?您的意见真的很受用,太感谢您了。
控制节点是利用现有的一套2686v4,实验室还有20余个各类型硬盘,所以就没计划采购。就是做些虚筛和动力学,老板有意下一步搞搞深度学习。让我刚入学的小白搞这个,懵逼了

作者
Author:
abin    时间: 2022-1-26 14:08
本帖最后由 abin 于 2022-1-26 14:09 编辑
yaohaozhe 发表于 2022-1-26 13:51
初步拟定了差不多这样的配置,能烦劳您看合理不?您的意见真的很受用,太感谢您了。
控制节点是利用现 ...

建议独立系统盘,
SATA固态120G或者240GB

普通千兆交换机即可, 不必2.5G千兆, 没有任何实际意义.

node5, 请确认能否充分发挥GPU性能.
node5, 主板和处理器不支持PCIe 4.0接口, 可以降低固态硬盘规格.

控制节点, 建议使用SATA 3.5寸硬盘, 便宜. SAS接口的, 相对贵. 2.5寸盘, 更坑爹.

要确保读写顺畅, 56Gbps IB, 峰值可以达到7GB/s.
目测你的机械硬盘做的阵列是读写短板.
如果读取小数据, RDMA可以解决, 但是需要控制节点内存足, 通道多.

一般而言, 机器学习之类的应用, 需要高速I/O支撑, 以及较大的空间.

其他事宜, 可以电话联系我.
联系方式看签名.
我实在懒得打字.



作者
Author:
yaohaozhe    时间: 2022-1-26 14:11
abin 发表于 2022-1-26 14:08
建议独立系统盘,
SATA固态120G或者240GB

十分感谢您的意见!大佬辛苦!
作者
Author:
abin    时间: 2022-1-26 14:36
yaohaozhe 发表于 2022-1-26 14:11
十分感谢您的意见!大佬辛苦!

【CentOS7平台Slurm调度并行计算集群搭建 真--实况录像-哔哩哔哩】 https://b23.tv/ggEB5gY

可以自己动手。

如果技术不行,让卖家配置好,测试符合符合要求再发货。
作者
Author:
feng_lei2000    时间: 2022-2-21 11:39
abin 发表于 2020-10-13 09:51
或者你买一套自己试试?

和我合作的商家,可以提供“开箱即用”体验,收到机器,打开包装,开机,按 ...

发私信还得需要等级




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3