计算化学公社

 找回密码 Forget password
 注册 Register
Views: 12639|回复 Reply: 24
打印 Print 上一主题 Last thread 下一主题 Next thread

[集群维护] 10台以下的服务器都不建议做集群

[复制链接 Copy URL]

148

帖子

0

威望

1063

eV
积分
1211

Level 4 (黑子)

就我个人使用体会,集群的构建,管理,维护都及其麻烦,我个人及其不建议只有几台机器的情况下构建集群。
集群的优点:
自动分配任务
统一管理,一次安装,同时使用
并行计算,获得更强的加速能力

缺点
1。安装管理非常麻烦
2。集群最好配置一样,如果你今年买一台,明年买一台,过几年再买一台,配置,环境都相差甚远,容易有问题
3。部分软件安装起来很麻烦,与单台节点安装有区别
4。后期维护很麻烦,如果不是集群,一台坏了就坏了,换一台就行了,集群就很烦,你修完还需要保持环境与其他一样。
5。并行效果远达不到预期,现在的机器核数都很高,动辄40+,这已经够了。如果想要跨节点并行,万兆网是最基本的,最好IB,这又是一大笔钱。有多少任务需要数百个核心并行?况且大部分软件并行效率极低。核数越多越低。
6。风险太大,所有数据都在一起存放,一旦坏了都有问题。而且磁盘阵列价格不便宜。如果是分开用,坏了也就是一部分,只需要节点内有个raid卡做备份就行了。

总之,集群管理真是糟透了,如果就是想使用pbs等快捷提交调度作业,完全是得不偿失。

1236

帖子

1

威望

3495

eV
积分
4751

Level 6 (一方通行)

2#
发表于 Post on 2021-2-4 10:47:31 | 只看该作者 Only view this author
确实,不过搞作业调度系统还是很方便的,不用搞那么多硬件上的东西

1187

帖子

5

威望

2841

eV
积分
4129

Level 6 (一方通行)

3#
发表于 Post on 2021-2-4 11:03:02 | 只看该作者 Only view this author
如果电脑都是我自己的...保证完全按照这个建议搞

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

4#
发表于 Post on 2021-2-4 11:56:56 | 只看该作者 Only view this author
本帖最后由 abin 于 2021-2-4 12:18 编辑

安装管理非常麻烦。 ============
因为可定制的环节太多,当然十分麻烦的。 依据不同的应用场景,可以做不同的定制。
基本上,大体框架相似,具体实施根据应用场景会有差异。
基于这个原因,仅有一点点单机Linux系统使用经验,是难以安装集群系统的。

管理方面,划定好调度策略后,基本是一劳永逸了。
我这边有多套集群,基本无需“管理”操作,一切都是自动化的。
唯一的管理操作,就是给新学生添加ID而已。当然也是自动化,仅需提供用户ID,然后复制粘贴输出,电邮发给用户就可以了。
脚本都是我自己写的,创建用户后,屏幕直接输出ID、初始密码、用户手册连接等信息,直接拷贝电邮发送。

总结,安装的确麻烦,不过,管理方面,的确是一劳永逸。

集群最好配置都一样
============
不同的应用场景,不太一样。
如果你的计算,是高通量筛选之类的任务,比如一下子搞2000多个计算,每一个都是一个CPU核心。
这种场景,PBS队列是最佳的选择。
如果应用场景,需要一个计算,一下子搞好多核心来做,最好保证处理器硬件都一样呀,否则木桶原理,这点还是要明确的。

后期维护方面
=========
硬件出现问题,无论是单机还是多机器,都一样死翘翘。
集群中,如果配置得当,管控节点故障,依旧能全集群调度工作正常。
比如,
管控节点硬件方面采用RAID1保证系统盘稳固;
采用系统 和 软件独立硬盘部署;软件分区故障,停机更换软件分区,仅需10分钟搞定。
硬件不坏的情形下,整个系统的稳定性,取决于搭建时候采用的策略。

至于你提到的保持环境一样的问题,我认为,你应该是缺少相应的技能。
最简单的方案是,系统,软件,数据采用物理分离的硬盘,采用硬件克隆方案。

并行效率方面
========
集群方面,并没有保证一定是提供高性能并行支持。
能否支持高性能并行计算,首先要硬件支持,其次是软件支持。
多节点并行计算,需要通过网络交换数据,网络不好,那还玩什么?
所以,并行效率的高低,和是否做成集群没关系,主要依赖于硬件以及软件本身。

数据安全问题
========
无论是单机,还是集群模式,
数据堆放在一个阵列中,的确都存在问题。
单机,数据也是自己放自己的,如没有备份,硬件挂了,数据也没有;
集群模式,数据阵列挂了,数据基本完蛋。
存储阵列需要额外支出,可能理解错了。

无论是单机还是集群模式,咨询我机器配置的朋友,
我都会问对方,如果预算可以上调1000元,建议加一个额外的硬盘,
我可以提供增量备份方案,
全自动进行, 如果原始数据100GB规模,我可以每6小时备份一次,
保留30天的历史文件,需要的备份空间大概是120GB。如需此方案,可以联系 hpc4you@163.com
虽然,硬盘挂了,不是大概率事件,但是一旦发生了,就只能哭了,多备份不是坏事。

无论哪种情形, 如果机器多,并且出现硬件不稳定的事情,都会很闹心的。
网路方面
=====
如果目的是要实现 高性能多节点并行计算,可以根据预算选择网络组件。
IB网络,成本大概5万以上;万兆光纤大概是十分一的价格,根据接口数量,大概是两千到五千之间。

我的观点是,
对于单机作业模式的场景,
推荐采用集群调度的模式来处理多台机器:
一丁点好处是,无需多次部署软件;无需在多台机器之间来回找数据,硬件成本上,可以节省存储空间的钱。
根据我多年的使用经验,
如无硬件故障,Linux上,无论是单机,还是集群模式,一旦配置完毕,基本上一劳永逸了。
如果没有做到一劳永逸,你肯定是哪里搞的不对的。
对于不采用IB网络的集群,
大多目的,都是为了方便使用,而并非多节点并行。   



评分 Rate

参与人数
Participants 1
eV +5 收起 理由
Reason
tanyazhi + 5 我很赞同

查看全部评分 View all ratings

High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

47

帖子

0

威望

1530

eV
积分
1577

Level 5 (御坂)

5#
发表于 Post on 2021-2-4 12:22:00 | 只看该作者 Only view this author
自己用怎么折腾都行。很多人一起用集群比较简单。

3098

帖子

28

威望

1万

eV
积分
16892

Level 6 (一方通行)

6#
发表于 Post on 2021-2-4 12:26:52 | 只看该作者 Only view this author
本帖最后由 liyuanhe211 于 2021-2-4 12:31 编辑

不太同意,如果一个人用,这么说没有问题。如果公用,即使只有两三个人,即使不做跨节点运行,连到一起建成集群做个简单的排队系统在管理上还是有很多优势。统一提交任务、自动化的排队、统一查看资源使用、任务完成提醒之类,做一次能省很多事情。

某课题组的机器排任务全靠抢+自觉,乌烟瘴气乱七八糟,其中有比较机智的人还去自己实现“监测某进程结束后自动运行自己的任务”、“登陆后自动检查有无正在运行的任务”之类的功能,等于把队列系统的功能重新实现了一遍,纯属浪费时间,还导致不会这个操作的人总是抢不到机器。

统一存储省事更多,否则文件拖来拖去,到要用的时候还不知道在哪台机器上,要个文件扒翻半天。统一存储能以更低的成本实现更高的数据安全性。

安装不是问题,安装有一定的学习成本,但是一旦学会(至少只用基本功能的时候)配置并不复杂。

评分 Rate

参与人数
Participants 3
eV +12 收起 理由
Reason
Butadiene + 2 正解
kay + 5 我很赞同
冰释之川 + 5 正解

查看全部评分 View all ratings

361

帖子

0

威望

4226

eV
积分
4587

Level 6 (一方通行)

7#
发表于 Post on 2021-2-4 15:00:25 | 只看该作者 Only view this author
专业的事情让专业的人去做,国内大部分课题组都是让学生去学习维护,毕业之后又得重新找人,经常青黄不接,水平参差不齐,自然会有各种各样的问题,得出这样的结论在所难免。但是实际上集群的安装和维护并没有多复杂,我管理集群十几年了,几十台服务器部署一个集群也就一两天的事情(从安装系统开始到应用软件全部部署完成),而这样的集群至少可以保证5年内稳定运行,基本不需要额外的付出,新增节点也是分分钟就加进来。

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

8#
发表于 Post on 2021-2-4 16:36:45 | 只看该作者 Only view this author
pwzhou 发表于 2021-2-4 15:00
专业的事情让专业的人去做,国内大部分课题组都是让学生去学习维护,毕业之后又得重新找人,经常青黄不接, ...

向大佬致敬。

我仅有十二年的集群使用、管理和运维经验。
主要设计计算化学方面的计算。

楼上说的对,
集群架构的原理一旦掌握,基本手到擒来。
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

374

帖子

2

威望

1539

eV
积分
1953

Level 5 (御坂)

9#
发表于 Post on 2021-2-6 07:00:19 | 只看该作者 Only view this author
abin 发表于 2021-2-4 16:36
向大佬致敬。

我仅有十二年的集群使用、管理和运维经验。

大佬厉害 我只有单机linux使用经验 之前的人走了 老板想让我接管集群
想问一下有啥推荐的学习资料?

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

10#
发表于 Post on 2021-2-6 16:15:42 | 只看该作者 Only view this author
wuzhiyi 发表于 2021-2-6 07:00
大佬厉害 我只有单机linux使用经验 之前的人走了 老板想让我接管集群
想问一下有啥推荐的学习资料?

我提供了很多资料,
去B站搜索abbottcn就可以白嫖了……

或者google openHPC。


以下是我无偿共享资料的总结,
如果你不想去B站自己找的话。

计算模拟工作站、集群相关

计算模拟工作站Linux安装分区方案推荐
https://www.bilibili.com/video/BV11Z4y1M7xZ/

王建:私有计算集群的搭建和课题组计算资源管
https://www.cailiaoren.com/m_vinfo.php?id=172&vid=1524

Microwulf: A Personal, Portable Beowulf Cluster
https://sites.calvin.edu/adams/research/microwulf/

读写对比 国家超算和私有集群
https://www.bilibili.com/video/BV1UZ4y1H793
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

11#
发表于 Post on 2021-2-6 16:18:54 | 只看该作者 Only view this author
wuzhiyi 发表于 2021-2-6 07:00
大佬厉害 我只有单机linux使用经验 之前的人走了 老板想让我接管集群
想问一下有啥推荐的学习资料?

如果你的机器可以至少单向访问互联网,
比如你的服务器,
指令可以ping到百度,

我就可以提供集群搭建和运维支持,有偿。
只要有网络就可以,
无需现场操作。
如有需要,可以联系我。
联系方式看签名。
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

119

帖子

2

威望

2075

eV
积分
2234

Level 5 (御坂)

12#
发表于 Post on 2021-2-7 19:59:50 | 只看该作者 Only view this author
这些缺点除了第2点,其他的都是因为技术不行才有的烦恼。

148

帖子

0

威望

1063

eV
积分
1211

Level 4 (黑子)

13#
 楼主 Author| 发表于 Post on 2021-2-10 23:14:56 | 只看该作者 Only view this author
abin 发表于 2021-2-4 11:56
安装管理非常麻烦。 ============
因为可定制的环节太多,当然十分麻烦的。 依据不同的应用场景,可以做不 ...

你说的集群这些优点,必须要大规模才显示出来,我帖子说的就是10台以下,为什么要集群呢?一共几台机器,还要管理,存储,架构?何必呢?按学生类型分配即可,各用各的机器。无脑上集群,纯粹是为了集群而集群。

148

帖子

0

威望

1063

eV
积分
1211

Level 4 (黑子)

14#
 楼主 Author| 发表于 Post on 2021-2-10 23:19:03 | 只看该作者 Only view this author
liyuanhe211 发表于 2021-2-4 12:26
不太同意,如果一个人用,这么说没有问题。如果公用,即使只有两三个人,即使不做跨节点运行,连到一起建成 ...

没有集群还搞排队这是课题组管理者智商问题,跟集群与否毫无关系。
如果是集群,那我给你一个人数个作业的权限。
如果不是集群,按照计算需求分配固定机器即可。
无非一个软分配,一个硬件分配。这都能搞得乌烟瘴气,说明老板水平太次。

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

15#
发表于 Post on 2021-2-11 07:19:19 | 只看该作者 Only view this author
ChaosChiao 发表于 2021-2-10 23:14
你说的集群这些优点,必须要大规模才显示出来,我帖子说的就是10台以下,为什么要集群呢?一共几台机器, ...

期望你可以找到最佳的高效率使用方案。

或许你已经找到了适用于自己应用场景的无脑方案。

其他方面,我持保留意见。

评分 Rate

参与人数
Participants 1
eV +5 收起 理由
Reason
djjj148 + 5 就像会编程的批处理,不会的手动操作一样。.

查看全部评分 View all ratings

High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 12:23 , Processed in 0.564313 second(s), 22 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list