计算化学公社

 找回密码 Forget password
 注册 Register
楼主 Author: ChaosChiao
打印 Print 上一主题 Last thread 下一主题 Next thread

[集群维护] 10台以下的服务器都不建议做集群

[复制链接 Copy URL]

3098

帖子

28

威望

1万

eV
积分
16892

Level 6 (一方通行)

16#
发表于 Post on 2021-2-15 16:32:07 | 只看该作者 Only view this author
本帖最后由 liyuanhe211 于 2021-2-15 16:51 编辑
ChaosChiao 发表于 2021-2-10 23:19
没有集群还搞排队这是课题组管理者智商问题,跟集群与否毫无关系。
如果是集群,那我给你一个人数个作业 ...

分配固定机器策略的使用效率显然低于集群+排队系统、浪费显著。关于固定作业数量的策略,考虑到每个作业消耗资源显著不同,不论是固定每日作业总数量、或者是固定作业的并发数量都会在有些使用场景下非常低效。相对来说,固定作业总时间的策略相对合理一点,但是在没有排队系统自动限制的前提下难以实施,或者说需要消耗很多人的精力才能实施(不论是管理者还是使用者)。
完好的策略接近于“若使用者A当日机时小于某阈值,使用者A可提交任务;若高于某阈值,其他使用者可优先提交任务,但如果其他人没人用,则A可继续使用;但若A只做运行时间少于10分钟的测试性任务,可以先让它用一会儿;白天、夜晚机时的使用率不同,可以分开管理;使用者A在计算机α,β上的优先级比B高,但是在计算机γ上的优先级比B低;...... etc”,实现这些规则之后又等于手写了一个排队系统。

这些策略也都不能解决凌晨两三点-早晨时段的大量机时被浪费。

即使你认为存在所有人自觉、所有人能记得自己今天使用了多少机时、每个人运行每个任务前查看每台机器有没有任务在跑的情况,单是自动实现前述任务(在凌晨三点)结束后自动运行我的任务、自动列出空闲机器并将任务分配到其上、不必在各个机器间做文件管理并重复占用存储空间等功能,就足以抵偿配置集群和排队系统的时间消耗。在后期维护上,根据使用经验,搭好之后,管理集群的时间消耗和上述优势相比数量级不同,可忽略。

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

17#
发表于 Post on 2021-2-16 07:37:22 | 只看该作者 Only view this author
也许最大的误解或者理解偏差,
源自于中文排队二字。

无论是单机工作站,还是多机器集群模式中,
所谓的排队系统,
基本功能仅仅是保证,
计算任务‘按票入座’,
可以理解为,实际上有48个核心,
一个任务要了4个核心,
那就给四个紧挨着的核心,
其他核心不允许动,用户的计算仅在这四个核心上运行。

也会出现等待状态。
比如,把所有核心比作飞机上的座位,
实际的任务比喻为买票坐飞机去送快递。
飞机上座率比较高的时候,
一次性预定十个挨着的座位,
可能会没票,票务公司告诉你等待,等下一个航班再试试。
而另一个客户,任务量小,
仅仅需要一个座位,很容易要到座位的。

所谓的胖节点,可以理解为头等舱。

排队,仅仅是规范所有核心按照顺序被依次使用。
调度排队系统,
仅仅像一个票务系统一样,
如果用户数量不足十人,
且访问查询量,
远低于每秒钟100次,
排队系统根本不占用什么资源的。

对于常见的应用场景,
比如给一个学生一个工作站,普通双路机器,
56核心。
学生规划为,每个计算用28核心。
可能有三五个计算,同时开展。
如果是采用mpirun来处理的,
那么发现某一个计算搞错了,如何去干掉这个错误计算,
而又不影响其他计算呢?
对于普通用户,难度是很大的。
pkill不行,会干死其他计算的。
kill PID,你需要记录多个编号的,操作是否边界,不评价。

如果用了所谓队列管理,
可以通过作业名和一个数字编号,
既可以轻松锁定计算任务。

不久前,课题组一个新来的学生,
主动要求,能否给她单独使用的工作站,
配备队列系统,以方便使用vasp。
虽然,她的导师,也是我的同事,
和楼主一样的想法,
工作站,就你一个人用,
搞一个排队系统,脑子是不是进水了?
我这里的几套集群,当然有队列系统。
不过实际操作发现,
用了队列模式后,
用户仅需按照进度,把想要计算的东西,
直接队列提交即可。
按照预估的时间,去查看计算结果,
分析数据即可。

当然也可以设定为,计算完毕后,
邮件提醒,短信提醒,
或者微信推送。

排队系统,
就如同票务代理公司,
你告诉我,我这次任务,
需要十个票,
票务公司就不停的轮询多家航空,
有没有票?
而不是,由自己,亲自不停地,
逐个航空公司去查询。

以上描述,仅仅代表我自己认知。
不评价其他任何内容。
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

25

帖子

0

威望

983

eV
积分
1008

Level 4 (黑子)

18#
发表于 Post on 2021-2-16 20:17:51 | 只看该作者 Only view this author
只要是人就想摸鱼,比如有些学生,特别是低年级的学生刚入门,那真的是纯粹摸鱼,而且硕士马上就毕业了。你能指望他们干啥呢?一般管理者都是重度使用者,课题组尤其如此。所以哪怕是10台,我感觉还是要想办法搞集群。当你手上只有弓箭的时候,你至多会想杀个野猪玩玩。但当你手上有枪的时候,你就会想毒打森林之王。算力亦如是。想法多一点,以后牛皮才有的吹,况且你的试错成本很低好不好。。。

161

帖子

0

威望

2635

eV
积分
2796

Level 5 (御坂)

19#
发表于 Post on 2021-2-17 11:26:11 | 只看该作者 Only view this author
刚弄了一套,管理节点一台,剩下5台配置基本上都不同,感觉还是这样方便,要不一台台的折腾死。

统一管理还是方便。

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

20#
发表于 Post on 2021-2-17 12:51:37 | 只看该作者 Only view this author
alwens 发表于 2021-2-17 11:26
刚弄了一套,管理节点一台,剩下5台配置基本上都不同,感觉还是这样方便,要不一台台的折腾死。

统一管 ...

管理节点亦可承担计算任务,
可以根据负载,
预留几个核心承担调度和读写负载。

如果集群调度很简单,
可以预留一个核心或者不预留核心,
所有的核心都用来做计算。

具体要根据读写压力和实际配置,酌情处理。
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

50

帖子

0

威望

1491

eV
积分
1542

Level 5 (御坂)

21#
发表于 Post on 2021-2-17 20:12:08 | 只看该作者 Only view this author
只要超过一台,都应该做成集群管理。

32

帖子

0

威望

505

eV
积分
537

Level 4 (黑子)

22#
发表于 Post on 2021-3-4 09:43:42 | 只看该作者 Only view this author
abin 发表于 2021-2-4 11:56
安装管理非常麻烦。 ============
因为可定制的环节太多,当然十分麻烦的。 依据不同的应用场景,可以做不 ...

做高通量筛选的话集群主要是操作方便些,不弄集群其实也一样跑

120

帖子

0

威望

2560

eV
积分
2680

Level 5 (御坂)

23#
发表于 Post on 2021-3-4 11:39:13 | 只看该作者 Only view this author
abin 发表于 2021-2-4 11:56
安装管理非常麻烦。 ============
因为可定制的环节太多,当然十分麻烦的。 依据不同的应用场景,可以做不 ...

集群还有一个好处,机柜放在单独的房间,隔离噪音源,提升科研环境体验。

120

帖子

0

威望

2560

eV
积分
2680

Level 5 (御坂)

24#
发表于 Post on 2021-3-4 12:35:30 | 只看该作者 Only view this author
其实还应该考虑到人均,如果刚好人均一台多一点,那么集群看起来确实没什么必要。但是有一个问题,就算只有两三台,办公室也会很吵,除非你上水冷,而集群可以放在单独的房间,隔离噪音。每年都有新增机器,硬件配置不一致确实看起来挺麻烦,主要还是队列抢占的问题,大家都想用最新的机器,软件环境一般可以批量配置,问题不大。最后决定还是看你能忍受噪音还是折腾机器了。多人共用一台的情况,每个人都要分配账号,这样可以分隔不同的使用习惯,各自折腾各自的,互不影响。

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

25#
发表于 Post on 2021-3-10 11:56:41 | 只看该作者 Only view this author
如果计算不能在当天工作日完成,
有队列的模式,
可以有效利用晚间睡觉的时间来处理非交互式计算任务。

这种情形下,也许5个人,四台机器就可以了。
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 12:32 , Processed in 0.183057 second(s), 20 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list