本帖最后由 abin 于 2022-6-9 11:07 编辑
这是一个升级版本, hpc4you_toolkit v2.
如果你喜欢读英文手册, 那么在这里.
https://github.com/hpc4you/hpc
https://hpc4you.github.io
里面就包含图片这几个文件, 如下图:
再简化
将简化进行到底.
现在用户只需输入
后续所有的东西, 都会以绿色字符提示.
仅需根据屏幕提示, 复制绿色内容, 粘贴按回车键即可.
我觉得, 编辑/etc/hosts文件,
写入机器IP和机器名, 这个不是什么很难的事情.
能用Linux做计算的, 应该晓得如何向机器发送文件的是吧?
应该能找到文件在哪里的是吧?
如果你还是找不到上传后的文件放哪里了? 没关系, 我给你一条指令, 复制粘贴一下,
所需的文件code和压缩包hpc4you_toolkit-XXX.tgz就出现在你的机器上了.
是不是很简单?
化繁为简, 做集群只需四步
用户仅需进入hpc4you-toolkit文件夹,
依次运行step1.sh, step2.sh, step3.sh, step4.sh. 具体如下:
第一步
会要求输入一次密码, 并按大概5次回车键; 主控节点会重启.
第二步
再次登录master节点, 运行:
运行完毕后, 会提示运行step3.sh. 机器不会重启.
第三步
运行完毕后, 整个集群会重启.
第四步
再次登录master节点, 运行:
整个集群会重启.
然后集群, 就搞定了.
修改了一下, 以免有小朋友把四条指令, 依次复制, 一起给粘贴到终端了, 然后抱怨这啥玩意啊....
======================
实施前的准备
- 登录每一台要参与集群的机器, (既然要登录, 应该晓得IP地址的), 记录hostname输出值
- 选择其中一个核心少硬盘多的机器作主控节点
- 在主控节点修改/etc/hosts文件, 写入IP和hostname映射, 但是保持既有的/etc/hosts内容不修改.
- 修改所有机器的root登录密码为同一个.
# /etc/hosts文件示例如下
## server infos
192.168.21.2 server1
192.168.21.34 yyds
192.168.21.74 work
## for cluster
192.168.21.2 node1
192.168.21.34 master
192.168.21.74 node12
示例文件显示,
- 有三台机器, 其中192.168.21.34用来做主控节点;
- 前后顺序没关系;
- 计算节点必须是nodeXX, XX可以不连续, 但是必须是node开头.
- 如果, 已经修改了计算节点机器名为nodeXX, 登录节点机器名为master, 那么只写下面的# for cluster字段内容即可.
不要求是在同一个LAN, 只要机器相互网络畅通即可.
显然, 机器名不能重复; 机器名当然不能是 localhost, 或者 null.
操作演示视频
更多信息
请查阅这里. https://gitee.com/hpc4you/hpc
其实也不用看手册, 就是按照顺序运行而已.
工具套件获取, https://gitee.com/hpc4you/hpc
另, 关于老版本的描述在这里 http://bbs.keinsci.com/thread-28395-1-1.html
补充说明
该方案涉及到一个核心组件, setup_hpc, 这是我自己写的, 有软件著作权证书. 其他比如slurm等及其相关依赖, 均来自各系统官方软件源, 经由apt/yum/dnf安装.
显然, 这些玩意, 仅仅安装是无法使用的, setup_hpc会自动配置.
安全性? Linux系统管理权在你手里, 安全问题当然是自己负责了....
如果怀疑setup_hpc安全隐私问题, 配置完毕后, 拔掉对外网线不就得了...
反正私有计算集群, 基本都是放在私有局域网的, 物理隔离的安全性还是挺高的....
最大的安全隐患, 可能来自root权限的实际操作者....
|