计算化学公社
标题: 零基础构建SLURM调度并行计算集群 [打印本页]
作者Author: abin 时间: 2022-3-17 17:10
标题: 零基础构建SLURM调度并行计算集群
本帖最后由 abin 于 2022-5-5 21:31 编辑
新版在这里.
http://bbs.keinsci.com/thread-29423-1-1.html
特别提示
本方案的设定, 是假定您的计算机技能,
停留在多数简历里面描述的“熟练掌握Micosoft Word, PowerPoint, Excel; 会使用Origin绘图, 会PhotoShop简单修图“这个水平, 以及可能重装微软系统都不会的状态.
但是能区分清楚键盘上的字母键, 数字键, 方向键, 并理解复制粘贴指令后, 还需按Enter键这种操作逻辑.
本方案半自动调试集群,
如果能用vi, 仅需用vi修改一个文件. (不要求会用, 会用vi得多牛呀, 能用vi添加几行内容和会用vi是两回事情)
如果不晓得如何使用vi, 您可以在微软编辑文件, 而后PDF教程有提供完整的指令, 只需复制粘贴, 然后按Enter, 就可以搞定.
整体耗时大约在30分钟到45分钟左右, (具体取决于网络快慢), 集群即可处于可用状态.
整体过程类似DFT的黑箱操作, 而不是教你如何调试集群.
本方案, 是黑箱过程.
类似于DFT/B3LYP做计算, 您至少需要提供坐标文件;
本方案中, 您仅需提供“机器的坐标文件”, 就是机器的名字和网络地址呀, 可以在微软编辑/etc/hosts文件, 也可以在服务器编辑/etc/hosts文件.
如同您可以在微软编辑输入文件, 或者直接服务器编辑输入文件一样.
本方案, 不是手把手的集群搭建教程.
注意, 本教程中提到的指令, 仅有几条, 是需要从PDF复制粘贴, 其他的指令, 都会在屏幕提示, 根据场景, 会标注为绿色, 和红色.
不需要用户手动输入任何东西.
这就是本方案宣称的不需要电脑技能.
如果您特别热衷于“搞机”, 热衷于Linux自由配置,
其实你完全可以看slurm原英文manual, 就可以搞定所有的事情, 但是可能需要十多个小时, 或者更久.
本方案也不适用于能熟悉操作网管交换机, 轻松摆弄PXE网络启动的技术大佬.
您完全可以选择更佳专业的openHPC, 或Rocks Cluster方案, 或IBM的xCat方案. 至少前两个都是免费开源的.
估计需要一定的Linux技能或者相应的IT技能才能玩得通.
hpc4you toolkit,
适用于基于CentOS 7.x, 8.x, 8 Stream, Rocky Linux, Ubuntu 20.04系统搭建并行计算集群.
无需任何Linux操作技能, 只需打开终端, 依照操作手册, 复制粘贴屏幕提示指令即可.
操作演示:
使用hpc4you toolkit, 搭建集群流程.
依次复制粘贴手册提供的指令即可.
现场只需要输入一次root密码, 并按5次回车键.
(, 下载次数 Times of downloads: 264)
更多讯息,
请查阅
https://gitee.com/hpc4you/hpc
作者Author: abin 时间: 2022-3-19 15:14
本帖最后由 abin 于 2022-3-31 23:52 编辑
更新:
考虑到很多小朋友,
没有耐心逐帧查看演示视频,
特意在网页 https://gitee.com/hpc4you/hpc
添加了新版的手册, 里面添加了很多关键步骤的屏幕输出信息截图.
更新后的手册也在手里:
(, 下载次数 Times of downloads: 60)
推荐去 https://gitee.com/hpc4you/hpc 下载手册, 哪里可能是最新版.
作者Author: abin 时间: 2022-4-13 15:10
本帖最后由 abin 于 2022-4-13 21:50 编辑
今天,
一位南京高校的科研工作者评价说,
“(hpc4you toolkit)是计算机外行开发的, 专门适用于做计算模拟的计算机外行使用的专业工具“.
甚感欣慰.
首先, 我从未研修过任何计算机专业课程, 也未曾参加过任何计算机等级考试. 的确是计算机外行.
其次, 我使用并行计算集群, 有超过15年的经验. 我十分清楚, 计算模拟方面, 并行计算如何跑的更快.
最后, 我这套工具的设计, 就是假定用户无需电脑技术; 用户只需复制粘贴红色或者绿色指令, 并按Enter就行.
是的, 你没有看错.
如果使用hpc4you toolkit solo, 给单机/工作站安装workload manager,
你无需输入任何东西, 仅需按照屏幕提示复制粘贴指令, 耗时约5~30分钟, 具体取决于系统版本和网络.
如果使用hpc4you toolkit, 组建集群,
你仅仅需要, 在微软创建一个文档, 写入:
- 192.168.1.254 master
- 192.168.1.2 node01
- 192.168.1.3 node02
复制代码
然后, 依照手册, 和屏幕提示, 运行各个模块即可. 全程耗时约30~60分钟, 具体取决于网络和机器数量.
其他什么都不需要.
甚至, 这套工具, 都没有预留任何“可供运维收费的后门“.
因为这套工具做成的集群, 是免维护的.
何来需要运维费用之说? (当然,硬件坏了, 和我没关系呀, 我只负责系统, 不维修硬件).
工具价格, 相当于三五人吃个普通的烤串.
访问 https://gitee.com/hpc4you/hpc 了解详情.
对于没耐心的,
请运行:
- bash <(curl https://gitee.com/hpc4you/hpc/raw/master/getInfo.sh)
复制代码
作者Author: abin 时间: 2022-4-13 21:51
本帖最后由 abin 于 2022-4-13 21:54 编辑
经清华李姓学子指点, hpc4you toolkit, 即日起, 仅提供可供使用的二进制版本, 无原始代码提供.
清华李姓学子期望我分享工具套件的实施过程以及设计原理,
并问我以上的bash指令, 是否用来做鉴权加密的?
提到自己搞明白后, 做成付费课程售卖, 再赚取运维费用.
我提到, 既然你是商业目的, 请支付一点咨询费再说哦.
对方不愿意支付任何咨询费.
虽然, 我的bash脚本只是获取目标机器的系统版本, 内存容量, 硬盘数目等信息.
虽然我之前提供的版本, 都是源码可见的.
那就搞成二进制版本好了.
以免被他人修改后, 添加了后门,
通过信息差, 诈骗高额运维费用.
再次声明, hpc4you toolkit所构建的集群, 除非硬件故障, 集群系统本身免维护, 无需任何运维操作.
不要抬杠呀, 添加删除用户, 当然需要自己动手了. 手册中都有写的. 这种操作, 不算运维范畴吧?
手册也有写, 硬件更换后, 如何维护. 硬件工具大概300元(京东有售哦), 系统盘大概100元, 动手20分钟, 自己500元的成本就能搞定(其中100元算自己的工时费).
做一套并行计算集群, 淘宝上的报价, 应该是3000~5000起跳 + 500 x 机器数.
记得有一位朋友, 20台机器, 千兆网络, 做成集群, 3万, 仅集群本身哦, 不包含其他软件的调试.
作者Author: 红米饭1234 时间: 2022-4-14 14:57
为什么不出一个搭建LSF作业调度系统的教程呢?我觉得LSF蛮好用的
作者Author: abin 时间: 2022-4-14 15:34
本帖最后由 abin 于 2022-4-14 15:40 编辑
IBM的东西,有完整的商业模式,也有商业支持。
直接联系技术支持即可。
(, 下载次数 Times of downloads: 72)
Will you pay the price?
作者Author: abin 时间: 2022-4-17 09:28
本帖最后由 abin 于 2022-4-17 13:31 编辑
hpc4you toolkit solo, for workstation, starts at 248 RMB.
hpc4you toolkit, setup HPC by yourself, starts at 398 RMB.
Please contact ask@hpc4you.top for price and discount details.
Remember to use your education email to apply for the discount,
and mention your name and field of study.
This toolkit is only free if you come to my office in person to ask for it.
For video tutorials, go to bilibili.com, under user ID abbottcn,
and search for "hpc4you toolkit".
For more info, https://gitee.com/hpc4you/hpc
Good Luck.
(, 下载次数 Times of downloads: 75)
作者Author: abin 时间: 2022-4-27 19:29
本帖最后由 abin 于 2022-4-27 22:15 编辑
补充一下,
电脑技能要求更新一下。
用户,可以从手边操作的机器,
连接Linux 机器,
并能上传和下载文件。
仅此而已。
因为我的脚本会生成一个文件,好多人说找不到文件,
也不晓得怎么把这个文件拿回来……哎……
修正一下.
必须具备的电脑技能- 至少能区分清楚键盘上的字母、数字、方向键以及Enter键.
- 知晓并清楚, ESC键, Tab键, 在键盘哪里, 而非依次按字母E S C.
- 知晓并理解 复制粘贴指令到Linux终端之后, 必须再按Enter键 之操作逻辑.
- 知晓如何在微软和远程Linux机器之间, 传送文件. 视频教程在这里 Transfer files: Linux <--> Windows, https://www.bilibili.com/video/BV1fJ411n7uV
简单总结为, 能独立完成通过微软登录远程Linux机器, 完成基本的计算任务即可.
仅要求这点电脑技能.
作者Author: abin 时间: 2022-4-29 10:45
本帖最后由 abin 于 2022-4-29 10:47 编辑
受华为 openEuler sig-HPC 邀请,
简单介绍了 hpc4you toolkit “傻瓜式”集群部署方案特性和设计初衷.
https://www.bilibili.com/video/B ... arch-card.all.click
如有兴趣, 可以观摩会议录播.
会议纪要在这里: https://etherpad.openeuler.org/p/sig-HPC-meetings
只要你能完成通过微软访问Linux这件事情,
那么 hpc4you toolkit, 就能让你以“复制+粘贴+按回车键”方式完成集群搭建.
如果你使用的是MobaXterm访问Linux机器的ssh,
那么对于屏幕上提示的指令, 可以通过鼠标左键双击+鼠标右键单击+按回车键 完成.
几个重启后要继续执行的指令, 档案是从PDF手册复制后在粘贴了....
作者Author: 独孤天血 时间: 2022-4-29 15:36
这个是使用脚本方式部署的么
作者Author: abin 时间: 2022-4-29 16:47
看你怎么定义脚本了?
如果认为文件名类似 FileName.sh 就是脚本, 那就是吧.
手册和演示视频中, 有示例.
欢迎光临 计算化学公社 (http://bbs.keinsci.com/) |
Powered by Discuz! X3.3 |