计算化学公社

标题: 8375c集群的配置与疑惑 [打印本页]

作者
Author:
hgyhgy    时间: 2022-4-18 14:57
标题: 8375c集群的配置与疑惑
本帖最后由 hgyhgy 于 2022-4-18 23:52 编辑

我采用了一台i5做前台,4台8375c作为计算节点,机械硬盘放i5,为了改善计算节点的散热。它们之间通过交换机连接起来。然后i5加购了一个网卡,与外界网络连接。

1.远程登录

我需要远程登录机器。由于没有公网ip,这个直接ssh登录不可行。我看了一下,主要是有ngrok和frp内网转发。发现要求支付宝视频验证什么的。不清楚是否安全就没弄。
商家那里使用向日葵远程控制软件。我登录了一下,发现比较好用。
就在i5的系统里装了一个向日葵。向日葵好像只支持x11的gdm,不支持wayland。最终发现要把默认的wayland改为x11, 才能正常使用。(安装过程也有问题,网上有解决办法)
由于开始的时候,安装不了向日葵。于是尝试安装teamviewer。这个teamviewer很奇怪。第一次安装好,能正常远程登录。于是想注册一下。结果注册完,总是说密码不对,点忘记密码,重设密码后,依然不对。注册第二个账号,也是同样的问题。这个十分奇怪。于是尝试安装todesk。这个比较顺利,稳定性好像还可以。todesk似乎有一个问题,比较占本地电脑的资源。家里电脑性能不好。开着,电脑变得很慢。todesk的优点是连接上的速度快,也有可能比较占登录的机器的cpu资源。todesk没有ssh隧道的功能。

向日葵有一个ssh隧道。我开通了一个"一个月试用",9元。似乎速度还不错。就是这个ssh隧道,不能使用其他如xshell的软件。拷贝文件,也似乎只能用它的远程文件的功能。这个不太方便。
向日葵也有一个命令行的版本。按网上的方法正常安装了。也能运行。就是界面乱,根本就无法输入账号和密码。不清楚是什么原因。
这个向日葵不好的地方,就是要登录图形界面。这可能会不稳定。我试过了好几次连不上,但后来似乎又好了。
这个ssh隧道,速度会很快,感觉不到有输入延迟。不像远程登录后的命令行界面那样有延迟。
如果向日葵也弄一个不用启动图形界面就可以正常工作的命令行版本,直接通过配置文件配置,不要弄那个话花屏的界面,那就比较理想。
这个向日葵的ssh隧道不能使用xshell也是一个较大的缺点。使用xshell,是可以在命令行界面输入命令就往本地硬盘读取或写入文件的,这个功能还是比较方便的,节省许多操作时间。

2.网络配置

据说,计算节点最好不要直接暴露给外网,避免被攻击。于是我就采用了,计算节点连接交换机,交换机连i5的一个网口。i5的另一个网口与外界连接的方案。

我把这些内网计算结点和i5接内网的网卡都设为了静态ip地址。gateway设为了i5接内网的网卡的ip 192.168.2.1。我设了DNS=8.8.8.8。

然后在i5上开启路由转发。方法如下:

a.在i5上打开包转发功能。

在/etc/systl.conf文件中添加如下一行
net.ipv4.ip_forward = 1
设完后,执行sysctl -p命令马上生效

b.打开iptables的NAT功能
通过ifconfig查询到外网卡名,用(外网卡)表示。把实际的外网卡名替换掉(外网卡)
iptables -t nat -A POSTROUTING -o (外网卡) -j MASQUERADE
在cent os8.5中找不到有iptables这个文件,只有iptables-config。我把它放在了iptables-config里,发现重启电脑,并无效果。
于是我把它放在了.bashrc之中。这算暂时的解决办法。
网上许多地方都是使用下面这个命令的:
iptables -t nat -A POSTROUTING -s 192.168.2.0/24 -d 192.168.3.0/24 -o (外网卡) -j MASQUERADE
但是这个命令起不了效果,原因不清楚。就只是多了"-s 192.168.2.0/24 -d 192.168.3.0/24"这个,结果计算节点就访问不了外网了。
网上也有用其他命令的,也没效果。找了很久,才发现不加地址的命令才有用。

这里我有一个疑问:
内网的地址是192.168.2.x的,外网是192.168.3.x的。采用上面说到的网线接法。
如果内网的计算节点的ip地址设为192.168.3.x,那么虽然这个计算节点接到了i5的192.168.2.1的内网网口上,外网还是能够直接访问这个计算节点的网卡。
我不明白其原因。

3.ipmi的网址设置
我暂时还是把计算节点的ipmi地址设为了外网网址。这样即使登录不了i5的图形界面,依然能从外网访问这个ipmi。
如果为了安全,似乎应该把这ipmi的地址设为内网网址。
好像也有基于ssh的ipmi管理工具。暂未了解和使用。

4.安全性
我试过关闭selinux。
vi /etc/selinux/config
把SELINUX=enforce 改成disabled就可以了,重启电脑

结果电脑的ssh变成不能登录了。原因不明。幸好向日葵依然能登录,把设置改回来才能ssh登录。


由于向日葵登录i5, 似乎也没什么安全可言的了。机器数据也没什么秘密,估计只怕被黑客利用来跳转干坏事什么的。
8375是否直连路由似乎也对安全没多大影响。

由于外网必须经过i5,才能访问内网计算节点。i5又只是普通电脑。不清楚稳定性方面会怎样。实在不稳定就让计算节点与外网直连。

我看一些优化什么,是把内网计算节点的selinux,防火墙什么都关闭。这个关闭了slinux,ssh是否就不能用了?不清楚,这种优化有多大的效果。

5.风扇
这个如果机箱安装很多风扇。商家一般就随意接上,不一定都接到主板上面。大家还是要注意一下。最好是购买之前就说好要求。不然到时可能会嫌你麻烦。

6.测试

商家说测试了,我不清楚是否有实际测试。

a.内存测试
我就装了个memtest86+内测试一下内存。只能以虚拟光盘的方式启动测试,放到grub里面,会刚测试就导致系统重启。成功用虚拟光盘引导启动后,软件对键盘和ipmi的虚拟键盘都不响应,无法更改成并行测试,只能使用默认的串行测试。结果速度太慢了,我就停了,没继续测试。网上有提到过,说是usb键盘的原因。找不到解决办法。于是,我就放过这个内存测试。

b.cpu测试
然后我装了一个stress的测试软件。
使用stress -c 64来让全部cpu工作起来。

我发现4台中其中一台的VRMcpu1的温度保持在90度附近。VRMcpu2的温度低许多。这个是DAI的主板。据说有两个MOS散热器。不清楚商家的环境温度。
似乎在90度附近,问题也不太大。

其他几台的风扇就接得不好了,有许多都直接接到了PWM-hub上面,温度就高些。大概在92-93度附近。其实也差别不大。

其中一台的温度达到96度。这台机器最终发现是由于PWM-hub有问题,需要更换才行。

我很早就让商家把风扇调好的。但拖了很久,才把风扇重新接好。重新接好了,又要急着发货,就没法测试,其他几台把风扇都接好后,是否VRMcpu1的温度能保持在90度附近还是不清楚的。
建议大家购买之前就要提前说好这个事情。

我是采用追风者614pc的机箱。额外增加了4个风扇。顶部加装2个,底部加装2个。

我看设置里把全部风扇调为全速,其中有一些风扇的速度都依然比较慢。那些风扇,可能是特殊的风扇。具体情况我也不了解。
这个你购买了机器,商家就不怎么理你的了。最好是要提前定好要求。

采用8375c,DAI的主板的,VRMcpu1的温度还是有点高,在90度附近。风扇接不好或者有故障,可以达到96度。把全部风扇接好,能够在ipmi上查看状态还是比较重要的,因为这可以发现硬件是否有故障。(我只是采用stress -c 64施加负载进行测试。)

7.系统
本来我看论坛,许多人在用centos,于是就直接选了centos 8.5。
结果后来发现,centos被停止了,后续不再支持了。安装源也难找到。临时也难以改变,于是还是继续用centos。
商家找不到centos 8.5的ISO。让我找了一下,我当时不清楚情况。就找了一个centos 8.5 stream的。
后来才发现。
这个我是否有必要把它改回centos 8.5,还是继续使用stream?
据了解:
在2021年底,CentOS 8将不再维护,但CentOS 7将以支持维护的状态坚持到2024年。
这个似乎centOS 7更好,它还多了3年的维护期?


由于现在系统并未装多少东西,ipmi也容易重装系统,目前重装或者更改系统也是很容易的。以后都安装上软件了,就难变更的了。

8.商家服务
这个购买之前说好的,购买了之后不一定能做到。
售前人员和技术人员不一定对接得好。
最好是提前和技术人员弄清楚状况。这次购买,我就不清楚情况,以为商家会按要求弄好了,就没自己去弄。
不然提前知道是这种,就不会在白白等待,浪费了那么长的设置和测试时间。他们不会弄,也不去弄,但又不告诉你。
其实,也不必商家提供什么服务的,问题是你以为它会提供,你就只是在等待。
当然,资金充足的,可以购买那种有服务的。设置起来还是挺麻烦,如果一点都不懂,全靠baidu和bing搜索解决,虽然不是太困难。


9.图形界面
由于远程登录的三个软件,都只能登录图形界面。我发现那个centos的图形界面反应很慢的。那个命令行终端开始的时候出现了好几次,转圈圈启动不了的情况。后来好像又好了,由于商家提高了远程登录的电脑ssh到机器上面,就很少登录这图形界面。于是我想装个其他的桌面GUI,看看有没有改善。默认的是GNOME的。我装了一个MATE。但无法让它以MATE登录。我用vnc view登录,在登录界面,也不能找到把桌面切换为MATE的选项。后来我就装了centos的workstation包,似乎图形界面的响应有改善。
这个有没有办法弄一个响应快些的GUI界面?一个i5,6核的机器,应该不至于响应速度那么慢才对。





























作者
Author:
abin    时间: 2022-4-18 16:32
本帖最后由 abin 于 2022-4-18 16:35 编辑

CentOS 图形界面登录慢, 不可能.

CentOS 8 会继续采用滚动更新的模式发布.
如果喜欢之前的方案, 可以使用Rocky Linux来替换.
Rocky Linux基于RHEL的源码打包, 这个行为和之前的CentOS一样.

看看这里https://gitee.com/hpc4you/hpc  里面的PDF文档可能有你要的东西.

要留意, 向日葵会莫名其妙的给root用户的.ssh中注入key....然后你懂的.

如果喜欢图形界面访问机器, 试试ToDesk.


另, 关于网络,
比如这里 https://gitee.com/hpc4you/linux
有一个nat.sh, 现成的, 是不是? 挺好用的.

作者
Author:
hgyhgy    时间: 2022-4-18 18:09
本帖最后由 hgyhgy 于 2022-4-18 18:11 编辑
abin 发表于 2022-4-18 16:32
CentOS 图形界面登录慢, 不可能.

CentOS 8 会继续采用滚动更新的模式发布.

不是说centos图形界面那种登录慢。是说向日葵登录这个界面,它要找一会儿,才能显示登录界面。

我说GNOME的界面慢,是说登录之后的界面。开始装了的是带GUI的服务器。我发现响应很慢。然后我就加装了一个桌面版。这i5实际上也算不了什么作业。它内存少,cpu数量也少。资金不足才买的。

ToDesk的图形界面好像是稳定一点。但似乎更占计算机资源。不能十分肯定。

其实不是喜欢用图形界面访问机器,是这三款中只有向日葵提供ssh隧道(付费的)。

CentOS 8变成了CentOS stream的了。它并不是centOS 8.5,而是centOS stream 8.5的了。
不过,我觉得又不是那种对稳定性有很高的要求的情况,即使偶尔重启,似乎也不是什么大事情。

目前来看,似乎那个Rocky Linux的目标是更稳定的系统,应该是比centOS stream更稳定的。

大家对这个是什么看法?
更稳定,是否意味着性能就差些?功能就少些?

centOS stream是否就足够稳定了?

安装了桌面版后,速度好像好了些。但感觉还是慢。

过于nat, 直接用这条iptables -t nat -A POSTROUTING -o (外网卡) -j MASQUERADE命令就可以了?为什么还要设置其他的?



作者
Author:
abin    时间: 2022-4-18 18:29
hgyhgy 发表于 2022-4-18 18:09
不是说centos图形界面那种登录慢。是说向日葵登录这个界面,它要找一会儿,才能显示登录界面。

我说GN ...

向日葵搭配Linux GUI, 基本会卡的.
还有几率遇到打开vi后, ESC无法使用的奇异bug....

NAT那个, 大概的区别是能用和高效的差异, 并无其他. 我提供的脚本中有注释说明.

稳定性方面, 就算是Debian Testing, 都稳如狗...

对于工作平台, 如无必要, 还是不要搞rolling update了,
有时候, 出问题会莫名其妙的....

比较偷懒的原则就是, 能用就不升级, 除非新功能十分必要.

当然, 也可以考虑容器化的方案. 这样, 系统是否升级, 就没关系了. . .
顶多更换一个内核就行了....

如果主机只有单向联网的网络接入,
就是, PC ----> Linux 畅通, 但是Linux ----> PC 不通.
可以考虑使用SSH ProxyJump策略.

当然了, 愿意采用付费方案, 其实也挺好解决的.

或者, 你可以考虑试试ipv6方案....
我之前有视频提及ipv6使用, 登录贼畅通....

我当前就是采用ipv6方案, 毕竟家用宽带和移动网络都支持的.
作者
Author:
hgyhgy    时间: 2022-4-18 19:55
abin 发表于 2022-4-18 18:29
向日葵搭配Linux GUI, 基本会卡的.
还有几率遇到打开vi后, ESC无法使用的奇异bug....

应该两边都没公网ip。如果其中一个有公网ip,解决起来就简单些。

我看目前的方案,都是通过一个中间有公网ip的电脑来把双方连接起来,这样才能建立起ssh隧道。

付费的简单些。不付费的,要申请免费的服务器,也不知道怎么搞,也比较麻烦。找了一下,也没找到。

ipv6, 是否服务器那端有ipv6地址,就能ssh到它上面?
这样通过向日葵或todesk查询一下ipv6,然后就能用xshell直接ssh到服务器上面了?

至于centos stream,这个好像不只是稳定性的问题,估计还是要考虑到不得不升级的情况吧。
但是我感觉科研计算服务器,这种情况应该不多见吧。

就直接使用centos stream, 然后不升级系统?
使用这个centos stream也有些好处,能直接使用网上针对Centos8的rpm资源。

Rocky linux也能直接使用centos8的rpm?
作者
Author:
Entropy.S.I    时间: 2022-4-18 22:42
买腾讯云轻量应用服务器(我之前买的2核4G 8Mbps,222元/3年),在云主机上起一个frps服务。机房主路由用软路由,起一个frpc客户端和一个openvpn服务,frpc只开一个端口,给openvpn。vpn最好不要配置为全局代理,按需要被远程访问的内网网段配置route即可。此后操作与内网无异。图形界面最简单的实现方法就是IPMI,其次向日葵。公网远程访问用向日葵更流畅。
作者
Author:
hgyhgy    时间: 2022-4-18 22:57
Entropy.S.I 发表于 2022-4-18 22:42
买腾讯云轻量应用服务器(我之前买的2核4G 8Mbps,222元/3年),在云主机上起一个frps服务。机房主路由用软 ...

用ip6连接,是否可行?

我看到似乎在服务器端设置一下,让可以ip6地址ssh到服务器后,就能直接ssh ip6地址到机器上?

其中有什么困难的地方?

不过我想,如果使用ip6, 会这么简单的话,为什么还有各种付费的ssh 隧道,反向ssh等等。
作者
Author:
Entropy.S.I    时间: 2022-4-18 23:07
hgyhgy 发表于 2022-4-18 22:57
用ip6连接,是否可行?

我看到似乎在服务器端设置一下,让可以ip6地址ssh到服务器后,就能直接ssh ip6 ...

很多网络环境不支持IPv6,稳妥方案仍然是用IPv4反向代理。IPv6可作为备用的高带宽方案,但需要注意防火墙设置,不能学网上一些教程直接关闭IPv6防火墙,这极度危险。
作者
Author:
abin    时间: 2022-4-18 23:14
多数数据中心不支持ipv6
以及现实中,各ISP不互通。

ipv6如果不用,可以直接关闭ipv6网络支持。

通过云平台中转,
你会很窝火的。便宜的,带宽不足。
带宽高的,费用高。

老实用付费的远程方案吧…

如果自己做,可以wireguard,十分好用。
除非你的网络环境严重QoS UDP。






欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3