计算化学公社

 找回密码 Forget password
 注册 Register
Views: 9490|回复 Reply: 16
打印 Print 上一主题 Last thread 下一主题 Next thread

[集群维护] 观摩一下这种“专业”的集群配置

[复制链接 Copy URL]

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)


集群配置组件如图片所示。
已经隐藏了必要的隐私信息。

听闻,应用场景是,Guassian, CP2K, VASP, QE等。

本人的评论是:这个配置,不是蠢,就是傻,十分外行。
结果就是,课题组花很多钱,买了一堆电子垃圾。

High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

1376

帖子

0

威望

3986

eV
积分
5362

Level 6 (一方通行)

2#
发表于 Post on 2021-5-25 21:15:22 | 只看该作者 Only view this author
也有可能是不得已,必须走品牌采购。
又菜又爱玩

5万

帖子

99

威望

5万

eV
积分
112354

管理员

公社社长

3#
发表于 Post on 2021-5-25 23:02:10 | 只看该作者 Only view this author
这种配置单经常见,经常有人在QQ群里贴图问卖好几万的Dell的配置如何如何,实际上性能基本都相当于只有1/3价格的淘宝上的服务器。都不是好钢用在刀刃上,而是好钢用在刀背上
北京科音自然科学研究中心http://www.keinsci.com)致力于计算化学的发展和传播,长期开办高质量的各种计算化学类培训:初级量子化学培训班中级量子化学培训班高级量子化学培训班量子化学波函数分析与Multiwfn程序培训班分子动力学与GROMACS培训班CP2K第一性原理计算培训班,内容介绍以及往届资料购买请点击相应链接查看。这些培训是计算化学从零快速入门以及进一步全面系统性提升研究水平的高速路!培训各种常见问题见《北京科音办的培训班FAQ》
欢迎加入“北京科音”微信公众号获取北京科音培训的最新消息、避免错过网上有价值的计算化学文章!
欢迎加入人气非常高、专业性特别强的综合性理论与计算化学交流QQ群“思想家公社QQ群”:1号:18616395,2号:466017436,3号:764390338,搜索群号能搜到哪个说明目前哪个能加,合计9000人。北京科音培训班的学员在群中可申请VIP头衔,提问将得到群主Sobereva的最优先解答。
思想家公社的门口Blog:http://sobereva.com(发布大量原创计算化学相关博文)
Multiwfn主页:http://sobereva.com/multiwfn(十分强大的量子化学波函数分析程序)
ResearchGate:https://www.researchgate.net/profile/Tian_Lu
Money and papers are rubbish, get a real life!

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

4#
 楼主 Author| 发表于 Post on 2021-5-25 23:55:01 | 只看该作者 Only view this author
本帖最后由 abin 于 2021-5-26 09:25 编辑

最业余的一项配置是,计算节点,
双路两颗处理器,居然只给6个16GB。
这种外行配置,尤其是vasp性能减半。

一个硬盘,要哪门子阵列卡?

FC-SAN,这个玩意有啥用?光纤交换机也没有,
这玩意买来看着玩呀?
还不如四个硬盘放管理节点阵列走起。

网络只有千兆,
不太可能多节点计算,况且那个机器本地有读写支持。
SAN就没有任何用处,纯属用所谓专业设备来糊弄人。

交换机就一个,
难道要计算网络,管理网络以及BMC跑在一个交换机上?
纯粹是增加使用难度和不可靠性。

买品牌没有问题,
只是图片中的配置,简直太业余了。
纯属花了好多钱,买到一堆电子垃圾。

卖人家十多台机器,KVM都没有,
现有的配置中,BMC都无法正常使用,
让终端用户搬椅子接显示器做调试啊。
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

5#
 楼主 Author| 发表于 Post on 2021-5-26 09:27:07 | 只看该作者 Only view this author
补充一下,
话说当年,
读书的所在的单位,巨资买过当时的明星产品: 曙光5000A系列的机器,
那叫一个烂呀。
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

251

帖子

4

威望

4404

eV
积分
4735

Level 6 (一方通行)

6#
发表于 Post on 2021-5-26 09:53:37 | 只看该作者 Only view this author
本帖最后由 djjj148 于 2021-5-26 16:01 编辑

听说某光给配的机器里,内存条默认不会给插满。朋友的机器有次报修,工程师一看有部分内存条不是自家的(因为卖家默认配的内存条没插满,朋友自己买来几根插上了),直接拒绝保修。

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

7#
 楼主 Author| 发表于 Post on 2021-5-26 12:21:20 | 只看该作者 Only view this author
djjj148 发表于 2021-5-26 09:53
听说某光给配的机器里,内存条默认不会给插满。朋友的机器有次报修,工程师一看有内存条不是自家的,直接拒 ...

不晓得你说的某光是啥?

我们之前合规途径买过中科曙光,
内存条安装很诡异。
双路机器,6x 8GB内存条。
十分坑。

涉及到招标采购环节,
基本都是外行。
买的设备,就凑合用吧。

验收的只看能否开机,
谁管其他的?
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

81

帖子

0

威望

1369

eV
积分
1450

Level 4 (黑子)

8#
发表于 Post on 2021-6-3 09:36:41 | 只看该作者 Only view this author
本帖最后由 beowulf 于 2021-6-3 13:03 编辑
abin 发表于 2021-5-25 23:55
最业余的一项配置是,计算节点,
双路两颗处理器,居然只给6个16GB。
这种外行配置,尤其是vasp性能减半 ...

阵列卡多半是焊在主板上的,写在那里无非是凑字数。

fc-san也一样,那个盘阵要么用sas,要么用fc挂载到管理节点上。人家就是想买/卖一个盘阵,作为“专业存储”。4012是一个低端存储,如果提供了双控制器,前端也接了双控制器,也算是提高了一点点的可用性。
不过磁盘数目实在太少,😄

除了那个96G内存确实sb,其他还算正常。
登录节点加了一块显卡,也不明白是什么操作。


81

帖子

0

威望

1369

eV
积分
1450

Level 4 (黑子)

9#
发表于 Post on 2021-6-3 09:39:01 | 只看该作者 Only view this author
abin 发表于 2021-5-26 12:21
不晓得你说的某光是啥?

我们之前合规途径买过中科曙光,

那是你单位采购的老师外行,被哄了呗。
所有的厂商都一样,能哄就哄。
不光某光。

185

帖子

1

威望

4133

eV
积分
4338

Level 6 (一方通行)

10#
发表于 Post on 2021-6-3 10:41:36 | 只看该作者 Only view this author
本帖最后由 highlight 于 2021-6-3 11:14 编辑

这算啥,我还见过双路主板只安一个U的呢 ,毕竟人家有“品牌售后”嘛
负责的人也未必真不懂或者有啥好处,可能只是防备某些甩不开手的“麻烦”而已

220

帖子

8

威望

3082

eV
积分
3462

Level 5 (御坂)

11#
发表于 Post on 2021-6-15 22:19:59 | 只看该作者 Only view this author
这个配置,我怎么看着眼熟,好像是我认识的人的配置。。。

20

帖子

1

威望

510

eV
积分
550

Level 4 (黑子)

12#
发表于 Post on 2021-6-18 11:52:30 | 只看该作者 Only view this author
没有内部高速网络,做量化计算效果会很不好的。

2301

帖子

1

威望

5473

eV
积分
7794

Level 6 (一方通行)

13#
 楼主 Author| 发表于 Post on 2021-6-25 23:25:19 | 只看该作者 Only view this author
本帖最后由 abin 于 2021-6-26 09:38 编辑

今晚有空。 补充几点常见奇葩配置。

第一种 网络很快,磁盘读写很慢。
Linux平台,可以把计算读写、系统读写、用户输入输出读写分开,放在不同的设备处理。

如今的Linux系统,尤其是针对计算用户调整过内核的,启动后,基本占用200MB内存,系统基本驻留在内存,系统层面的磁盘读写操作很少的。
因此是否使用固态硬盘,并不会明显改善Linux系统响应速度。

常见的奇葩配置有,万兆光纤或者更快的IB,比如56Gbps;
计算读写,也就是存储,使用机械盘或者固态做RAID5。可是,采用SATA接口。
SATA 3.0 上限6Gpbs。来多少个,上限也仅有这些,最快650MB/s。

如果是多机器跑VASP还好,因为这玩意就基本写内存。
如果遇到ORCA, 或者是CASSCF CCSD(T) 或者GW之类的计算,岂不是慢的要死!!!
因为这几个疯狂写硬盘。
如果是搭配IB 56Gbps, 小规模集群,那么采用NVMe 2GB/s规格的硬盘,做RAID0,可以做到8GB/s的速度。
目前highpoint RAID卡支持。 其他均不支持的。 (备注,IB 56 Gbps,最快就是7GB/s。单位换算,查查计算机是本吧。)

想要再快的读写速度,就要采用Lustre。
不仅单独的硬件要跟上,还需要额外几台机器来配合。
硬件成本挺高的。

第二种 配备“专业”存储设备的。
可能会有SAN存储,或者NAS存储。
比如SAN,配备12Gbps的端口。
这东西是在玩吗? 12Gpbs,顶多能维持理论上线1.5GB/s, 实际跑到1.2GB/s就不错了。
这玩意,还不如买单条的NVMe硬盘实惠呢, 可以买国产品牌,反正质保三年,用坏了就找京东换。
如果采用读写和数据分开的做法,读写坏了,又不影响系统,顶多是关机、插拔硬盘、开机,大概十分钟而已。
(明显比那种今天做手术,明天就上班还要快捷。)

第三种 使用以太网跑多机器并行计算的。
以太网,就是能买到的PC或者任何普通服务器上的网路。延时, lantency,本地局域网,在0.03ms级别。
IB网络,不是以太网,延时, lantency,在0.5 微秒级别。
比如VASP,多机器并行,MPI进程频繁交换数据,彼此通讯。
两者的效率差距大约有60倍。
一个并行计算,如果新机器能跑的快一倍,都有人花好几万买新机器。 何况,这边的差距是几十倍呢。
OPA和IB性能在一个级别,可能稍微差点。 intel已经剥离了OPA业务,转给其他公司继续发展。


注意, IB支持“远程内存直取”,也许中文这么叫。
(remote direct memory access (RDMA),
is a direct memory access from the memory of one computer into that of another without involving either one's operating system.
This permits high-throughput, low-latency networking, which is especially useful in massively parallel computer clusters.)
比如计算用到A和B两台机器并行,每个机器跑32个MPI进程。
B机器上的某MPI进程,可以直接读取A机器上内存里面的数据。
以太网是,B机器发送请求,通过CPU发送给PCIe接口的光纤网卡,网卡发送信息经过交换机,找到目标机器,接收数据,解码,传送给CPU,CPU读内存;再原路返回数据。
(通俗演义过程,不是十分严谨)
以太网也支持,也就是RoCE,当然这种卡,不怎么便宜的。
系统层面,至少RHEL/CentOS 7.x 8.x默认支持这种东西的。 其他系统版本,我自己未测试过,不清楚。

万兆光纤,一般指的是万兆以太网,延时也是微秒级别的。

现在有部分机房淘汰了56Gbps的IB网卡,可以咸鱼上找一找。
买两个,把两台机器连起来,效果很不错的,特别适合VASP,cp2k之类的并行计算。

放心,CP2K,VASP,都有测试报告,有IB网络支持,跑10个节点,并行效率都能维持在85%以上。
这是欧洲的实验室报告的,不是我自己编造的。

CP2K,VASP都是线性标度特别棒的并行计算程序。
通俗的讲就是,
如果体系有10个原子,用10个核心计算,耗时1个小时;
那么,体系扩展到100个原子,用100个核心计算,耗时差不多是1个小时多一点点。
但是,特别留意,10个原子,使使用100个核心计算,可能耗时远多于1个小时。
也许应该是数bands数目之类的,仅仅是通俗表述,仅供参考。

对于CP2K,VASP用户,如果要扩充现有设备算力,
第二台机器,仅仅需要处理器,内存,电源,主板,一个普通的小容量硬盘做系统;
额外购置一对IB网卡。
按照现在咸鱼的价格,IB的成本可能是2条16GB内存的钱。
国产新品,可能是6~7千元一个。

如果是3台或者更多机器,还是需要交换机的,价格挺高的。

仅供参考。


修正了错别字。
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
https://labitc.top
http://tophpc.top:8080
电邮: ask@hpc4you.top

279

帖子

2

威望

4422

eV
积分
4741

Level 6 (一方通行)

打脸只许打一次

14#
发表于 Post on 2021-7-2 16:45:07 | 只看该作者 Only view this author
个人意见,看到这个配置,我觉得挺正常。你说花两倍多的钱,得到的和淘宝的一样的体验,这事谁都认同。但是很多时候走招标,限制不是一般的少,这个框框,那个条条,最后最能行的方案就是这个。

特别说明下戴尔售后,我觉得戴尔售后挺好的,花钱买心安吧,前几天说莫名报总线错误,戴尔立马跑过来换了主板和阵列卡。

4

帖子

0

威望

9

eV
积分
13

Level 1 能力者

15#
发表于 Post on 2022-4-29 15:53:38 | 只看该作者 Only view this author
IB贵的很 好多小集群基本顶多用万兆  用IB的不多

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 22:11 , Processed in 0.201176 second(s), 30 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list