计算化学公社

 找回密码 Forget password
 注册 Register
Views: 3375|回复 Reply: 22

[综合交流] 8375c装机记录

[复制链接 Copy URL]

327

帖子

9

威望

1995

eV
积分
2502

Level 5 (御坂)

发表于 Post on 2022-3-5 22:32:48 | 显示全部楼层 Show all |阅读模式 Reading model
本帖最后由 丁越 于 2022-5-1 13:16 编辑

8375c装机记录



  最近按照sob老师的《计算化学购机配置推荐》博文(http://sobereva.com/444)的推荐购置了一台8375c,现在我把我装机过程中的经验与大家分享一下。由于我并非专业的计算化学出身,可能有些地方免不了由于经验不足而产生错误的判断甚至误区,希望坛子的各位老师多多批评指正


一、硬盘以及备份策略

  本机配置了三块硬盘,分别是一块256 GB 三星固态硬盘和两块4 TB 希捷机械,这么做考虑的原因是将256GB的三星固态作为系统盘,挂载在"/" 目录下,并且将各种软件安装在"/opt"下;一块4T机械挂载在"/home"目录下;剩下的一块4T机械作为备份盘。系统的分区如下所示:

挂载点 容量
swap 4GB,在256GB硬盘中
boot/efi 200M,在256GB硬盘中
boot 2GB,在256GB硬盘中
/ 256GB硬盘剩下的所有容量
/home其中一块4T硬盘
/backup 剩下的一块4T硬盘

  系统安装的是最新的CentOS 9 stream,由于其已经内置了rsync备份软件,所以无需再去安装。另外,我们用rsync的增量备份方式去备份/home的内容,备份脚本如下所示:

  1. #!/bin/bash

  2. # A script to perform incremental backups using rsync

  3. set -o errexit
  4. set -o nounset
  5. set -o pipefail

  6. readonly SOURCE_DIR="/home"
  7. readonly BACKUP_DIR="/backup/my_backup"
  8. readonly DATETIME="$(date '+%Y-%m-%d_%H:%M:%S')"
  9. readonly BACKUP_PATH="${BACKUP_DIR}/${DATETIME}"
  10. readonly LATEST_LINK="${BACKUP_DIR}/latest"

  11. mkdir -p "${BACKUP_DIR}"

  12. rsync -av --delete \
  13.   "${SOURCE_DIR}/" \
  14.   --link-dest "${LATEST_LINK}" \
  15.   --exclude=".cache" \
  16.   "${BACKUP_PATH}"

  17. rm -rf "${LATEST_LINK}"
  18. ln -s "${BACKUP_PATH}" "${LATEST_LINK}"
复制代码
备份脚本使用很简单,以root账号登陆服务器,将该备份脚本命名为backup.sh并放在在其家目录下,chmod +x backup.sh 赋予其可执行权限。然后在/backup下建立一个my_backup的目录(这么做主要是我还想在这个backup盘里放点其他的东西,所以给备份文件另外建了my_backup目录)。最后输入crontab -e 设定定时任务让其每个月一号的凌晨三点执行该备份脚本一次,crontab任务设置为如下所示,如果不会设置的话自行看看这个文档(https://wizardforcel.gitbooks.io/vbird-linux-basic-4e/content/):

  1. 0 3 1 * * /root/backup.sh
复制代码

二、Lmod模块化管理软件

2.1 Lmod安装
  lmod是基于lua的module化管理软件的应用,所以要想安装lmod必须先安装好lua。由于CentOS 9 stream 已经内置了lua,但是在安装lmod过程中会遇到lua包不全的问题,这个很简单,按照报错提示dnf install 安装相应缺少的包就行。首先去(https://sourceforge.net/projects/lmod/files/)下载lmod-8.6.tar.bz2,放到/opt下,tar -xjf lmod-8.6.tar.bz2解压之。接下来,检查下面这些包在你的机子上是否安装了,没有则dnf装之:

  1. $ rpm -qa | grep lua

  2.             lua-posix-5.1.7-1.el6.x86_64
  3.             lua-5.1.4-4.1.el6.x86_64
  4.             lua-filesystem-1.4.2-1.el6.x86_64
  5.             lua-devel-5.1.4-4.1.el6.x86_64
复制代码
然后cd 进入解压目录,以最简单的方式编译:

  1. ./configure --prefix=/opt/lmod
  2. 没有configure 成功按照上面提示安装缺少包
  3. make install
复制代码
下面将lmod的初始化脚本软连接到/etc/profile.d和/etc/fonts/conf.d中:

  1. ln -s /opt/lmod/lmod/lmod/init/profile        /etc/profile.d/z00_lmod.sh
  2. ln -s /opt/lmod/lmod/lmod/init/cshrc          /etc/profile.d/z00_lmod.csh
  3. ln -s /opt/lmod/lmod/lmod/init/profile.fish   /etc/fonts/conf.d/z00_lmod.fish
复制代码


下面就要去/opt/lmod/lmod/lmod/modulefiles/Core/下去设置modulefile了。我们由简单到复杂一点,分别给出几个案例供大家参考:


2.2 lmod module管理vmd-1.9.3

  vmd执行我们仅需要定义其PATH即可,不需要其他函数库路径,因此在/opt/lmod/lmod/lmod/modulefiles/Core/下首先mkdir vmd 建立vmd的目录,然后进入该目录并且建立一个名为1.9.3.lua的文件:
  1. -- -*- lua -*-
  2. whatis("Version=1.9.3")
  3. prepend_path("PATH","/opt/vmd/bin")
复制代码
这里面第一行是必须要有的,声明了该modulefile所用的为lua语言,whatis中指定了vmd的版本,这个还可以有多行whatis,自己想写什么就加进去。之所以这么设置modulefile是因为假如我们有多个版本的vmd要使用,所以可以将多个版本vmd以其版本号为modulefile名一起放到vmd目录下方便module管理。PS:当然vmd咋们不需要多个版本的,这里只是举个例子而已,真正能用到多个版本的可能有如:g09、g16、不同版本的编译器等等。

2.3 lmod module管理oneAPI
  怎么安装oneAPI可以参考(http://bbs.keinsci.com/thread-25162-1-1.html),我们以root身份将oneAPI安装在/opt/oneapi中,有两种方式来产生modulefile,一种是利用oneapi目录下的modulefiles-setup.sh来产生oneAPI中所有工具包的modulefile,用法如下面所示,但是存在的问题是我们用不到这么多包,module avail 查看可以module的程序你就会发现密密麻麻的一堆跟openapi有关的,所以很不方便。
  1. ./modulefiles-setup.sh --output-dir=/opt/lmod/lmod/lmod/modulefiles/Core/oneAPI/ --ignore-latest
复制代码
第二种方式是通过env2产生modulefile (虽然lmod安装目录也有与这个类似的工具,libexec/sh_to_modulefile,但是产生的CP2K的modulefile文件时有问题,就再没用)。一般oneAPI中,我们最频繁使用的就是其ifort、icc、mkl、mpi了,所示我们仅需要在/opt/lmod/lmod/lmod/modulefiles/Core/oneAPI下分别建立这几个工具的modulefile就可以了。

下面就以mkl为例说一下用法:
将env2脚本放到/root下,然后赋予其可执行权限。假设mkl的var.sh在oneapi的/opt/oneapi/mkl/2022.0.2/env下,执行:
  1. ./env2 -from sh -to modulecmd "/opt/oneapi/mkl/2022.0.2/env/var.sh" > 2022
复制代码
接着我们将2022移动到/opt/lmod/lmod/lmod/modulefiles/Core/oneAPI/mkl下,并且修改为如下的行首样式:
  1. #%Module1.0###################################################################

  2. prepend-path CPATH {/opt/oneapi/mkl/2022.0.2/include};
  3. setenv NLSPATH {/opt/oneapi/mkl/2022.0.2/lib/intel64/locale/%l_%t/%N};
  4. prepend-path PATH {/opt/oneapi/mkl/2022.0.2/bin/intel64};
  5. prepend-path LD_LIBRARY_PATH {/opt/oneapi/mkl/2022.0.2/lib/intel64};
  6. setenv MKLROOT {/opt/oneapi/mkl/2022.0.2};
  7. prepend-path PKG_CONFIG_PATH {/opt/oneapi/mkl/2022.0.2/lib/pkgconfig};
  8. prepend-path LIBRARY_PATH {/opt/oneapi/mkl/2022.0.2/lib/intel64};
复制代码

2.4 lmod module管理QE
  不要嫌我啰嗦,我再赘述一边流程。在/opt/lmod/lmod/lmod/modulefiles/Core/下建立QE目录,然后在QE目录下建立名为7.0的文件(我用intel编译器编译的QE-7.0),文件内容如下所示:
  1. -- -*- lua -*-
  2. whatis("Version=7.0 with intelmpi parallel")
  3. conflict("openMPI/4.1.1")
  4. load("oneAPI/mkl/2022","oneAPI/mpi/2022")
  5. prepend_path("PATH", "/opt/qe7.0/bin")
  6. prepend_path( "LD_LIBRARY_PATH", "/opt/oneapi/compiler/2022.0.2/linux/compiler/lib/intel64_lin")
复制代码

conflict中内容说的就是当我们module load QE 时已经module的模块中不能有openmpi存在,否则就不能正常load QE。因为刚才说了我是用intel编译器编译的QE,所以不能和openmpi同时存在。使用QE前需要提前load mkl和intelmpi,就是load("oneAPI/mkl/2022"," oneAPI/mpi/2022")这一行的作用,并且当我们module unload QE时mkl和mpi也会被同时unload。

2.5 lmod module管理Gaussian
  再次强调一下本文中我们一直是以root身份登录账号并进行各种文件的配置。首先将g09.tar.gz包放到/opt中,解压之。更改所属者和组以及权限,chown -R root:gauss g09 ;  chmod 750 -R g09/*。接着我们在/home目录下建立scratch目录,更改所属组和权限chown -R root:gauss scratch ; chmod 770 scratch(公用gaussian我是只能想到这个办法搞了,建立高斯的公用组gauss,然后将用户添加进这个组,不知道大家都是怎么弄的,欢迎交流呀!)。然后copy一份g09/bsd/g09.profile的文件到root的家目录下,将该文件的gr=$HOME修改为gr=/opt,然后通过env2产生g09的modulefile:
  1. ./env2 -from sh -to modulecmd "./g09.profile" > g09
复制代码
将这个文件移动到/opt/lmod/lmod/lmod/modulefiles/Core/下的Gaussian目录中,然后修改g09前三行为如下所示:
  1. #%Module1.0###################################################################
  2. setenv g09root /opt
  3. setenv GAUSS_SCRDIR /home/scratch
  4. setenv PGI_TERM {trace,abort};
  5. setenv GAUSS_EXEDIR {/opt/g09/bsd:/opt/g09/local:/opt/g09/extras:/opt/g09};
  6. setenv G09BASIS {/opt/g09/basis};
  7. setenv GAUSS_BSDDIR {/opt/g09/bsd};
  8. setenv GV_DIR {/opt/gv};
  9. setenv GAUSS_ARCHDIR {/opt/g09/arch};
  10. append-path PATH {/opt/g09/bsd};
  11. append-path PATH {/opt/g09/local};
  12. append-path PATH {/opt/g09/extras};
  13. append-path PATH {/opt/g09};
  14. setenv _DSM_BARRIER {SHM};
  15. prepend-path LD_LIBRARY_PATH {/opt/g09};
  16. prepend-path LD_LIBRARY_PATH {/opt/g09/extras};
  17. prepend-path LD_LIBRARY_PATH {/opt/g09/local};
  18. prepend-path LD_LIBRARY_PATH {/opt/g09/bsd};
  19. append-path LD_LIBRARY_PATH {/opt/gv/lib};
  20. setenv GAUSS_LEXEDIR {/opt/g09/linda-exe};
复制代码
如有什么问题欢迎大家一起交流



backup.sh

534 Bytes, 下载次数 Times of downloads: 1

env2

24.33 KB, 下载次数 Times of downloads: 1

评分 Rate

参与人数
Participants 3
威望 +1 eV +4 收起 理由
Reason
abin + 1 233333
hdhxx123 + 3 好物!
sobereva + 1

查看全部评分 View all ratings

自由发挥,野蛮生长

1854

帖子

1

威望

4106

eV
积分
5980

Level 6 (一方通行)

发表于 Post on 2022-3-5 23:55:03 | 显示全部楼层 Show all
rsync 模式的增量备份是非常可靠的方案.
如果配合hard link方式, 就更加理想了.

该方案实际应用后, 有一个缺点:
亦即, 用户到某一个备份下, 查看文件大小或占用大小的时候, 会导致I/O瓶颈,
或者删除部分备份的时候, 也会出现I/O瓶颈.

可以考虑使用borg.
主流Linux均支持, borg-backup  应该是这个名字.

High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
App,  https://gitee.com/hpc4you/linux
hpc4you toolkit,  https://gitee.com/hpc4you/hpc
电邮hpc4you@163.com VX: hpc4you

327

帖子

9

威望

1995

eV
积分
2502

Level 5 (御坂)

 楼主 Author| 发表于 Post on 2022-3-6 09:56:36 | 显示全部楼层 Show all
abin 发表于 2022-3-5 23:55
rsync 模式的增量备份是非常可靠的方案.
如果配合hard link方式, 就更加理想了.

谢谢abin老师,我设置的是凌晨三点备份,估计很少有夜猫子熬到这么迟吧,所以I/O应该不是啥大问题
自由发挥,野蛮生长

327

帖子

9

威望

1995

eV
积分
2502

Level 5 (御坂)

 楼主 Author| 发表于 Post on 2022-3-6 10:19:11 | 显示全部楼层 Show all
补充:监测CPU温度可以下载lm_sensors,对于CentOS 9 stream 可以直接dnf install lm_sensors下载。运行温度监测直接输入sensors
自由发挥,野蛮生长

1854

帖子

1

威望

4106

eV
积分
5980

Level 6 (一方通行)

发表于 Post on 2022-3-6 11:57:22 | 显示全部楼层 Show all
丁越 发表于 2022-3-6 09:56
谢谢abin老师,我设置的是凌晨三点备份,估计很少有夜猫子熬到这么迟吧,所以I/O应该不是啥大问题

叫我abin就好。

I/O压力,不是备份的时候的压力,
而是用户查看增量备份数据的时候,会有压力。

尤其是备份多了之后,
如果某个用户,去某天的备份,
du 一下,可能卡死。

我之前也用rsync 自己做增量备份。

后来采用borg了。
这东西很高效,
支持deduplications。
High-Performance Computing for You
为您专属定制的高性能计算解决方案

更多讯息,请访问:
App,  https://gitee.com/hpc4you/linux
hpc4you toolkit,  https://gitee.com/hpc4you/hpc
电邮hpc4you@163.com VX: hpc4you

327

帖子

9

威望

1995

eV
积分
2502

Level 5 (御坂)

 楼主 Author| 发表于 Post on 2022-3-6 12:08:09 | 显示全部楼层 Show all
abin 发表于 2022-3-6 11:57
叫我abin就好。

I/O压力,不是备份的时候的压力,

这个机子估计也就一两个人用,毕竟只有64核,人一多显然不够用
自由发挥,野蛮生长

64

帖子

0

威望

223

eV
积分
287

Level 3 能力者

发表于 Post on 2022-6-15 17:03:36 | 显示全部楼层 Show all
我是1月装的,目前用了半年了,除了散热问题,主要是cpu_vrmin这个经常在95-100度间,其他都挺好。我一般跑200+原子,vasp计算,一个人基本够用了,准备再买一台两个学生用。

327

帖子

9

威望

1995

eV
积分
2502

Level 5 (御坂)

 楼主 Author| 发表于 Post on 2022-6-15 17:26:49 | 显示全部楼层 Show all
静哥哥 发表于 2022-6-15 17:03
我是1月装的,目前用了半年了,除了散热问题,主要是cpu_vrmin这个经常在95-100度间,其他都挺好。我一般跑 ...

我是从嘉*科技那里买的整机,商家估计是定制的散热器,我在淘宝上就没查找这个牌子的(利康赛沃),散热性能杠杠的,满载CPU温度也就七八十度。
自由发挥,野蛮生长

64

帖子

0

威望

1411

eV
积分
1475

Level 4 (黑子)

发表于 Post on 2022-6-15 23:38:23 | 显示全部楼层 Show all
本帖最后由 luwis 于 2022-6-15 23:42 编辑
丁越 发表于 2022-6-15 17:26
我是从嘉*科技那里买的整机,商家估计是定制的散热器,我在淘宝上就没查找这个牌子的(利康赛沃),散热 ...

最近好像价格便宜了不少。能说说你的配置,有GPU吗?谢谢!

64

帖子

0

威望

1411

eV
积分
1475

Level 4 (黑子)

发表于 Post on 2022-6-15 23:42:03 | 显示全部楼层 Show all
luwis 发表于 2022-6-15 23:38
最近好像价格便宜了不少。能说说你的配置吗?谢谢!

有GPU吗?

327

帖子

9

威望

1995

eV
积分
2502

Level 5 (御坂)

 楼主 Author| 发表于 Post on 2022-6-16 08:03:05 | 显示全部楼层 Show all
luwis 发表于 2022-6-15 23:38
最近好像价格便宜了不少。能说说你的配置,有GPU吗?谢谢!

硬盘就上面说的那些,内存要的256的,没有显卡。
自由发挥,野蛮生长

176

帖子

1

威望

1011

eV
积分
1207

Level 4 (黑子)

发表于 Post on 2022-6-18 17:05:23 | 显示全部楼层 Show all
丁越 发表于 2022-6-15 17:26
我是从嘉*科技那里买的整机,商家估计是定制的散热器,我在淘宝上就没查找这个牌子的(利康赛沃),散热 ...

请问能大概说下价格吗?谢谢您!
计算小白 水平很菜
随时可喷 万望指点

307

帖子

1

威望

5739

eV
积分
6066

Level 6 (一方通行)

发表于 Post on 2022-6-18 18:08:51 | 显示全部楼层 Show all
学习了,谢谢楼主的分享!

327

帖子

9

威望

1995

eV
积分
2502

Level 5 (御坂)

 楼主 Author| 发表于 Post on 2022-6-18 18:14:51 | 显示全部楼层 Show all
WaterMirror 发表于 2022-6-18 17:05
请问能大概说下价格吗?谢谢您!

我买的整机,一共下来三万八(含税)
自由发挥,野蛮生长

176

帖子

1

威望

1011

eV
积分
1207

Level 4 (黑子)

发表于 Post on 2022-6-18 20:01:44 | 显示全部楼层 Show all
丁越 发表于 2022-6-18 18:14
我买的整机,一共下来三万八(含税)

整机才三万八???这很便宜了吧??
计算小白 水平很菜
随时可喷 万望指点

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2023-2-7 03:34 , Processed in 0.441732 second(s), 26 queries .

快速回复 返回顶部 返回列表 Return to list