计算化学公社

 找回密码 Forget password
 注册 Register
Views: 1132|回复 Reply: 4
打印 Print 上一主题 Last thread 下一主题 Next thread

[计算机购买] 双卡消费级主机的配置

[复制链接 Copy URL]

2

帖子

1

威望

186

eV
积分
208

Level 3 能力者

本帖最后由 JFY99 于 2024-7-22 09:54 编辑

新人报道,来分享我们课题组购买的一台双卡消费级主机。虽然它的性能不及服务器平台、性价比不及普通消费级主机,但反过来想,性价比高于服务器平台、性能高于大部分消费级主机,所以我觉得还是值得一看的。

一、硬件配置与采购
我们组的研究方向是蛋白质设计,常用结构预测、序列设计和MD模拟软件,可能也会搞些AI,对显卡的要求比较高。Gaussian、Rosetta之类吃CPU的软件,以及一些奇奇怪怪的软件偶尔也会用到,总之就是要一台“全能”主机了。所以配置往好了买、能报销就行,除了显卡全走的京东自营。以下是今年1月份的配置单,没有赶上促销,所以实际价格还会低一些。

硬件 型号 数量 价格
CPU AMD R9 7950X3D 1 4699
主板 华硕 ProArt X670E-CREATOR WIFI 1 3999
内存 英睿达 48GB DDR5 5600 4 3998
显卡 NVIDIA RTX 4090 涡轮版 2 39400
固态硬盘 致态 TiPlus7100 4TB 2 3598
散热器 利民 FC140 1 319
电源 长城 N20 2000W ATX3.0 1 1699
机箱 先马 黑洞7 1 176
总计 57888

1.CPU:选择AMD是因为可以全Auto使用,省事还省电;选择7950X3D只是因为当时7950X没货,其实7950X的频率和功耗墙都更高,在不需要大三缓的多数情况下性能会更好。
2.主板:对于双显卡主机,两张显卡尽量都插在直连CPU的PCIe插槽上,这需要支持PCIe通道拆分的主板。另外,第二个PCIe x16插槽最好对应机箱的第5槽,这样下卡不会和上卡贴贴或者贴地飞行。最后选了一个看起来比较普通但价格没那么普通的ProArt X670E主板。
3.内存:常说内存容量 > 频率 > 时序,作为干重活的机器更是如此。所以直接上现在能买到的最大容量,48 GB x4 = 192 GB;频率5600 MHz完全够用甚至还达不到。
4.显卡:性能最高消费级 → RTX 4090;双卡风冷散热好 → 双槽涡轮风扇卡。由于众所周知的原因,京东不再出售完整版4090,加之涡轮卡并不常见,所以在淘宝上买了两张,加13%的税接近2万元一张,占整机价格的70%。请注意,涡轮卡的噪音非常大,机器一定不要放在办公区。
5.固态硬盘:支持国产,选择致态的TiPlus7100 4 TB TLC固态。另外还有更便宜的Ti600 4 TB QLC固态,性能和寿命会差一些。因为要用到读写较多的程序,就没有上机械硬盘了。
6.散热器:选择比较省事的风冷,FC140压制最大140 W的7950X3D是绰绰有余的。而且涡轮卡直接把热量排放到机箱外,减小了CPU的散热压力。
7.电源:单卡4090官方推荐使用850 W电源,再加一张450 W就是1300 W。另外电源需要2个12/16 pin接口,当时好像没有太多选择,就买了个2000 W的,完全告别电源焦虑。
8.机箱:因为是放在实验室的机器,只给了它一个看上去平平无奇的黑盒子机箱,但小身躯蕴藏着大能量,里面的空间利用率非常高。

二、装机与软件配置
装机和普通台式机区别不大,需要注意的是把机箱前面板的两个风扇分别向上、向下挪一格,给显卡侧面的电源接口留出位置,防止线材过度弯曲而烧接口。机箱风扇原本是小4 pin转大4 pin电源接口、机箱调速,为了省一根电源线改成了小4 pin直插主板、主板调速。以下是装机过程中拍的一些图,最终的外观大家可以直接搜索黑洞7机箱(手动滑稽)。

开机首先进入BIOS,AMD平台4条内存的默认频率是3600 MHz,仿佛回到了DDR4时代,这当然是不行的。打开内存EXPO 5600 MHz无法通过自检,5200 MHz能通过自检,但在后续的使用中经常出现CPU负载高就卡死的现象,Prime95的Large FFTs测试秒报错,才定位到是内存的问题。现在把频率降到DDR5的起点4800 MHz,能够稳定运行不报错。其他BIOS设置基本不用改动。
接下来是安装Linux系统,发行版可以根据个人习惯来选择。比如我日常还用deepin系统,对deb系比较熟悉,所以安装了Debian 12。安装语言可以选择中文,无需桌面环境,但外接显示屏和键鼠进入系统时可能无法显示中文,只有ssh登录才能正常显示。机器通过有线网络接入校园网,可分配到固定IP;配置好网络以后首先修改为国内软件源并更新系统。
  1. echo 'deb http://mirrors.pku.edu.cn/debian/ bookworm main contrib non-free' | sudo tee /etc/apt/sources.list
  2. echo 'deb http://mirrors.pku.edu.cn/debian/ bookworm-backports main contrib non-free' | sudo tee -a /etc/apt/sources.list
  3. sudo apt update
  4. sudo apt dist-upgrade
复制代码
关于NVIDIA驱动和CUDA软件包,推荐大家用包管理器的方式安装,比run文件安装更方便,而且易于升级和卸载。
  1. wget https://developer.download.nvidia.com/compute/cuda/repos/debian12/x86_64/cuda-keyring_1.1-1_all.deb
  2. sudo dpkg -i cuda-keyring_1.1-1_all.deb
  3. sudo apt update
  4. sudo apt install cuda
复制代码
默认情况下,GPU的所有计算单元在同一时间只能运行一个任务,为了让GPU也能多任务并行,可以开启MPS server。但其中一个任务异常退出时可能导致所有在此GPU上运行的任务全部停止,需要谨慎使用。开启MPS且多任务并行时,GPU使用率可接近100%,功耗也会接近450 W的TDP。在这台机器上,限制GPU频率到2250 MHz可以使核心电压降至0.875 V,功耗降低100 W左右,缓解涡轮卡的散热压力。
  1. sudo nvidia-cuda-mps-control -d -multiuser-server
  2. sudo nvidia-smi -lgc 0,2250
复制代码
除此之外,我还安装了fail2ban防止ssh密码被暴力破解,earlyoom防止内存用尽系统卡死,s-tui和htop用于监控CPU使用情况,nvtop用于监控GPU使用情况。
  1. sudo apt install fail2ban earlyoom s-tui htop nvtop
复制代码
一套配置下来,课题组服务器的基础环境就算搭建完成了。同学们可以通过ssh访问这台主机,目前已经运行了半年,空闲的时候还可以跑Folding@Home刷刷分。我经常盯着htop和nvtop的界面发呆,看到正常满载运行的时候挺有成就感,遇到资源分配不合理的情况也会及时提醒同学。

趁着下一代硬件发布之前发了这篇帖子,给大家分享这台暂时可以称之为消费级性能天花板的主机,希望有所帮助!

评分 Rate

参与人数
Participants 1
威望 +1 收起 理由
Reason
sobereva + 1

查看全部评分 View all ratings

279

帖子

0

威望

2271

eV
积分
2550

Level 5 (御坂)

2#
发表于 Post on 2024-9-3 17:16:23 | 只看该作者 Only view this author
服务器CPU频率低,不如你这颗CPU能发挥4090卡的性能吧?
另外,不知道你配置的cpu能否充分发挥2张4090卡的性能?或者你有观察到这颗cpu带不动2张4090卡的情况,额?多谢提点~

2

帖子

1

威望

186

eV
积分
208

Level 3 能力者

3#
 楼主 Author| 发表于 Post on 2024-9-6 13:31:46 | 只看该作者 Only view this author
bobosiji 发表于 2024-9-3 17:16
服务器CPU频率低,不如你这颗CPU能发挥4090卡的性能吧?
另外,不知道你配置的cpu能否充分发挥2张4090卡的 ...

消费级CPU的单核性能一般会比服务器好,最新一代的产品有同频性能(IPC)提升,频率也更高,只用来带显卡是更划算的。
我们现在做AI的同学慢慢变多了,大部分AI程序不吃CPU的多核性能,带2张4090是够用的。我观察到比较吃CPU的程序是GROMACS,每个任务需要4-8核心并行,如果同时提交的任务太多可能会不够用;但其实每张显卡同时跑2个任务就满载了,整机同时跑4个任务、每个任务4核,能刚好用掉16个物理核心。

361

帖子

0

威望

1983

eV
积分
2344

Level 5 (御坂)

所念皆星河

4#
发表于 Post on 2024-9-6 13:51:22 | 只看该作者 Only view this author
最近也在准备买机器,考虑的配置和lz很相似,但供应商那边的技术说7950X的PCIE通道不够接俩4090,可能会浪费一点性能,不知道影响大不大。
心之所向,日复一日,必有精进

2

帖子

1

威望

186

eV
积分
208

Level 3 能力者

5#
 楼主 Author| 发表于 Post on 2024-9-6 16:44:48 | 只看该作者 Only view this author
含光君 发表于 2024-9-6 13:51
最近也在准备买机器,考虑的配置和lz很相似,但供应商那边的技术说7950X的PCIE通道不够接俩4090,可能会浪 ...

主板需要支持PCIe通道拆分,这样可以让两张显卡都跑在直连CPU的PCIe4.0 x8通道上,否则第二个插槽速度可能非常慢。PCIe4.0 x8相当于PCIe3.0 x16,网上看到游戏测试性能损失在5%以内,两张4090单独跑任务不互联的情况下应该是够用的。

评分 Rate

参与人数
Participants 1
eV +3 收起 理由
Reason
含光君 + 3 谢谢

查看全部评分 View all ratings

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-23 12:21 , Processed in 0.314044 second(s), 26 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list