计算化学公社

标题: 如何提高服务器并行计算效率 [打印本页]

作者
Author:
Xander    时间: yesterday 17:26
标题: 如何提高服务器并行计算效率
课题组有一台双路共96核256G内存的服务器,平时主要跑高斯、ORCA计算,未联网。
问题:平时组内提交任务都是用U盘拷过去直接在终端提交,经常占满甚至超过物理核心数。请问这样是否会影响计算效率甚至导致任务报错?需不需要搞个排队调度?
[attach]129670[/attach]

作者
Author:
Maкишкa_MKK    时间: yesterday 18:36
个人经验,只要内存和外存不爆,超cpu不太多的化顶多算的慢一点、系统卡一点。
是否调度至少要考虑 1. 你是否需要频繁地对任务计算的顺序做改动或者去kill任务等等;
2. 你们组的做事方式。
作者
Author:
SeptemberMy    时间: yesterday 20:18
Maкишкa_MKK 发表于 2026-4-14 18:36
个人经验,只要内存和外存不爆,超cpu不太多的化顶多算的慢一点、系统卡一点。
是否调度至少要考虑 1. 你 ...

其实超cpu一般也感知不到卡,用户能感知到的系统卡顿一般都是内存爆了
作者
Author:
Xander    时间: yesterday 20:29
Maкишкa_MKK 发表于 2026-4-14 18:36
个人经验,只要内存和外存不爆,超cpu不太多的化顶多算的慢一点、系统卡一点。
是否调度至少要考虑 1. 你 ...

一般不会去kill任务,那这样看来没必要搞什么调度系统了。之前组里用学校服务器,那个是集群,后来学校服务器宕机了,老师才搞了台这个,组里人都不太会linux,只是惯例地跑任务,拷文件。
作者
Author:
Stardust0831    时间: 3 hour ago
Xander 发表于 2026-4-14 20:29
一般不会去kill任务,那这样看来没必要搞什么调度系统了。之前组里用学校服务器,那个是集群,后来学校服 ...

调度系统可以帮你解决任务排队、绑核等问题,比如slurm就可以直接配置用cgroup绑核,配置合适的numa策略,如果不了解numa是什么的话可以看《NUMA策略对Gaussian运算速度影响的小研究》。
我之前还在EPYC 7C13上观察到类似CP2K这种程序如果同时跑多个任务的话可能会错误的绑到同一个物理内核上,使用slurm的cgroup设了CPU亲和性以后绑核行为正常,效率正常。
slurm本身是apt就能装的,那个版本也够用了。不联网的话需要基于本地包来apt装或者编译安装,折腾一点但也是能装的。





欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3