|
本帖最后由 KazusaT 于 2025-6-28 00:30 编辑
省流:发现ORCA在我的双路E5-2699v3服务器上运行时,如果没有通过内核绑定使任务运行在单个CPU上,会导致系统异常关机
最近捡垃圾组了一台双路E5-2699v3的机子来玩,前面用Gaussian时没发现什么问题,结果后面把ORCA装上后运行频频崩溃关机(由于我配置了来电自启动,关机表现为重启)并且journalctl找不到报错信息,配置详细信息如下:
CPU:E5-2699v3 * 2
主板:华南X99-F8D
内存:镁光16GB DDR4 2133 * 8
硬盘:铠侠G2(RC20)1TB+致态TiPlus50001TB
显卡:亮机卡GT610
电源:华为1000W+转换板
OS:Ubuntu 20.04LTS
在发现异常重启后,逐个排查了硬件,因为没有其他的主板所以主板没办法排查,内存进行了逐一拔插,用其他电源进行了测试,为了测试稳定性甚至做了一个windows上去跑r23和memtest,在linux下也用stress进行了长时间压力测试,都没有排查出问题(甚至考虑了是不是一开始装的Ubuntu24.04对旧硬件支持不好降级到了20.04),由于已经过了快一个月所以硬件基本已经过了换货期限,需要确定问题所在才能去售后维修,非常抓狂,此时灵光一现,决定采用社长通过设置CPU内核绑定降低ORCA同时做多任务的耗时帖子中的方法测试两个CPU是否有问题,使用了硬盘速度与内存容量对量子化学计算速度影响的测试文中的苯胺CCSD(T)单点文件,三个内核绑定控制文件为:
- cpu1.txt:
- rank 0=HOSTNAME slot=0:0
- rank 1=HOSTNAME slot=0:1
- rank 2=HOSTNAME slot=0:2
- rank 3=HOSTNAME slot=0:3
- rank 4=HOSTNAME slot=0:4
- rank 5=HOSTNAME slot=0:5
- rank 6=HOSTNAME slot=0:6
- rank 7=HOSTNAME slot=0:7
- rank 8=HOSTNAME slot=0:8
- rank 9=HOSTNAME slot=0:9
- rank 10=HOSTNAME slot=0:10
- rank 11=HOSTNAME slot=0:11
- rank 12=HOSTNAME slot=0:12
- rank 13=HOSTNAME slot=0:13
- rank 14=HOSTNAME slot=0:14
- rank 15=HOSTNAME slot=0:15
- rank 16=HOSTNAME slot=0:16
- rank 17=HOSTNAME slot=0:17
- cpu2.txt:
- rank 0=HOSTNAME slot=1:0
- rank 1=HOSTNAME slot=1:1
- rank 2=HOSTNAME slot=1:2
- rank 3=HOSTNAME slot=1:3
- rank 4=HOSTNAME slot=1:4
- rank 5=HOSTNAME slot=1:5
- rank 6=HOSTNAME slot=1:6
- rank 7=HOSTNAME slot=1:7
- rank 8=HOSTNAME slot=1:8
- rank 9=HOSTNAME slot=1:9
- rank 10=HOSTNAME slot=1:10
- rank 11=HOSTNAME slot=1:11
- rank 12=HOSTNAME slot=1:12
- rank 13=HOSTNAME slot=1:13
- rank 14=HOSTNAME slot=1:14
- rank 15=HOSTNAME slot=1:15
- rank 16=HOSTNAME slot=1:16
- rank 17=HOSTNAME slot=1:17
- cpu12.txt:
- rank 0=HOSTNAME slot=0:0
- rank 1=HOSTNAME slot=1:1
- rank 2=HOSTNAME slot=0:2
- rank 3=HOSTNAME slot=1:3
- rank 4=HOSTNAME slot=0:4
- rank 5=HOSTNAME slot=1:5
- rank 6=HOSTNAME slot=0:6
- rank 7=HOSTNAME slot=1:7
- rank 8=HOSTNAME slot=0:8
- rank 9=HOSTNAME slot=1:9
- rank 10=HOSTNAME slot=0:10
- rank 11=HOSTNAME slot=1:11
- rank 12=HOSTNAME slot=0:12
- rank 13=HOSTNAME slot=1:13
- rank 14=HOSTNAME slot=0:14
- rank 15=HOSTNAME slot=1:15
- rank 16=HOSTNAME slot=0:16
- rank 17=HOSTNAME slot=1:17
复制代码 不测不知道,一测吓一跳,使用cpu1和cpu2单独运行都没有问题,同时跑两个任务,指定cpu1和cpu2也没有问题,但如果指定cpu12,即任务跑在两个cpu上,跑一会立刻重启,Gaussian则没有问题。ORCA版本是6.0.1_avx2,OpenMPI版本是4.1.6,Gaussian16版本是C.02
各位老师有没有遇到过类似的情况,这种情况考虑是主板的问题吗?
[更新]测试了ORCA6.0.0和最新的ORCA6.1.0,同样引发关机
[再更新]后来gaussian也会异常关机,锁定为硬件问题,更换主板后解决,但换回来的主板bios好像也不太一样,不排除是bios兼容性问题
|
|