计算化学公社
标题:
双路E5-2699v3机子上ORCA运行在两个CPU上会导致异常关机
[打印本页]
作者Author:
KazusaT
时间:
2025-6-18 23:43
标题:
双路E5-2699v3机子上ORCA运行在两个CPU上会导致异常关机
本帖最后由 KazusaT 于 2025-6-28 00:30 编辑
省流:发现ORCA在我的双路E5-2699v3服务器上运行时,如果没有通过内核绑定使任务运行在单个CPU上,会导致系统异常关机
最近捡垃圾组了一台双路E5-2699v3的机子来玩,前面用Gaussian时没发现什么问题,结果后面把ORCA装上后运行频频崩溃关机(由于我配置了来电自启动,关机表现为重启)并且journalctl找不到报错信息,配置详细信息如下:
CPU:E5-2699v3 * 2
主板:华南X99-F8D
内存:镁光16GB DDR4 2133 * 8
硬盘:
铠
侠G2(RC20)1TB+致态TiPlus50001TB
显卡:亮机卡GT610
电源:华为1000W+转换板
OS:Ubuntu 20.04LTS
在发现异常重启后,逐个排查了硬件,因为没有其他的主板所以主板没办法排查,内存进行了逐一拔插,用其他电源进行了测试,为了测试稳定性甚至做了一个windows上去跑r23和memtest,在linux下也用stress进行了长时间压力测试,都没有排查出问题(甚至考虑了是不是一开始装的Ubuntu24.04对旧硬件支持不好降级到了20.04),由于已经过了快一个月所以硬件基本已经过了换货期限,需要确定问题所在才能去售后维修,非常抓狂,此时灵光一现,决定采用社长
通过设置CPU内核绑定降低ORCA同时做多任务的耗时
帖子中的方法测试两个CPU是否有问题,使用了
硬盘速度与内存容量对量子化学计算速度影响的测试
文中的苯胺CCSD(T)单点文件,三个内核绑定控制文件为:
cpu1.txt:
rank 0=HOSTNAME slot=0:0
rank 1=HOSTNAME slot=0:1
rank 2=HOSTNAME slot=0:2
rank 3=HOSTNAME slot=0:3
rank 4=HOSTNAME slot=0:4
rank 5=HOSTNAME slot=0:5
rank 6=HOSTNAME slot=0:6
rank 7=HOSTNAME slot=0:7
rank 8=HOSTNAME slot=0:8
rank 9=HOSTNAME slot=0:9
rank 10=HOSTNAME slot=0:10
rank 11=HOSTNAME slot=0:11
rank 12=HOSTNAME slot=0:12
rank 13=HOSTNAME slot=0:13
rank 14=HOSTNAME slot=0:14
rank 15=HOSTNAME slot=0:15
rank 16=HOSTNAME slot=0:16
rank 17=HOSTNAME slot=0:17
cpu2.txt:
rank 0=HOSTNAME slot=1:0
rank 1=HOSTNAME slot=1:1
rank 2=HOSTNAME slot=1:2
rank 3=HOSTNAME slot=1:3
rank 4=HOSTNAME slot=1:4
rank 5=HOSTNAME slot=1:5
rank 6=HOSTNAME slot=1:6
rank 7=HOSTNAME slot=1:7
rank 8=HOSTNAME slot=1:8
rank 9=HOSTNAME slot=1:9
rank 10=HOSTNAME slot=1:10
rank 11=HOSTNAME slot=1:11
rank 12=HOSTNAME slot=1:12
rank 13=HOSTNAME slot=1:13
rank 14=HOSTNAME slot=1:14
rank 15=HOSTNAME slot=1:15
rank 16=HOSTNAME slot=1:16
rank 17=HOSTNAME slot=1:17
cpu12.txt:
rank 0=HOSTNAME slot=0:0
rank 1=HOSTNAME slot=1:1
rank 2=HOSTNAME slot=0:2
rank 3=HOSTNAME slot=1:3
rank 4=HOSTNAME slot=0:4
rank 5=HOSTNAME slot=1:5
rank 6=HOSTNAME slot=0:6
rank 7=HOSTNAME slot=1:7
rank 8=HOSTNAME slot=0:8
rank 9=HOSTNAME slot=1:9
rank 10=HOSTNAME slot=0:10
rank 11=HOSTNAME slot=1:11
rank 12=HOSTNAME slot=0:12
rank 13=HOSTNAME slot=1:13
rank 14=HOSTNAME slot=0:14
rank 15=HOSTNAME slot=1:15
rank 16=HOSTNAME slot=0:16
rank 17=HOSTNAME slot=1:17
复制代码
不测不知道,一测吓一跳,使用cpu1和cpu2单独运行都没有问题,同时跑两个任务,指定cpu1和cpu2也没有问题,但如果指定cpu12,即任务跑在两个cpu上,跑一会立刻重启,Gaussian则没有问题。ORCA版本是6.0.1_avx2,OpenMPI版本是4.1.6,Gaussian16版本是C.02
各位老师有没有遇到过类似的情况,这种情况考虑是主板的问题吗?
[更新]测试了ORCA6.0.0和最新的ORCA6.1.0,同样引发关机
[再更新]后来gaussian也会异常关机,锁定为硬件问题,更换主板后解决,但换回来的主板bios好像也不太一样,不排除是bios兼容性问题
作者Author:
singes
时间:
2025-6-19 23:33
bios把超线程关了么
作者Author:
KazusaT
时间:
2025-6-20 10:54
singes 发表于 2025-6-19 23:33
bios把超线程关了么
是的,已经尝试过打开和关闭超线程了,都会异常关机,非常困惑
作者Author:
singes
时间:
2025-6-20 22:35
推荐去英文ORCA的论坛问一问
作者Author:
KazusaT
时间:
2025-6-21 14:58
singes 发表于 2025-6-20 22:35
推荐去英文ORCA的论坛问一问
最近**上网也打不开论坛,我已经发邮件询问了,等回复ing
作者Author:
singes
时间:
2025-6-29 21:20
奇怪了,硬件问题为什么跑压力测试没问题
欢迎光临 计算化学公社 (http://bbs.keinsci.com/)
Powered by Discuz! X3.3