计算化学公社

 找回密码 Forget password
 注册 Register
Views: 495|回复 Reply: 5
打印 Print 上一主题 Last thread 下一主题 Next thread

[综合交流] 双路E5-2699v3机子上ORCA运行在两个CPU上会导致异常关机

[复制链接 Copy URL]

25

帖子

0

威望

254

eV
积分
279

Level 3 能力者

跳转到指定楼层 Go to specific reply
楼主
本帖最后由 KazusaT 于 2025-6-28 00:30 编辑

省流:发现ORCA在我的双路E5-2699v3服务器上运行时,如果没有通过内核绑定使任务运行在单个CPU上,会导致系统异常关机
最近捡垃圾组了一台双路E5-2699v3的机子来玩,前面用Gaussian时没发现什么问题,结果后面把ORCA装上后运行频频崩溃关机(由于我配置了来电自启动,关机表现为重启)并且journalctl找不到报错信息,配置详细信息如下:
CPU:E5-2699v3 * 2
主板:华南X99-F8D
内存:镁光16GB DDR4 2133 * 8
硬盘:侠G2(RC20)1TB+致态TiPlus50001TB
显卡:亮机卡GT610

电源:华为1000W+转换板
OS:Ubuntu 20.04LTS
在发现异常重启后,逐个排查了硬件,因为没有其他的主板所以主板没办法排查,内存进行了逐一拔插,用其他电源进行了测试,为了测试稳定性甚至做了一个windows上去跑r23和memtest,在linux下也用stress进行了长时间压力测试,都没有排查出问题(甚至考虑了是不是一开始装的Ubuntu24.04对旧硬件支持不好降级到了20.04),由于已经过了快一个月所以硬件基本已经过了换货期限,需要确定问题所在才能去售后维修,非常抓狂,此时灵光一现,决定采用社长
通过设置CPU内核绑定降低ORCA同时做多任务的耗时帖子中的方法测试两个CPU是否有问题,使用了硬盘速度与内存容量对量子化学计算速度影响的测试文中的苯胺CCSD(T)单点文件,三个内核绑定控制文件为:
  1. cpu1.txt:
  2.     rank 0=HOSTNAME slot=0:0
  3.     rank 1=HOSTNAME slot=0:1
  4.     rank 2=HOSTNAME slot=0:2
  5.     rank 3=HOSTNAME slot=0:3
  6.     rank 4=HOSTNAME slot=0:4
  7.     rank 5=HOSTNAME slot=0:5
  8.     rank 6=HOSTNAME slot=0:6
  9.     rank 7=HOSTNAME slot=0:7
  10.     rank 8=HOSTNAME slot=0:8
  11.     rank 9=HOSTNAME slot=0:9
  12.     rank 10=HOSTNAME slot=0:10
  13.     rank 11=HOSTNAME slot=0:11
  14.     rank 12=HOSTNAME slot=0:12
  15.     rank 13=HOSTNAME slot=0:13
  16.     rank 14=HOSTNAME slot=0:14
  17.     rank 15=HOSTNAME slot=0:15
  18.     rank 16=HOSTNAME slot=0:16
  19.     rank 17=HOSTNAME slot=0:17
  20. cpu2.txt:
  21.     rank 0=HOSTNAME slot=1:0
  22.     rank 1=HOSTNAME slot=1:1
  23.     rank 2=HOSTNAME slot=1:2
  24.     rank 3=HOSTNAME slot=1:3
  25.     rank 4=HOSTNAME slot=1:4
  26.     rank 5=HOSTNAME slot=1:5
  27.     rank 6=HOSTNAME slot=1:6
  28.     rank 7=HOSTNAME slot=1:7
  29.     rank 8=HOSTNAME slot=1:8
  30.     rank 9=HOSTNAME slot=1:9
  31.     rank 10=HOSTNAME slot=1:10
  32.     rank 11=HOSTNAME slot=1:11
  33.     rank 12=HOSTNAME slot=1:12
  34.     rank 13=HOSTNAME slot=1:13
  35.     rank 14=HOSTNAME slot=1:14
  36.     rank 15=HOSTNAME slot=1:15
  37.     rank 16=HOSTNAME slot=1:16
  38.     rank 17=HOSTNAME slot=1:17
  39. cpu12.txt:
  40.     rank 0=HOSTNAME slot=0:0
  41.     rank 1=HOSTNAME slot=1:1
  42.     rank 2=HOSTNAME slot=0:2
  43.     rank 3=HOSTNAME slot=1:3
  44.     rank 4=HOSTNAME slot=0:4
  45.     rank 5=HOSTNAME slot=1:5
  46.     rank 6=HOSTNAME slot=0:6
  47.     rank 7=HOSTNAME slot=1:7
  48.     rank 8=HOSTNAME slot=0:8
  49.     rank 9=HOSTNAME slot=1:9
  50.     rank 10=HOSTNAME slot=0:10
  51.     rank 11=HOSTNAME slot=1:11
  52.     rank 12=HOSTNAME slot=0:12
  53.     rank 13=HOSTNAME slot=1:13
  54.     rank 14=HOSTNAME slot=0:14
  55.     rank 15=HOSTNAME slot=1:15
  56.     rank 16=HOSTNAME slot=0:16
  57.     rank 17=HOSTNAME slot=1:17
复制代码
不测不知道,一测吓一跳,使用cpu1和cpu2单独运行都没有问题,同时跑两个任务,指定cpu1和cpu2也没有问题,但如果指定cpu12,即任务跑在两个cpu上,跑一会立刻重启,Gaussian则没有问题。ORCA版本是6.0.1_avx2,OpenMPI版本是4.1.6,Gaussian16版本是C.02
各位老师有没有遇到过类似的情况,这种情况考虑是主板的问题吗?

[更新]测试了ORCA6.0.0和最新的ORCA6.1.0,同样引发关机


[再更新]后来gaussian也会异常关机,锁定为硬件问题,更换主板后解决,但换回来的主板bios好像也不太一样,不排除是bios兼容性问题

4

帖子

0

威望

134

eV
积分
138

Level 2 能力者

2#
发表于 Post on 2025-6-19 23:33:34 | 只看该作者 Only view this author
bios把超线程关了么

25

帖子

0

威望

254

eV
积分
279

Level 3 能力者

3#
 楼主 Author| 发表于 Post on 2025-6-20 10:54:26 | 只看该作者 Only view this author
singes 发表于 2025-6-19 23:33
bios把超线程关了么

是的,已经尝试过打开和关闭超线程了,都会异常关机,非常困惑

4

帖子

0

威望

134

eV
积分
138

Level 2 能力者

4#
发表于 Post on 2025-6-20 22:35:22 | 只看该作者 Only view this author
推荐去英文ORCA的论坛问一问

25

帖子

0

威望

254

eV
积分
279

Level 3 能力者

5#
 楼主 Author| 发表于 Post on 2025-6-21 14:58:27 | 只看该作者 Only view this author
singes 发表于 2025-6-20 22:35
推荐去英文ORCA的论坛问一问

最近**上网也打不开论坛,我已经发邮件询问了,等回复ing

4

帖子

0

威望

134

eV
积分
138

Level 2 能力者

6#
发表于 Post on 2025-6-29 21:20:57 | 只看该作者 Only view this author
奇怪了,硬件问题为什么跑压力测试没问题

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2025-8-12 19:12 , Processed in 0.181512 second(s), 20 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list