计算化学公社

 找回密码 Forget password
 注册 Register
Views: 1332|回复 Reply: 12
打印 Print 上一主题 Last thread 下一主题 Next thread

[Linux] 7950x运行g16经常报错

[复制链接 Copy URL]

195

帖子

0

威望

4035

eV
积分
4230

Level 6 (一方通行)

跳转到指定楼层 Go to specific reply
楼主
系统使用的Rocky Linux 9.3,环境变量里面也添加了export PGI_FASTMATH_CPU=sandybridge。结构比较大的时候,结构优化和激发态计算有的时候会报错。
结构优化的:
Logic error in AufBlk.
Error termination via Lnk1e in /home/g16/l502.exe at Sat Nov 25 23:46:24 2023.

频率计算的:
    195 vectors produced by pass  0 Test12= 2.32D-13 1.00D-09 XBig12= 3.72D+03 3.92D+01.
AX will form    72 AO Fock derivatives at one time.
    192 vectors produced by pass  1 Test12= 2.32D-13 1.00D-09 XBig12= 4.73D+02 5.75D+00.
OrtVc1:  Ph=1 IOff=     0 IPass=20 DotMx1= 2.49+284
OrtVc1:  Ph=1 M=   232443 NPass=20 Test1= 2.32D-13 Small= 2.32D-07 VSmall= 1.00D-12
OrtVc1 failed #1.
Error termination via Lnk1e in /home/g16/l1002.exe at Sat Nov 25 10:56:40 2023.

激发态计算的,数值是NaN,激发态能量也没给出来
Iteration     2 Dimension   180 NMult   120 NNew     60
CISAX will form    60 AO SS matrices at one time.
NMat=    60 NSing=    60 JSym2X= 0.
SlvRan:  Skip vector     1 energy            NaN DEMCon  -1.000000D+20
SlvRan:  Skip vector     2 energy            NaN DEMCon  -1.000000D+20
SlvRan:  Skip vector     3 energy            NaN DEMCon  -1.000000D+20


相同的计算文件在Intel平台(i3-12100, Rocky Linux 9.3)上没有出错
考虑是不是7950x用的Linux系统太新了,Gaussian给的兼容列表只到Red Hat Enterprise Linux 5.11, 6.10, 7.6, 8.3

5万

帖子

99

威望

5万

eV
积分
112543

管理员

公社社长

2#
发表于 Post on 2023-11-26 19:58:33 | 只看该作者 Only view this author
跟系统没必然关系
注意看和Intel平台的Gaussian修订版是否一样。如果是,并行核数、内存分配量都设成一样然后再试,如果7950X的平台还是有问题,仔细对比输出文件试图分析原因
北京科音自然科学研究中心http://www.keinsci.com)致力于计算化学的发展和传播,长期开办高质量的各种计算化学类培训:初级量子化学培训班中级量子化学培训班高级量子化学培训班量子化学波函数分析与Multiwfn程序培训班分子动力学与GROMACS培训班CP2K第一性原理计算培训班,内容介绍以及往届资料购买请点击相应链接查看。这些培训是计算化学从零快速入门以及进一步全面系统性提升研究水平的高速路!培训各种常见问题见《北京科音办的培训班FAQ》
欢迎加入“北京科音”微信公众号获取北京科音培训的最新消息、避免错过网上有价值的计算化学文章!
欢迎加入人气非常高、专业性特别强的综合性理论与计算化学交流QQ群“思想家公社QQ群”:1号:18616395,2号:466017436,3号:764390338,搜索群号能搜到哪个说明目前哪个能加,合计9000人。北京科音培训班的学员在群中可申请VIP头衔,提问将得到群主Sobereva的最优先解答。
思想家公社的门口Blog:http://sobereva.com(发布大量原创计算化学相关博文)
Multiwfn主页:http://sobereva.com/multiwfn(十分强大的量子化学波函数分析程序)
ResearchGate:https://www.researchgate.net/profile/Tian_Lu
Money and papers are rubbish, get a real life!

247

帖子

1

威望

2411

eV
积分
2678

Level 5 (御坂)

3#
发表于 Post on 2023-12-22 13:30:26 | 只看该作者 Only view this author
同7950x平台,经过了一段时间的折腾和尝试,我发现该平台会发生l703或者频率部分报错直接退出,导致优化中途l703报错而且没有什么特殊报错信息,频率根本没法算完。尝试换Gaussian版本(16 A 01、16 C 01、09E)和指令集(AVX、AVX2)发现都不行,包括加参数export PGI_FASTMATH_CPU=sandybridge也没啥用。最后经过测试是内存超频引起的。使用的是技嘉B650m小雕主板,XMP同时开启低延迟和高带宽大概率会出现上述问题,只开XMP或者不内存超频大概率就没有上述报错了(ps. Gaussian对内存性能要求较高,test0397测试可以从ddr5 3600的6分半降低至ddr5 5600的5分半,主要是上4条32gb内存很难再往上走了)。只能说有些程序报错和机器本身有关,反正使用7950x发现了很多包括mkl编译失败、rocky linux 9.0-9.1安装失败、cp2k 2023.1编译失败等问题。虽然现在AMD平台兼容性没那么差了,还会有偶发性的问题,需要花些功夫折腾
我唯一知道的就是我一无所知,但我是化学小迷弟

195

帖子

0

威望

4035

eV
积分
4230

Level 6 (一方通行)

4#
 楼主 Author| 发表于 Post on 2023-12-22 22:26:18 | 只看该作者 Only view this author
ChemG 发表于 2023-12-22 13:30
同7950x平台,经过了一段时间的折腾和尝试,我发现该平台会发生l703或者频率部分报错直接退出,导致优化中 ...

我的是内存频率设置的太高,导致在内存高负载的时候会导致软件出错。后来把频率从6400降到6000就能稳定运行。真是摸索了很久,系统都来回换了几个,而且这个内存出错不会导致系统重启,系统日志里面也查不到。

230

帖子

0

威望

2653

eV
积分
2883

Level 5 (御坂)

5#
发表于 Post on 2023-12-23 08:08:23 | 只看该作者 Only view this author
这种用途的机子还超频……唉真是

247

帖子

1

威望

2411

eV
积分
2678

Level 5 (御坂)

6#
发表于 Post on 2023-12-24 16:11:52 | 只看该作者 Only view this author
tiandikuoyuan 发表于 2023-12-22 22:26
我的是内存频率设置的太高,导致在内存高负载的时候会导致软件出错。后来把频率从6400降到6000就能稳定运 ...

对,我也以为是系统原因,换了centos7也不行,用VMware虚拟机也不行。那就只有超频的问题了,把内存超频关掉就正常了。捣鼓了很久才搞清楚症状。你是两条ddr5内存吧,两条确实能超到较高的频率。
我唯一知道的就是我一无所知,但我是化学小迷弟

247

帖子

1

威望

2411

eV
积分
2678

Level 5 (御坂)

7#
发表于 Post on 2023-12-24 16:17:36 | 只看该作者 Only view this author
一颗赛艇 发表于 2023-12-23 08:08
这种用途的机子还超频……唉真是

Zen4平台插满4条ddr5内存时,默认频率只有3600,内存性能成为计算的主要瓶颈了,相比于5600时Gaussian 16 C01运行test0397性能降低了将近20%,当然要超频了。况且适度超频并不会导致系统极度不稳定,同时获得可观的性能提升。超频肯定也是要反复测试系统稳定性的,并且是以系统稳定运行为前提的
我唯一知道的就是我一无所知,但我是化学小迷弟

230

帖子

0

威望

2653

eV
积分
2883

Level 5 (御坂)

8#
发表于 Post on 2023-12-29 08:41:16 | 只看该作者 Only view this author
ChemG 发表于 2023-12-24 16:17
Zen4平台插满4条ddr5内存时,默认频率只有3600,内存性能成为计算的主要瓶颈了,相比于5600时Gaussian 16 ...

内存一般情况很少成为瓶颈
内存成瓶颈只能建议你去用epyc这种处理器

8

帖子

0

威望

450

eV
积分
458

Level 3 能力者

9#
发表于 Post on 2024-1-2 14:47:07 | 只看该作者 Only view this author
ChemG 发表于 2023-12-22 13:30
同7950x平台,经过了一段时间的折腾和尝试,我发现该平台会发生l703或者频率部分报错直接退出,导致优化中 ...

我在用gaussian 16的时候,也是一样的毛病,算频率就报错。16A3 C12都试过,09也试过,都报错,并且输出文件没有任何结束信息,直接截断。我用的epyc 2,后来换了cpu还是这种情况,我现在也怀疑是内存问题。但我是技嘉服务器主板,没有XMP选项,请问有什么解决思路吗

8

帖子

0

威望

450

eV
积分
458

Level 3 能力者

10#
发表于 Post on 2024-1-2 14:50:00 | 只看该作者 Only view this author
ChemG 发表于 2023-12-22 13:30
同7950x平台,经过了一段时间的折腾和尝试,我发现该平台会发生l703或者频率部分报错直接退出,导致优化中 ...

我试过小雕+7950x+64g ddr5 6000金士顿,默认设置无问题。

1237

帖子

1

威望

3499

eV
积分
4756

Level 6 (一方通行)

11#
发表于 Post on 2024-1-2 15:24:23 | 只看该作者 Only view this author
ChemG 发表于 2023-12-24 16:17
Zen4平台插满4条ddr5内存时,默认频率只有3600,内存性能成为计算的主要瓶颈了,相比于5600时Gaussian 16 ...

没有ecc还超频,那不就是等着死的快

247

帖子

1

威望

2411

eV
积分
2678

Level 5 (御坂)

12#
发表于 Post on 2024-1-3 13:25:20 | 只看该作者 Only view this author
biogon 发表于 2024-1-2 15:24
没有ecc还超频,那不就是等着死的快

金士顿Fury ddr5本来就带片内ECC。我已经找到并且解决了问题,在这里只是向有相同问题的小伙伴分享解决思路。超频与否自行测试选择即可
我唯一知道的就是我一无所知,但我是化学小迷弟

1237

帖子

1

威望

3499

eV
积分
4756

Level 6 (一方通行)

13#
发表于 Post on 2024-1-6 10:37:48 | 只看该作者 Only view this author
ChemG 发表于 2024-1-3 13:25
金士顿Fury ddr5本来就带片内ECC。我已经找到并且解决了问题,在这里只是向有相同问题的小伙伴分享解决思 ...

ddr5自带的ecc实际没有纠错功能

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2024-11-27 17:51 , Processed in 0.319669 second(s), 21 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list