计算化学公社

标题: AMD Zen2架构处理器与linux版Gaussian的兼容性问题?(已解决) [打印本页]

作者
Author:
pika02    时间: 2020-2-21 20:22
标题: AMD Zen2架构处理器与linux版Gaussian的兼容性问题?(已解决)
本帖最后由 pika02 于 2020-2-23 00:51 编辑

我最近装了一台R9 3950x主机,MSI的B450板子,已更新最新bios(2019-11-12),在尝试几个版本的Gaussian时出现了各种问题:

① G09W D.01,直接卡死在l302或l401
(, 下载次数 Times of downloads: 81)
我在学校时用过Zen架构的R5 1400跑过此版本,未出现问题。
(20200223更新)并非Zen2的锅,应该是g09w的bug,社长之前的帖子里也提到
测试了一下2696v3、Win10-64bit,G09W和G16W皆32bit,现象相同,都在302永久卡住。无论核数,内存设多少都不过去。半经验的L401同样卡住。应该是程序bug


② linux版G16 A.01,AVX2和SSE4.2版本都直接报错误“Error: illegal instruction , illegal opcode”,这是与CPU不兼容时报的错。
我在Ubuntu 18.04 LTS(WSL,VMWare和实体机)和CentOS7(VMWare)上测试过,都报该错误。

这个问题日本的計算化学.com上也有提到(https://computational-chemistry. ... 9/09/05/zen2-linux/):
Gaussian のインストール
早速 Gaussian16 revB01 を Ryzen 3900x でインストールして動かそうとしましたが、
Error: illegal instruction, illegal opcode
というエラーが出てしまい、うまく行きませんでした。
最初は、どう対処したら良いか全く分からなかったのですが、Gaussian16 revC01 に変えたら動きました!理由は、よく分かりません。
revC01 のリリース日は 7 月なので、ZEN2 に対応しているとも考えづらいです。。。

作者(X570芯片组)用G16 B.01出错,而C.01就没问题,原因尚不清楚。


我目前用G16W A.03和linux版G09 E.01,G16 B.01 SSE4.2没有发现问题,windows版ORCA 4.2.1也没问题。

总之,Zen2的CPU有点奇怪,上文博主也提到3900x刚发售的时候各种linux发行版安装/启动失败的情况,之后通过bios更新部分解决了问题。
如果你们单位的site licence是上述较老版本Gaussian,干脆Intel Yes就完事了。

===========20200222===========
按照楼下的方法,环境变量中添加
  1. export PGI_FASTMATH_CPU=sandybridge
复制代码
G16 A.01 AVX2也成功在3950x上运行起来了。




作者
Author:
biogon    时间: 2020-2-21 23:06
ubuntu18lts在用qs的epyc7702倒是能正常跑g16a03,不知道消费者平台是什么情况
g09w使用在l302卡死乃是bug,什么平台都见过这种情况
作者
Author:
pika02    时间: 2020-2-21 23:13
biogon 发表于 2020-2-21 23:06
ubuntu18lts在用qs的epyc7702倒是能正常跑g16a03,不知道消费者平台是什么情况
g09w使用在l302卡死乃是bug ...

请问你的a03是哪个指令集版本?
作者
Author:
biogon    时间: 2020-2-21 23:23
pika02 发表于 2020-2-21 23:13
请问你的a03是哪个指令集版本?

avx2,我没有sse4.2的

作者
Author:
sobereva    时间: 2020-2-21 23:34
l302卡死,用64bit windows Gaussian可以避免。不过鉴于速度太慢,没什么实际价值
作者
Author:
pika02    时间: 2020-2-21 23:37
sobereva 发表于 2020-2-21 23:34
l302卡死,用64bit windows Gaussian可以避免。不过鉴于速度太慢,没什么实际价值

确实,linux版g16就算在虚拟机里都能比g16w快一倍
作者
Author:
catenarygong    时间: 2020-2-22 02:22
本帖最后由 catenarygong 于 2020-2-22 02:33 编辑

好像zen1架构的兼容性略好一些

我1700X和2950X用G16 A.01的SSE版本和AVX2版本都没有遇到问题
ORCA一直没有问题

zen2架构我没有试过计算软件,不知道什么情况
而且有的时候兼容性和Linux内核的版本还有关系,我之前遇到过5820K不能运行ORCA的情况,更新Linux内核之后就好了

QM软件现在大家都用预编译的二进制包,在Linux系统上兼容性真的很难搞


作者
Author:
baisl    时间: 2020-2-22 17:48
朋友新组了一个3900x,试了一把高斯,用的Vmware15虚拟机,centOS-7.6系统,AVX2版本的Gaussian 16, Revision B.01。一开始不识别指令集,报错L302,加了一个环境变量export PGI_FASTMATH_CPU=sandybridge, 就没毛病的运行了,没有报错Error: illegal instruction , illegal opcode。我是正版也就是高斯公司邮寄过来的光盘里的版本去安装的,不知道和这个有没有关系。
作者
Author:
pika02    时间: 2020-2-22 20:10
baisl 发表于 2020-2-22 17:48
朋友新组了一个3900x,试了一把高斯,用的Vmware15虚拟机,centOS-7.6系统,AVX2版本的Gaussian 16, Revisi ...

我才知道这个操作,高斯的代理墨灵格官方也提到
Gaussian采用PGI编译,目前无法正确识别新的AMD CPU,因此无法识别Zen+构架的AVX2指令集,导致AVX2指令集的Gaussian无法在Zen+构架下使用,并且报错
……
此时需要额外设定环境变量以解决这个问题:
  1. export PGI_FASTMATH_CPU=sandybridge
复制代码
这是相当于把zen+当作sandybridge了?




作者
Author:
biogon    时间: 2020-2-23 00:16
pika02 发表于 2020-2-22 20:10
我才知道这个操作,高斯的代理墨灵格官方也提到
这是相当于把zen+当作sandybridge了?

这个还是第一次听说,我用2600跑都没遇见过这种问题
作者
Author:
天道啊啊    时间: 2020-2-28 13:07
楼主你的主板是微星的哪个B450? 开PBO了没?散热器用的哪个? 我最近打算整个3950X的主机,选主板纠结X570还是B450,怕B450的供电扛不住PBO
作者
Author:
pika02    时间: 2020-2-29 02:58
天道啊啊 发表于 2020-2-28 13:07
楼主你的主板是微星的哪个B450? 开PBO了没?散热器用的哪个? 我最近打算整个3950X的主机,选主板纠结X570 ...

https://pikakolendo.hatenablog.com/entry/2020/02/20/024006
PBO全自动,电压offset -0.875V,单烤fpu非常稳,不往死里超频的话供电完全没问题
B450的话可以考虑迫击炮以上等级的主板,我在学校有一块战斧导弹,供电非常好,可惜我一时半会也拿不到了
作者
Author:
天道啊啊    时间: 2020-3-4 10:52
本帖最后由 天道啊啊 于 2020-3-4 11:03 编辑
pika02 发表于 2020-2-29 02:58
https://pikakolendo.hatenablog.com/entry/2020/02/20/024006
PBO全自动,电压offset -0.875V,单烤fpu ...

我前两天上了一个3950X+技嘉x570i,散热利民AXP100纯铜,机箱是乔思伯T8,没降压开FPU开PBO烤鸡160W左右,温度95,觉得散热不是很好。我用WIN10跑ORCA,指定pal16,温度75左右全核心4G,CPU总利用率总体只有50%,觉得有点奇怪
作者
Author:
pika02    时间: 2020-3-4 13:12
本帖最后由 pika02 于 2020-3-4 14:40 编辑
天道啊啊 发表于 2020-3-4 10:52
我前两天上了一个3950X+技嘉x570i,散热利民AXP100纯铜,机箱是乔思伯T8,没降压开FPU开PBO烤鸡160W左右, ...

任务管理器里看的利用率不准的,具体可以参考社长博文关于超线程的
我试过强行设成32核跑,占用率看着到100%了,但最终速度一点都没变快

乔思伯t8挺闷罐的吧,而且只能上这种很矮的散热器,那肯定不太行,你用什么硅脂?
我不降压全核3.9跑fpu才70多度
哦对,技嘉主板的电压管理有点问题,具体记不清了,最好不要超频

作者
Author:
monoyu    时间: 2020-3-4 13:19
天道啊啊 发表于 2020-3-4 10:52
我前两天上了一个3950X+技嘉x570i,散热利民AXP100纯铜,机箱是乔思伯T8,没降压开FPU开PBO烤鸡160W左右, ...

用下压式风冷压3950X?
作者
Author:
天道啊啊    时间: 2020-3-4 13:27
pika02 发表于 2020-3-4 13:12
任务管理器里看的利用率不准的,具体可以参考社长博文关于超线程的
我试过强行设成32核跑,占用率看着到 ...

我也试过强行32核,速度会慢很多。先这样用把
作者
Author:
天道啊啊    时间: 2020-3-4 13:30
monoyu 发表于 2020-3-4 13:19
用下压式风冷压3950X?

对,看重了乔思伯T8的小体积,二十四小时不关机用了两三天,开PBO稳定全核心4.0,工作温度还可以
作者
Author:
haos314    时间: 2020-3-18 04:30
天道啊啊 发表于 2020-3-4 10:52
我前两天上了一个3950X+技嘉x570i,散热利民AXP100纯铜,机箱是乔思伯T8,没降压开FPU开PBO烤鸡160W左右, ...

跑FPU大致就是跑AVX2(也可能是AVX512)烧鸡,ORCA不用AVX2所以跑ORCA温度会比FPU烧鸡低很多
作者
Author:
shalene    时间: 2020-3-18 12:20
haos314 发表于 2020-3-18 04:30
跑FPU大致就是跑AVX2(也可能是AVX512)烧鸡,ORCA不用AVX2所以跑ORCA温度会比FPU烧鸡低很多

怎么确定orca不用AVX2的?

作者
Author:
haos314    时间: 2020-3-18 23:50
shalene 发表于 2020-3-18 12:20
怎么确定orca不用AVX2的?

其一是orcaforum没有提过要装在支持avx2的机器上,其二是我在只支持到SSE4.2的机器上跑过orca
作者
Author:
shalene    时间: 2020-3-18 23:58
haos314 发表于 2020-3-18 23:50
其一是orcaforum没有提过要装在支持avx2的机器上,其二是我在只支持到SSE4.2的机器上跑过orca

编译程序时可以选择自动识别指令集,你的论据可能不成立。


作者
Author:
haos314    时间: 2020-3-19 07:28
本帖最后由 haos314 于 2020-3-19 08:31 编辑
shalene 发表于 2020-3-18 23:58
编译程序时可以选择自动识别指令集,你的论据可能不成立。
可能吧,我没有找到可以确定一个二进制文件用了哪些指令集的方法;或许反汇编一下可以确定orca到底用没用向量化运算的指令

作者
Author:
Henryugg    时间: 2020-4-16 20:55
a03用在3950x上会直接死在l101上,不报错,就直接停下。用sandybridge来骗可以修复该问题。

作者
Author:
2q1w2007    时间: 2020-6-26 13:45
天道啊啊 发表于 2020-3-4 10:52
我前两天上了一个3950X+技嘉x570i,散热利民AXP100纯铜,机箱是乔思伯T8,没降压开FPU开PBO烤鸡160W左右, ...

95是因为温度墙是95吧,实际上已经不是全负荷跑了
作者
Author:
天道啊啊    时间: 2020-6-28 23:33
2q1w2007 发表于 2020-6-26 13:45
95是因为温度墙是95吧,实际上已经不是全负荷跑了

是因为到了PBO的温度墙,所以烤机只有160W,后来试过银箭130,能跑FPU到180W左右。但是实际上跑ORCA 维持全核4G只要110W左右就足够了
作者
Author:
Geyer    时间: 2020-7-26 02:26
问下楼主是用的msi b450i吗?我用过,这板子似乎有供电上限
39x风冷pbo都只能全核40.25,3950x喂得饱么
另:楼主 mihoP?
作者
Author:
monoyu    时间: 2020-7-26 09:55
Geyer 发表于 2020-7-26 02:26
问下楼主是用的msi b450i吗?我用过,这板子似乎有供电上限
39x风冷pbo都只能全核40.25,3950x喂得饱么
...

MSI B450i + 3900X  我有两台,散热都是利民的单塔风冷TS120Plus,PBO没太注意,应该不止4.025,一直锁全核4.2用,电压1.3多,单烤FPU最高75度左右,供电mos能上60度。平时用Dmol3和ORCA,满载最高也就60多度,mos一般50-60度。用着没啥问题。
最近入了颗3950x, 用MSI B450i试了下,散热还是利民的单塔风冷TS120Plus,锁全核4.2、4.15、4.1都试过,单烤FPU CPU倒是没怎么过热,就是mos温度会一路飙升到90+。现在3950x配了B550M,锁全核4.15,电压1.2,单烤FPU、量化程序满载mos温度一般都不超50。
作者
Author:
earlybird    时间: 2020-11-14 11:09
monoyu 发表于 2020-3-4 13:19
用下压式风冷压3950X?

请问猫头鹰D15s能压3950x吗?
作者
Author:
monoyu    时间: 2020-11-14 11:44
earlybird 发表于 2020-11-14 11:09
请问猫头鹰D15s能压3950x吗?

如果只做计算用,我觉得完全没问题,甚至开PBO和小超都没啥问题。我用的是利民的TS120plus,5热管,双TL-C12 pro 风扇,搞活动时才200出头,一台3900x,一台3950x,都用这个,烤FPU也就75-80℃,平时用Dmol3和ORCA, 完全没问题,品牌、性能、颜值自认为都不错。感觉用D15S有点奢侈了。仅供参考。
作者
Author:
earlybird    时间: 2020-11-14 12:24
本帖最后由 earlybird 于 2020-11-14 12:32 编辑
monoyu 发表于 2020-11-14 11:44
如果只做计算用,我觉得完全没问题,甚至开PBO和小超都没啥问题。我用的是利民的TS120plus,5热管,双TL- ...

原来ts120plus就能压住啊,我去瞧瞧,谢谢老哥的建议 准备上ts140了,活动时也是200刚出头,谢谢老哥

作者
Author:
Butadiene    时间: 2020-11-20 18:00
pika02 发表于 2020-2-22 20:10
我才知道这个操作,高斯的代理墨灵格官方也提到
这是相当于把zen+当作sandybridge了?

刚搭建好的虚拟机,也遇到这个问题了,3600X,虚拟机是CentOS7.9,g16-A.03,输了这个指令好像不管用。。。
作者
Author:
lqid    时间: 2021-1-14 04:12
Zen3似乎也有这个问题。5950x,虚拟机是CentOS 8.3, g16-A.03,输了这个指令之后问题解决。
作者
Author:
MAX-0309    时间: 2021-5-10 12:14
我也是在AMD下,安装的G16 A.03 linux版本,然后用Xshell远程运行的时候显示“Error: illegal instruction , illegal opcode”;在虚拟机里面的终端直接运行就可以,不清楚具体原因,不过目前能正常运行
作者
Author:
jiahaiz    时间: 2023-11-8 19:57
我最近买的电脑R9处理器,用G09W一直卡在I302,是只能用G16W了吗
作者
Author:
Ethan_Fan    时间: 2024-7-31 17:43
本帖最后由 Ethan_Fan 于 2024-7-31 17:45 编辑
baisl 发表于 2020-2-22 17:48
朋友新组了一个3900x,试了一把高斯,用的Vmware15虚拟机,centOS-7.6系统,AVX2版本的Gaussian 16, Revisi ...

您好,您能详细说一下额外添加环境变量的过程吗? 我这边不知道如何操作,我直接添加没起作用,不知道是不是我的操作有问题
作者
Author:
Ethan_Fan    时间: 2024-7-31 17:46
baisl 发表于 2020-2-22 17:48
朋友新组了一个3900x,试了一把高斯,用的Vmware15虚拟机,centOS-7.6系统,AVX2版本的Gaussian 16, Revisi ...

您好,能详细说一下那个环境变量咋添加嘛?我再path里面新建了,但是没有解决这个问题,是我操作有问题嘛
作者
Author:
baisl    时间: 2024-8-2 09:38
Ethan_Fan 发表于 2024-7-31 17:46
您好,能详细说一下那个环境变量咋添加嘛?我再path里面新建了,但是没有解决这个问题,是我操作有问题嘛

我那个是linux版本的解决办法,windows版本我没用过,不是很清楚
作者
Author:
Ethan_Fan    时间: 2024-8-2 17:43
baisl 发表于 2024-8-2 09:38
我那个是linux版本的解决办法,windows版本我没用过,不是很清楚

谢谢您的回复,我后来发现是Linux的操作。我Windows端的解决方案是安装了g16(64位)版本得以解决卡l302的问题。




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3