计算化学公社

标题: 求助LUMO预测值与计算值误差原因分析 [打印本页]

作者
Author:
wwwwwt    时间: 2025-7-4 10:13
标题: 求助LUMO预测值与计算值误差原因分析
各位大神,我有几个分子的LUMO预测值(AI模型获得),现在想和DFT的计算值做一个比较,获得MAE。我发现以下几个分子的误差比较大,目前分析原因从几何优化后的结构入手,我发现,以下几个分子通过gauss view显示后,都存在断键、共轭双键、双键变单键的情况(看过社长的帖子,明白gauss view呈现的断键与否不重要),想问问是否误差较大和这两个因素有关?
1.C=N变成共轭双键 (, 下载次数 Times of downloads: 1)
(, 下载次数 Times of downloads: 74) (, 下载次数 Times of downloads: 78)


2.P=O变成P-O
(, 下载次数 Times of downloads: 76) (, 下载次数 Times of downloads: 80)
(, 下载次数 Times of downloads: 0)

3.几何优化后,出现断键
(, 下载次数 Times of downloads: 78) (, 下载次数 Times of downloads: 78)
(, 下载次数 Times of downloads: 0)



作者
Author:
Uus/pMeC6H4-/キ    时间: 2025-7-4 10:22
第一个结构如果是电中性的话会存在自由基,第二第三个结构的磺酰基空间构型不对(在前帖http://bbs.keinsci.com/thread-53953-1-1.html已经指出来了);不知道你训练ai的具体细节,如果数据集没有覆盖这些化学不合理的情况自然预测不准。
作者
Author:
wwwwwt    时间: 2025-7-4 10:27
Uus/pMeC6H4-/キ 发表于 2025-7-4 10:22
第一个结构如果是电中性的话会存在自由基,第二第三个结构的磺酰基空间构型不对(在前帖http://bbs.keinsci ...

感谢您,这些分子的元素类型都包含在训练集中了
作者
Author:
wwwwwt    时间: 2025-7-4 10:29
Uus/pMeC6H4-/キ 发表于 2025-7-4 10:22
第一个结构如果是电中性的话会存在自由基,第二第三个结构的磺酰基空间构型不对(在前帖http://bbs.keinsci ...

第一个结构是电中性的,但是我没理解您说的自由基和出现的共轭双键有什么关联,能再详细些吗?谢谢
作者
Author:
wal    时间: 2025-7-4 12:09
wwwwwt 发表于 2025-7-4 10:29
第一个结构是电中性的,但是我没理解您说的自由基和出现的共轭双键有什么关联,能再详细些吗?谢谢

既然知道gaussview呈现的断键与否不重要为啥还要管这个所谓的"共轭双键"呢。
作者
Author:
Uus/pMeC6H4-/キ    时间: 2025-7-4 12:47
wwwwwt 发表于 2025-7-4 10:27
感谢您,这些分子的元素类型都包含在训练集中了

其实ai没你想得那么聪明/黑箱,单单元素类型在训练集里还远远不够,还得看化学环境。打个比方,学有机化学前几章掌握了含有碳氢氧的醇和醚的特征,显然并不意味着自动知道了同样含有碳氢氧的醛/酮/羧酸/酸酐/呋喃等等的特征,还得继续学后面很多章来了解不同化学环境下的碳氧键的结构与性质;人是如此,ai也如此。

……说到这里我得讲几句比较难听的话,我很怀疑你的基础化学知识是否足以支撑当前研究:如果连合理的分子结构一般长什么样都不清楚的话,连初始坐标和计算结果对不对都没法确认,更别说给ai构建的训练集和测试集是什么质量了。先别谈什么量子化学计算和ai训练了,赶紧去找些无机和有机教科书补习下最基本的分子结构与官能团知识,要不然后面还得踩很多坑。
作者
Author:
PLwang    时间: 2025-7-4 15:05
如果你的技术路线是"DFT计算得到大量分子的HOMO LUMO作为原始数据-ML进行训练得到ML模型",我只能说你的技术路线创新不足。这是一个已经有很多人做过的领域了,比如https://github.com/MooseML/homo-lumo-gap-predictor,比如https://pubs.acs.org/doi/full/10.1021/acs.jcim.6b00340,你需要目前的工作和先前的工作,不同的地方在哪里。
甚至除过HOMO LUMO,其他的分子量子化学性质,比如pKa、偶极矩等等,都有现成的工作了。
作者
Author:
wwwwwt    时间: 2025-7-7 09:28
wal 发表于 2025-7-4 12:09
既然知道gaussview呈现的断键与否不重要为啥还要管这个所谓的"共轭双键"呢。

因为目前出现误差较大的分子,都是与这个问题强相关的。无非就是gauss view 中断键或者出现所谓的共轭双键,所以想知道这种现象和误差是否有关联
作者
Author:
wwwwwt    时间: 2025-7-7 09:34
Uus/pMeC6H4-/キ 发表于 2025-7-4 12:47
其实ai没你想得那么聪明/黑箱,单单元素类型在训练集里还远远不够,还得看化学环境。打个比方,学有机化 ...

感谢!
作者
Author:
wwwwwt    时间: 2025-7-7 09:35
PLwang 发表于 2025-7-4 15:05
如果你的技术路线是"DFT计算得到大量分子的HOMO LUMO作为原始数据-ML进行训练得到ML模型",我只能说你的技 ...

感谢!




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3