在5月22-26日期间,本论坛仅限等级≥level 4的成员发新的主题贴,带来的不便请谅解!(此期间请勿给管理员Sobereva发私信问学术问题)

计算化学公社

 找回密码 Forget password
 注册 Register
Views: 490|回复 Reply: 8
打印 Print 上一主题 Last thread 下一主题 Next thread

[综合交流] 机器学习中数据污染相关疑问的请教

[复制链接 Copy URL]

19

帖子

2

威望

1109

eV
积分
1168

Level 4 (黑子)

      请教大家一个问题。
      我训练的是一个化合物多目标预测模型,目前数据集中有3000多个化合物,待研究的性质有9个性质,但这些性质的数据量分布不均,比如密度前100个分子有,生成焓是后100个分子有。通常每个性质的预测的流程是把含有这个性质的化合物挑出来,然后划分训练集和测试集开展建模。建模的时候使用每个分子的结构计算一系列特征,然后用特征去建模。现在我想使用一个模型同时预测这些性质,在划分数据集的时候我还是先把含有每个性质化合物挑出来,分成9类,对这9类数据集都进行训练集与测试集划分,然后把所有的训练集和测试集分别合并,然后作为总的训练集和测试集。我的问题是,这种情况会不会导致数据污染?
       我把我的代码交给大模型评价的时候,大模型说会导致数据污染,它给的理由如下:比如分子A,它的密度被分在训练集中了,生成焓分到测试集中了。在训练的时候,因为密度在训练集中,模型在训练的时候会学习到分子A的特征,那么在预测测试集中的生成焓的时候它就认为它见过这个分子,就出现了数据污染。
       我个人觉得不是,模型即使在训练集中见过分子A,但是它只学习了分子A的密度,并没有学习生成焓,那么在预测生成焓的时候也就不存在数据污染。但我不是学算法的,所以我不清楚自己想的是对是错。所以想找找专业的人来帮我解惑,谢谢。

6万

帖子

99

威望

6万

eV
积分
127015

管理员

公社社长

2#
发表于 Post on 2026-5-2 07:29:09 | 只看该作者 Only view this author
不同属性应当分别建立不同的预测模型
北京科音自然科学研究中心http://www.keinsci.com)致力于计算化学的发展和传播,长期开办极高质量的各种计算化学类培训:初级量子化学培训班中级量子化学培训班高级量子化学培训班量子化学波函数分析与Multiwfn程序培训班分子动力学与GROMACS培训班CP2K第一性原理计算培训班,内容介绍以及往届资料购买请点击相应链接查看。这些培训是计算化学从零快速入门以及进一步全面系统性提升研究水平的高速路!培训各种常见问题见《北京科音办的培训班FAQ》
欢迎加入北京科音微信公众号获取北京科音培训的最新消息,并避免错过网上有价值的计算化学文章!
欢迎加入人气极高、专业性特别强的理论与计算化学综合交流群思想家公社QQ群(群号见此链接),合计达一万多人。北京科音培训班的学员在群中可申请VIP头衔,提问将得到群主Sobereva的最优先解答。
思想家公社的门口Blog:http://sobereva.com(发布大量原创计算化学相关博文)
Multiwfn主页:http://sobereva.com/multiwfn(十分强大、极为流行的量子化学波函数分析程序)
Google Scholar:https://scholar.google.com/citations?user=tiKE0qkAAAAJ
ResearchGate:https://www.researchgate.net/profile/Tian_Lu

19

帖子

2

威望

1109

eV
积分
1168

Level 4 (黑子)

3#
 楼主 Author| 发表于 Post on 2026-5-2 22:40:14 | 只看该作者 Only view this author
sobereva 发表于 2026-5-2 07:29
不同属性应当分别建立不同的预测模型

谢谢回复。一般来说是应该单独建模,但是我们选择一个模型预测多个性质是因为1.我们的数据量不够多,想通过这种方式改善小样本的问题。2.我们想通过模型寻找一下这些性质之间的关联,利用模型解释性的技术研究一下内在机理。如果我们的划分方式会导致数据污染,那就谈不上对这两个问题的改善了。还是想想别的办法吧。

230

帖子

4

威望

1671

eV
积分
1981

Level 5 (御坂)

4#
发表于 Post on 2026-5-4 02:36:40 | 只看该作者 Only view this author
开个多头就可以了 所有的性质预测共享一个编码模块 然后多头预测不同的性质 不然100个数据用来做一个模型还不如用人工去看 再加上3000化合物也太小了 根本做不了神经网络 如果用传统方法的话那好像也没法加多头 可以试试改造SVM

19

帖子

2

威望

1109

eV
积分
1168

Level 4 (黑子)

5#
 楼主 Author| 发表于 Post on 2026-5-4 19:15:02 | 只看该作者 Only view this author
Huschein 发表于 2026-5-4 02:36
开个多头就可以了 所有的性质预测共享一个编码模块 然后多头预测不同的性质 不然100个数据用来做一个模型还 ...

谢谢回复。我不是研究算法的,所以您的回复中我有些地方没理解。我目前的问题在划分数据集的时候如何划分,而不是如何用一个模型预测多个性质。我的个人理解如下:
假如按照一般的划分方式,直接将3000个化合物划分为训练集和测试集,而不看数据分布的话,万一出现极端情况“把含有密度数据的所有化合物都分到了测试集中,训练集中都没有密度这个性质的数据”,这种情况下不论使用单头还是多头,训练出来的模型都不能够预测密度吧。所以我想使用我之前说过的划分数据集的方式,但那是不是又数据污染了?

230

帖子

4

威望

1671

eV
积分
1981

Level 5 (御坂)

6#
发表于 Post on 2026-5-5 05:02:11 | 只看该作者 Only view this author
Harrypotter 发表于 2026-5-4 19:15
谢谢回复。我不是研究算法的,所以您的回复中我有些地方没理解。我目前的问题在划分数据集的时候如何划分 ...

那就每个单独一个模型 然后划分的时候人为设定规则或者审核一下

19

帖子

2

威望

1109

eV
积分
1168

Level 4 (黑子)

7#
 楼主 Author| 发表于 Post on 2026-5-6 16:14:19 | 只看该作者 Only view this author
Huschein 发表于 2026-5-5 05:02
那就每个单独一个模型 然后划分的时候人为设定规则或者审核一下

也只能如此了

96

帖子

2

威望

714

eV
积分
850

Level 4 (黑子)

8#
发表于 Post on 2026-5-7 11:18:24 | 只看该作者 Only view this author
Harrypotter 发表于 2026-5-4 19:15
谢谢回复。我不是研究算法的,所以您的回复中我有些地方没理解。我目前的问题在划分数据集的时候如何划分 ...

最好还是分开训练,多头确实我感觉是最好的办法。但是你数据量未免太小了。本来结构到性质的关系就很高维,这点数据应该拟合不大好。
Superiora de inferioribus, inferiora de superioribus, prodigiorum operatio ex uno, quemadmodum omnia ex uno eodemque ducunt originem, una eademque consilii administratione.

19

帖子

2

威望

1109

eV
积分
1168

Level 4 (黑子)

9#
 楼主 Author| 发表于 Post on 2026-5-8 09:27:10 | 只看该作者 Only view this author
Diotima 发表于 2026-5-7 11:18
最好还是分开训练,多头确实我感觉是最好的办法。但是你数据量未免太小了。本来结构到性质的关系就很高维 ...

冷门行业,数据没办法像药物领域那样可以收集到很多,不过目前结果来看合在一起训练的误差比分开是有降低的,就是不知道使用的数据划分方法行不行,不行的话,精度再高也没用。

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2026-5-22 07:19 , Processed in 0.169132 second(s), 21 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list