机器学习中数据污染相关疑问的请教

Harrypotter · 发表于 Post on 2026-5-1 17:00:01

   请教大家一个问题。
   我训练的是一个化合物多目标预测模型，目前数据集中有3000多个化合物，待研究的性质有9个性质，但这些性质的数据量分布不均，比如密度前100个分子有，生成焓是后100个分子有。通常每个性质的预测的流程是把含有这个性质的化合物挑出来，然后划分训练集和测试集开展建模。建模的时候使用每个分子的结构计算一系列特征，然后用特征去建模。现在我想使用一个模型同时预测这些性质，在划分数据集的时候我还是先把含有每个性质化合物挑出来，分成9类，对这9类数据集都进行训练集与测试集划分，然后把所有的训练集和测试集分别合并，然后作为总的训练集和测试集。我的问题是，这种情况会不会导致数据污染？
   我把我的代码交给大模型评价的时候，大模型说会导致数据污染，它给的理由如下：比如分子A，它的密度被分在训练集中了，生成焓分到测试集中了。在训练的时候，因为密度在训练集中，模型在训练的时候会学习到分子A的特征，那么在预测测试集中的生成焓的时候它就认为它见过这个分子，就出现了数据污染。
   我个人觉得不是，模型即使在训练集中见过分子A，但是它只学习了分子A的密度，并没有学习生成焓，那么在预测生成焓的时候也就不存在数据污染。但我不是学算法的，所以我不清楚自己想的是对是错。所以想找找专业的人来帮我解惑，谢谢。

sobereva · 发表于 Post on 2026-5-2 07:29:09

不同属性应当分别建立不同的预测模型

Harrypotter · 发表于 Post on 2026-5-2 22:40:14

sobereva 发表于 2026-5-2 07:29
不同属性应当分别建立不同的预测模型

谢谢回复。一般来说是应该单独建模，但是我们选择一个模型预测多个性质是因为1.我们的数据量不够多，想通过这种方式改善小样本的问题。2.我们想通过模型寻找一下这些性质之间的关联，利用模型解释性的技术研究一下内在机理。如果我们的划分方式会导致数据污染，那就谈不上对这两个问题的改善了。还是想想别的办法吧。

Huschein · 发表于 Post on 2026-5-4 02:36:40

开个多头就可以了所有的性质预测共享一个编码模块然后多头预测不同的性质不然100个数据用来做一个模型还不如用人工去看再加上3000化合物也太小了根本做不了神经网络如果用传统方法的话那好像也没法加多头可以试试改造SVM

Harrypotter · 发表于 Post on 2026-5-4 19:15:02

Huschein 发表于 2026-5-4 02:36
开个多头就可以了所有的性质预测共享一个编码模块然后多头预测不同的性质不然100个数据用来做一个模型还 ...

谢谢回复。我不是研究算法的，所以您的回复中我有些地方没理解。我目前的问题在划分数据集的时候如何划分，而不是如何用一个模型预测多个性质。我的个人理解如下：
假如按照一般的划分方式，直接将3000个化合物划分为训练集和测试集，而不看数据分布的话，万一出现极端情况“把含有密度数据的所有化合物都分到了测试集中，训练集中都没有密度这个性质的数据”，这种情况下不论使用单头还是多头，训练出来的模型都不能够预测密度吧。所以我想使用我之前说过的划分数据集的方式，但那是不是又数据污染了？

Huschein · 发表于 Post on 2026-5-5 05:02:11

Harrypotter 发表于 2026-5-4 19:15
谢谢回复。我不是研究算法的，所以您的回复中我有些地方没理解。我目前的问题在划分数据集的时候如何划分 ...

那就每个单独一个模型然后划分的时候人为设定规则或者审核一下

Harrypotter · 发表于 Post on 2026-5-6 16:14:19

Huschein 发表于 2026-5-5 05:02
那就每个单独一个模型然后划分的时候人为设定规则或者审核一下

也只能如此了

Diotima · 发表于 Post on 2026-5-7 11:18:24

Harrypotter 发表于 2026-5-4 19:15
谢谢回复。我不是研究算法的，所以您的回复中我有些地方没理解。我目前的问题在划分数据集的时候如何划分 ...

最好还是分开训练，多头确实我感觉是最好的办法。但是你数据量未免太小了。本来结构到性质的关系就很高维，这点数据应该拟合不大好。

Harrypotter · 发表于 Post on 2026-5-8 09:27:10

Diotima 发表于 2026-5-7 11:18
最好还是分开训练，多头确实我感觉是最好的办法。但是你数据量未免太小了。本来结构到性质的关系就很高维 ...

冷门行业，数据没办法像药物领域那样可以收集到很多，不过目前结果来看合在一起训练的误差比分开是有降低的，就是不知道使用的数据划分方法行不行，不行的话，精度再高也没用。

s1gma · 发表于 Post on 2026-6-11 21:36:37

总体只有3000个分子硬挫神经网络困难还是比较大的~
个人有两个思路，做多头预测或者干脆对每个独立的性质学一个传统机器学习方法出来~主要看缺失值的占比吧？
小数据集主要看输入质量了，输入质量高性能也能不错

s1gma · 发表于 Post on 2026-6-11 21:37:46

Harrypotter 发表于 2026-5-2 22:40
谢谢回复。一般来说是应该单独建模，但是我们选择一个模型预测多个性质是因为1.我们的数据量不够多，想通 ...

私以为用模型结果尝试后解释是没什么意义的
其实后解释与其说是模型觉得什么输入对输出有意义，不如说是寻找了和输出性质相关性好的输入

dodobird1 · 发表于 Post on 2026-6-11 21:50:04

Harrypotter 发表于 2026-5-2 22:40
谢谢回复。一般来说是应该单独建模，但是我们选择一个模型预测多个性质是因为1.我们的数据量不够多，想通 ...

赞同楼上。倘若通过控制提供给模型的特征等方式来解释模型，可能还合理一些
现在的数据集太小了，可能得考虑自己造数据（理论计算、增广？），所以可能（但是也不一定，因素很多）尤其给不出来很有意义的说法

Harrypotter · 发表于 Post on 5 day ago

s1gma 发表于 2026-6-11 21:37
私以为用模型结果尝试后解释是没什么意义的
其实后解释与其说是模型觉得什么输入对输出有意义，不如说是 ...

数据只能慢慢收集，但是我目前更想知道划分数据集的方式是否存在数据污染的可能。

Harrypotter · 发表于 Post on 5 day ago

dodobird1 发表于 2026-6-11 21:50
赞同楼上。倘若通过控制提供给模型的特征等方式来解释模型，可能还合理一些
现在的数据集太小了，可能得 ...

能不能给出有意义的结果这还需要继续分析，现在做研究也不能只是把模型做出来，把精度提上去，解释性分析也得做。数据增强也尝试过，效果不是很明显，而且我目前更想知道划分数据集的方式是否存在数据污染的可能

		自动登录 Automatic login	找回密码 Forget password
密码 Password			注册 Register

[综合交流] 机器学习中数据污染相关疑问的请教