机器学习中数据污染相关疑问的请教

Harrypotter · 发表于 Post on yesterday 17:00

   请教大家一个问题。
   我训练的是一个化合物多目标预测模型，目前数据集中有3000多个化合物，待研究的性质有9个性质，但这些性质的数据量分布不均，比如密度前100个分子有，生成焓是后100个分子有。通常每个性质的预测的流程是把含有这个性质的化合物挑出来，然后划分训练集和测试集开展建模。建模的时候使用每个分子的结构计算一系列特征，然后用特征去建模。现在我想使用一个模型同时预测这些性质，在划分数据集的时候我还是先把含有每个性质化合物挑出来，分成9类，对这9类数据集都进行训练集与测试集划分，然后把所有的训练集和测试集分别合并，然后作为总的训练集和测试集。我的问题是，这种情况会不会导致数据污染？
   我把我的代码交给大模型评价的时候，大模型说会导致数据污染，它给的理由如下：比如分子A，它的密度被分在训练集中了，生成焓分到测试集中了。在训练的时候，因为密度在训练集中，模型在训练的时候会学习到分子A的特征，那么在预测测试集中的生成焓的时候它就认为它见过这个分子，就出现了数据污染。
   我个人觉得不是，模型即使在训练集中见过分子A，但是它只学习了分子A的密度，并没有学习生成焓，那么在预测生成焓的时候也就不存在数据污染。但我不是学算法的，所以我不清楚自己想的是对是错。所以想找找专业的人来帮我解惑，谢谢。

sobereva · 发表于 Post on 1 hour ago

不同属性应当分别建立不同的预测模型

		自动登录 Automatic login	找回密码 Forget password
密码 Password			注册 Register

[综合交流] 机器学习中数据污染相关疑问的请教