计算化学公社

 找回密码 Forget password
 注册 Register
Views: 22|回复 Reply: 0
打印 Print 上一主题 Last thread 下一主题 Next thread

[综合交流] 机器学习中数据污染相关疑问的请教

[复制链接 Copy URL]

15

帖子

2

威望

1093

eV
积分
1148

Level 4 (黑子)

      请教大家一个问题。
      我训练的是一个化合物多目标预测模型,目前数据集中有3000多个化合物,待研究的性质有9个性质,但这些性质的数据量分布不均,比如密度前100个分子有,生成焓是后100个分子有。通常每个性质的预测的流程是把含有这个性质的化合物挑出来,然后划分训练集和测试集开展建模。建模的时候使用每个分子的结构计算一系列特征,然后用特征去建模。现在我想使用一个模型同时预测这些性质,在划分数据集的时候我还是先把含有每个性质化合物挑出来,分成9类,对这9类数据集都进行训练集与测试集划分,然后把所有的训练集和测试集分别合并,然后作为总的训练集和测试集。我的问题是,这种情况会不会导致数据污染?
       我把我的代码交给大模型评价的时候,大模型说会导致数据污染,它给的理由如下:比如分子A,它的密度被分在训练集中了,生成焓分到测试集中了。在训练的时候,因为密度在训练集中,模型在训练的时候会学习到分子A的特征,那么在预测测试集中的生成焓的时候它就认为它见过这个分子,就出现了数据污染。
       我个人觉得不是,模型即使在训练集中见过分子A,但是它只学习了分子A的密度,并没有学习生成焓,那么在预测生成焓的时候也就不存在数据污染。但我不是学算法的,所以我不清楚自己想的是对是错。所以想找找专业的人来帮我解惑,谢谢。

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2026-5-1 20:50 , Processed in 0.383655 second(s), 21 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list