数据泄露
2020-04-30 本文已影响0人
十二支箭
1.目标泄露:存在由y决定的x,即先发生y,后发生x。
2.训练测试污染:例如填补缺失值使用了全部的数据,在调用calling train_test_split()函数前对数据进行预处理(比如为缺失的值拟合一个估算值),结果怎么样?你的模型将会获得一个较好的验证分数,但用于部署决策时效果很差。
1.目标泄露:存在由y决定的x,即先发生y,后发生x。
2.训练测试污染:例如填补缺失值使用了全部的数据,在调用calling train_test_split()函数前对数据进行预处理(比如为缺失的值拟合一个估算值),结果怎么样?你的模型将会获得一个较好的验证分数,但用于部署决策时效果很差。