违约风险相关比赛的建议

2021-01-02 本文已影响0人致Great

由于我们为每个申请人提供了历史数据，因此这在一定程度上是一个时序问题。这意味着最新数据比旧数据更相关。
人们的信用问题有很多随机性，这意味着每折数据之间存在很多差异。尝试不同的K折实验设置，以查看您的模型是否稳定，并且通过更多fold拟合LB分数，我们可以将LB的数据想象成更多的1折数据。有时候可能会出现一个离群值，所以TRUST YOUR LOCAL CV!!!
有时候我们获得的许多特征以及与我们生成的特征都与目标无关，而只是混淆了模型。 LGB和XGB具有丰富的工具集，可消除嘈杂的功能并规范化模型。对于此类竞赛，最重要的两个是feature_fraction和reg_lambda。
关于数据的一个奇怪之处是，有时候初赛与复赛会给我们提供不同的数据，我们可能不知道为什么会这样，但是研究这些差异可能会带您一些有用的特征。
与所有Kaggle竞赛（以及所有机器学习问题）一样，最重要的第一步是获取与测试集匹配的验证集设置。在线下验证值得信赖之前，花时间进行特征设计是没有意义的。这个比较好理解，也是大家经常遇到的一个问题就是“线下分数涨了为什么线上分数没有涨？”，所以我们可以尽可能找到一份可靠的验证集以及评估方法，尽量保证线下线上分数趋势变化一致。
从业务的角度来看，我们生成的所有有用功能都很有意义。考虑什么情况会导致信用问题并基于这些思想衍生特征。很多特征中的大多数可能不会起作用，但是不要轻易放弃。数据集非常丰富，特征生成的可能性几乎是无限的。
享受比赛！有很多比赛违约容易摸奖，容易翻车，尽力而为，剩下交给运气。

违约风险相关比赛的建议

猜你喜欢

热点阅读