违约风险相关比赛的建议

2021-01-02  本文已影响0人  致Great
  1. 由于我们为每个申请人提供了历史数据,因此这在一定程度上是一个时序问题。这意味着最新数据比旧数据更相关。

  2. 人们的信用问题有很多随机性,这意味着每折数据之间存在很多差异。尝试不同的K折实验设置,以查看您的模型是否稳定,并且通过更多fold拟合LB分数,我们可以将LB的数据想象成更多的1折数据。有时候可能会出现一个离群值,所以TRUST YOUR LOCAL CV!!!

  3. 有时候我们获得的许多特征以及与我们生成的特征都与目标无关,而只是混淆了模型。 LGB和XGB具有丰富的工具集,可消除嘈杂的功能并规范化模型。对于此类竞赛,最重要的两个是feature_fractionreg_lambda

  4. 关于数据的一个奇怪之处是,有时候初赛与复赛会给我们提供不同的数据,我们可能不知道为什么会这样,但是研究这些差异可能会带您一些有用的特征。

  5. 与所有Kaggle竞赛(以及所有机器学习问题)一样,最重要的第一步是获取与测试集匹配的验证集设置。在线下验证值得信赖之前,花时间进行特征设计是没有意义的。这个比较好理解,也是大家经常遇到的一个问题就是“线下分数涨了为什么线上分数没有涨?”,所以我们可以尽可能找到一份可靠的验证集以及评估方法,尽量保证线下线上分数趋势变化一致。

  6. 从业务的角度来看,我们生成的所有有用功能都很有意义。考虑什么情况会导致信用问题并基于这些思想衍生特征。很多特征中的大多数可能不会起作用,但是不要轻易放弃。数据集非常丰富,特征生成的可能性几乎是无限的。

  7. 享受比赛!有很多比赛违约容易摸奖,容易翻车,尽力而为,剩下交给运气。

上一篇下一篇

猜你喜欢

热点阅读