AI成长社

第四届拍拍贷魔镜杯冠军方案分享

2019-10-04  本文已影响0人  文一休

1.介绍

​ 队员:@回头是岸,@林萧, @观想,作者:@一休

2. 赛题背景

资金流动性管理迄今仍是金融领域的经典问题。在互联网金融信贷业务中,单个资产标的金额小且复杂多样,对于拥有大量出借资金的金融机构或散户而言,资金管理压力巨大,精准地预测出借资金的流动情况变得尤为重要。本次比赛以互联网金融信贷业务为背景,以《现金流预测》为题,希望选手能够利用我们提供的数据,精准地预测资产组合在未来一段时间内每日的回款金额。

本赛题涵盖了信贷违约预测、现金流预测等金融领域常见问题,同时又是复杂的时序问题和多目标预测问题。希望参赛者利用聪明才智把互联网金融的数据优势转化为行业解决方案。

img

数据包含训练样本、测试样本、每个标的的属性表、借款用户基础信息表、用户画像标签列表、借款用户操作行为日志表和用户还款日志表五个部分。

赛题的详解和数据见:官网
如失效关注公众号:AI成长社,回复:魔镜杯 即可获得

3.赛题理解

基于对赛题的分析以及金融风控业务的理解,得到以下几点:

基于以上分析,决定在未知资产组合的情况下将原有的问题从宏观和微观两个方面进行挖掘,从微观角度挖掘用户的一些借贷习惯;从宏观挖掘公司每月每日资金的流入流出情况,来拟合最终的资产组合的回款情况,具体的结构如下图。

stpe

4. 特征工程

由于金融风控领域对模型特征要求有很强的可解释性,在挖掘基本的特征时,我们都会考虑挖掘的特征最终的作用点。我们最终的特征有三部分来源,分别是基本信息特征、用户浏览行为特征和用户还款行为特征。

1.基本特征

基于时间过滤筛选出未穿越的基本时间特征,具体特征如下图:


feature

2.用户浏览行为特征

3.用户还款行为特征

5 模型的设计

1.label设计
公式:label = due\_date - repay\_date
由于受到大小月份的影响,进行适当的修正,其中31表示借款当天还款,即auditing\_date == repay\_date, 32表示逾期,其余不存在的日期用0填充。最终的结果分布如下图。修正后的label定义方式相比直接采用距离天数的定义方式,线上提升100多分。

label

2.训练集的调整

统计数据发现2018年数据2月和3月的还款情况和其他月份有很大不同,逾期率更大,分析可能是由于春节的原因,故将2018年的2月和3月作为线下验证集,然后将其余的数据作为线下训练集。这种方式验证集比直接随机选取数据做验证集效果更好,线上提升在150分左右。如果分拆成两个模型,分别是2月作为验证集和3月作为验证集,线上还能再提升50分左右,最终为了模型更简单,没有使用这种方案。

3.模型结构

model

我们的模型分为两个部分,微观部分对应用户的一些特征,主要挖掘方向就是用户的还款风险以及还款时间偏好,特征见上面的特征部分,模型使用的事lightgbm模型。宏观部分主要是分析公司每月,每日的资金运转流通情况,统计分析自然天资金回流的概率,在微观预测的基础上调整回流日资金分配。最终线上得分5424分。

优点:

4.loss 优化

loss1

6.总结

7. 可深入探索模型

model2


推荐阅读:

如果出现出现图片失效的情况请阅读:https://mp.weixin.qq.com/s/0V0CkJ7HE-O8jp8g4GCeGA

作者的知乎:一休, 知乎专栏:ML与DL成长之路

微信公号:AI成长社:ML/DL/CV的成长圣地。<img src="http://tva1.sinaimg.cn/large/007X8olVly1g7m25vtimfj3076076mxm.jpg" width = "80" height = "80" />

上一篇 下一篇

猜你喜欢

热点阅读