Task1-赛题理解

2020-09-14  本文已影响0人  buaa徐侃

参加datawhale 的活动,算是一种督促,也欢迎大家一起加入进行学习。
比赛链接如下[https://tianchi.aliyun.com/competition/entrance/531830/introduction]

赛题的整体目标是基于提供的数据,做一个二分类模型,用于预测用户的违约概率,评价指标是AUC。同时原比赛划分了A、B榜,两者差异不可知。

银行业中传统方式都是使用评分卡来评价用户的好坏,评分卡基于逻辑回归算法,同时对入模变量的区分度要求较高(单变量区分度不好,最终评分卡模型的区分度也可能较差)。同时xgb在机器学习算法中得到越来越多的应用(被称为大杀器),但是相对评分卡模型,xgb作为一种集成树模型的可解释性相对较差,无法直观的反映出变量和最终预测结果的逻辑关系,因此在金融领域也相对应用较少。不可否认的是,xgb模型的区分能力,大概率是优于评分卡模型的,因而也有越来越多的金融机构愿意尝试xgb、lgb等集成树模型。

本次比赛,会尝试评分卡模型和xgb、lgb算法,并进行对比。

数据挖掘比赛中,特征工程很重要,同时金融领域需要结合实际业务背景来进行变量衍生,保证变量的可解释性。赛题提供了47列变量信息,其中15列为匿名变量,其中变量解释如下:

由于目前还没实际接触数据,先简单分析一下所提供的变量。

上一篇下一篇

猜你喜欢

热点阅读