风控预测-1 赛题理解梳理

2020-09-15 本文已影响0人徘徊于左右

训练集traindata：80000045(去除重复的n2列)，y_train:8000001，本地testA：20000*45 (去除重复的n2列) ，线上testB：200000

根据给出的训练集训练模型，来预测testA的isDefault的值，此问题是个常见的二分类问题，首先进行数据EDA，如大致分布，特征类型（连续型/离散型/类别型），缺失值数量和填补方式（中位数/均值/向后填充/向前填充/kNN填补/预测填补。。），离散数据处理编码（labelencoder/One-Hot编码。。）；结合业务理解，能否得出衍生指标。评估模型好坏：评价指标（TPR/FPR/F1-score，KS，AUC。。）。

常用二分类分类器模型，如logistic/SVM，树模型Dtree/rf/bagging/adaboost/GBDT/XGBoost等，

调参：交叉验证，如常用的多次5折/10折，网格搜索/随机搜索

模型融合：简单的融合就是对各种模型训练结果投票

风控预测-1 赛题理解梳理

猜你喜欢

热点阅读