风控预测-1 赛题理解梳理
2020-09-15 本文已影响0人
徘徊于左右
训练集traindata:80000045(去除重复的n2列),y_train:8000001,本地testA:20000*45 (去除重复的n2列) ,线上testB:200000
根据给出的训练集训练模型,来预测testA的isDefault的值,此问题是个常见的二分类问题,首先进行数据EDA,如大致分布,特征类型(连续型/离散型/类别型),缺失值数量和填补方式(中位数/均值/向后填充/向前填充/kNN填补/预测填补。。),离散数据处理编码(labelencoder/One-Hot编码。。);结合业务理解,能否得出衍生指标。评估模型好坏:评价指标(TPR/FPR/F1-score,KS,AUC。。)。
常用二分类分类器模型,如logistic/SVM,树模型Dtree/rf/bagging/adaboost/GBDT/XGBoost等,
调参:交叉验证,如常用的多次5折/10折,网格搜索/随机搜索
模型融合:简单的融合就是对各种模型训练结果投票