Task2-数据分析

2020-09-18  本文已影响0人  buaa徐侃

了解数据,为后续特征工程做准备。
目的:

通过简单分析,有以下结论:

1、变量缺失度和饱和度

变量相对饱满,缺失度不高(比赛数据应该都比较不错吧),policyCode这一列是只有1个值,后续也可以直接剔除。
train和test上变量的缺失情况一致。且从后续变量分布来看,train和test分布几乎没有差异(上面是train,下面是test)。


image.png
image.png
有一个地方有点不理解,test多了两列数据n2.2,n2.3,好像和n2.1数值是一样的,之后可以详细看下。

2、变量类型

1、数值型变量

2、非数值型变量

按照是否违约看特征分布

如果把未违约人群和违约人群分开来看,grade的分布有差异,但是employmentLength就几乎没差异


image.png

从每个等级的违约率也可以看出来,不同工作年限之间的违约率差距并不是很明显,也没有明显的单调关系。

image.png
上一篇下一篇

猜你喜欢

热点阅读