房屋信贷违约风险竞争(kaggle)系列1-数据源介绍
一. 数据获取
1.1 官网获取
https://www.kaggle.com/competitions/home-credit-default-risk/data
我想从官网下载,后面发现需要注册账号,而中国区的不让注册,所以没有下载到
image.png
1.2 网上搜索
网上搜索了一大堆,都没有发现。
好在功夫不负有心人,后面终于找到了 飞桨这个网址,无需注册即可下载。
https://aistudio.baidu.com/aistudio/datasetdetail/105246
1.3 百度网盘
为了方便后面获取到数据,我将第二步下载好的数据上传到了自己的百度云。
链接:https://pan.baidu.com/s/1VX4WknwLA4B1ZhRuo-sFng
提取码:omnb
二. 数据源介绍
Home Credit一共提供了7张表,一共218个字段,其中训练集样本约31万(逾期8%),测试集样本约5万。
2.1 ER图
image.png2.2 各个表的介绍
-
application_train/application_test
家庭信贷中关于每个贷款申请的主要训练和测试数据。每个贷款都有自己的行,由“SK_ID_CURR”特性标识。训练申请数据带有“目标”,表示0:贷款已偿还或1:贷款未偿还。
包含了:
1.1) 目标变量(客户是否违约-0/1变量)
1.2) 客户申请贷款信息(贷款类型, 贷款总额, 年金)
1.3) 客户基本信息(性别, 年龄, 家庭, 学历, 职业, 行业, 居住地情况)
1.4) 客户财务信息(年收入, 房/车情况)
1.5) 申请时提供的资料等. -
bureau
客户在征信中心的数据。
包含了:
2.1) 信用记录,
2.2) 违约金额,
2.3) 违约时间等. -
bureau_balance
客户在征信中心的数据,bureau数据的月快照数据。
包含了:
3.1) 信用记录,
3.2) 违约金额,
3.3) 违约时间等. -
previous_application
在申请数据中有贷款的客户之前的家庭信贷贷款申请。应用程序数据中的每个当前贷款都可以有多个以前的贷款。以前的每个应用程序都有一行,由“SK_ID_PREV”特性标识。 -
POS_CASH_BALANCE
每月的数据,关于以前的销售点或现金贷款客户有住房信贷。每行是前一个销售点或现金贷款的一个月,而前一个贷款可以有许多行。 -
credit_card_balance
每月关于以前信用卡客户使用家庭信用的数据。每行是信用卡余额的一个月,而一张信用卡可以有很多行。 -
installments_payment
先前在Home Credit的贷款付款历史。每一笔已付款都有一行,每一笔未付款都有一行。
2.3 各个表的列的介绍
2.3.1 application_train.csv:
每一行表示一次贷款申请记录
SK_ID_CURR, 每个样本的ID
TARGET, 1:还款有困难,在Y个分期还款中,至少有一期会逾期X天
0:除了1以外的其他情况
NAME_CONTRACT_TYPE, 贷款类型现金or?
CODE_GENDER, 客户性别
FLAG_OWN_CAR, 客户是否有车
FLAG_OWN_REALTY, 客户是否有不动产
CNT_CHILDREN, 客户有几个孩子
AMT_INCOME_TOTAL, 客户收入
AMT_CREDIT, 贷款金额
AMT_ANNUITY, 贷款年金
AMT_GOODS_PRICE, 消费贷款金额=消费金额
NAME_TYPE_SUITE, 客户在申请贷款是陪同人员情况
NAME_INCOME_TYPE, 客户收入类型
NAME_EDUCATION_TYPE, 客户受教育的程度
NAME_FAMILY_STATUS, 客户的家庭状况
NAME_HOUSING_TYPE, 客户的住房情况(租房or与父母同住)
REGION_POPULATION_RELATIVE, 客户居住区域人口情况(数字越大代表人口越多)
DAYS_BIRTH, 客户申请时年龄(天数)
DAYS_EMPLOYED, 申请人就业的天数
DAYS_REGISTRATION, 客户在申请前多少天更改了注册时间,仅相对于申请时间
DAYS_ID_PUBLISH, 客户在申请前多少天更改了申请贷款的身份证明文件,相对于限申请时间
OWN_CAR_AGE, 客户车的年龄
FLAG_MOBIL, 客户是否提供移动电话,1:有,0:没有
FLAG_EMP_PHONE, 客户是否提供工作电话,1/0
FLAG_WORK_PHONE, 客户是否提供家庭电话,1/0
FLAG_CONT_MOBILE, 移动电话是否管用,1/0
FLAG_PHONE, 1/0
FLAG_EMAIL, 1/0
OCCUPATION_TYPE, 职业类型
CNT_FAM_MEMBERS, 客户家庭成员数量
REGION_RATING_CLIENT, 对客户所在地区评级(1,2,3)
REGION_RATING_CLIENT_W_CITY, 对客户居住地区所在的城市评级(1,2,3)
WEEKDAY_APPR_PROCESS_START, 客户在周几申请的贷款
HOUR_APPR_PROCESS_START, 客户申请贷款的大概时间(小时,四舍五入)
REG_REGION_NOT_LIVE_REGION, 客户的常驻地址和联系地址,1:不匹配,0:匹配(地区相同)
REG_REGION_NOT_WORK_REGION, 客户的常驻地址和工作地址,1/0
LIVE_REGION_NOT_WORK_REGION, 客户的联系地址和工作地址,1/0
REG_CITY_NOT_LIVE_CITY, 客户的常驻地址和联系地址,1/0(城市级别)
REG_CITY_NOT_WORK_CITY, 客户的常驻地址和工作地址,1/0(城市级别匹配)
LIVE_CITY_NOT_WORK_CITY, 客户的联系地址和工作地址,1/0(城市级别匹配)
ORGANIZATION_TYPE, 客户工作的组织类型
EXT_SOURCE_1, 外部数据源标准化分数
EXT_SOURCE_2, 同上
EXT_SOURCE_3, 同上
APARTMENTS_AVG, 客户居住建筑物的标准化信息,AVG后缀:平均值
BASEMENTAREA_AVG, 居住公寓的面积
YEARS_BEGINEXPLUATATION_AVG,
YEARS_BUILD_AVG, 建筑物年龄
COMMONAREA_AVG, 公共区域
ELEVATORS_AVG, 电梯数量
ENTRANCES_AVG, 入口数量
FLOORSMAX_AVG, 楼层最高
FLOORSMIN_AVG, 楼层最低
LANDAREA_AVG, 土地面积
LIVINGAPARTMENTS_AVG, 有人居住公寓数量
LIVINGAREA_AVG, 居住面积
NONLIVINGAPARTMENTS_AVG, 无人居住公寓数量
NONLIVINGAREA_AVG, 非居住面积
APARTMENTS_MODE, 同上客户居住建筑的标准化信息,后缀MODE,模式
BASEMENTAREA_MODE,
YEARS_BEGINEXPLUATATION_MODE,
YEARS_BUILD_MODE,
COMMONAREA_MODE,
ELEVATORS_MODE,
ENTRANCES_MODE,
FLOORSMAX_MODE,
FLOORSMIN_MODE,
LANDAREA_MODE,
LIVINGAPARTMENTS_MODE,
LIVINGAREA_MODE,
NONLIVINGAPARTMENTS_MODE,
NONLIVINGAREA_MODE,
APARTMENTS_MEDI, 同上,客户居住建筑物的标准化信息,后缀MEDI,中位数
BASEMENTAREA_MEDI,
YEARS_BEGINEXPLUATATION_MEDI,
YEARS_BUILD_MEDI,
COMMONAREA_MEDI,
ELEVATORS_MEDI,
ENTRANCES_MEDI,
FLOORSMAX_MEDI,
FLOORSMIN_MEDI,
LANDAREA_MEDI,
LIVINGAPARTMENTS_MEDI,
LIVINGAREA_MEDI,
NONLIVINGAPARTMENTS_MEDI,
NONLIVINGAREA_MEDI,
FONDKAPREMONT_MODE,
HOUSETYPE_MODE,
TOTALAREA_MODE,
WALLSMATERIAL_MODE,
EMERGENCYSTATE_MODE,
OBS_30_CNT_SOCIAL_CIRCLE, 客户逾期30天的次数
DEF_30_CNT_SOCIAL_CIRCLE, 客户违约30天的次数
OBS_60_CNT_SOCIAL_CIRCLE, 客户逾期60天的次数
DEF_60_CNT_SOCIAL_CIRCLE, 客户违约60天的次数
DAYS_LAST_PHONE_CHANGE, 客户申请贷款前多少天变更电话
FLAG_DOCUMENT_2, 客户是否提供DOC_2, 1:yes, 0:no
FLAG_DOCUMENT_3, 同上
FLAG_DOCUMENT_4, 同上
FLAG_DOCUMENT_5, 同上
FLAG_DOCUMENT_6,
FLAG_DOCUMENT_7,
FLAG_DOCUMENT_8,
FLAG_DOCUMENT_9,
FLAG_DOCUMENT_10,
FLAG_DOCUMENT_11,
FLAG_DOCUMENT_12,
FLAG_DOCUMENT_13,
FLAG_DOCUMENT_14,
FLAG_DOCUMENT_15,
FLAG_DOCUMENT_16,
FLAG_DOCUMENT_17,
FLAG_DOCUMENT_18,
FLAG_DOCUMENT_19,
FLAG_DOCUMENT_20,
FLAG_DOCUMENT_21,
AMT_REQ_CREDIT_BUREAU_HOUR, 客户申请前一个小时向信用机构查询客户信息次数
AMT_REQ_CREDIT_BUREAU_DAY, 客户申请前一天(不含申请前的一天)
AMT_REQ_CREDIT_BUREAU_WEEK, 客户申请前一周(不含申请前的一周)
AMT_REQ_CREDIT_BUREAU_MON, 客户申请前一月(不含申请前的一月)
AMT_REQ_CREDIT_BUREAU_QRT, 客户申请前3个月(不含申请前的1个月)
AMT_REQ_CREDIT_BUREAU_YEAR, 客户申请前一年(不含申请前的至少3个月)
2.3.2 application_test.csv
和上边的application_train.csv,类似,没有TATGET列.
2.3.3 bureau.csv
application_{train/test}.csv中获得贷款客户在其他信贷机构的信用报告.
bureau.csv中每个客户的信用历史数据,与application_{train/test}.csv中客户信用记录数据是一致的.
特征列名
SK_ID_CURR, 样本ID(客户ID),每个ID可能会有多条之前的信贷记录
SK_ID_BUREAU, 信贷机构的记录ID,
CREDIT_ACTIVE, 信用机构(局)信用报告的情况
CREDIT_CURRENCY, 信用记录
DAYS_CREDIT, 在当前申请前多少天客户申请过信贷
CREDIT_DAY_OVERDUE, 样本中的客户在申请贷款时,之前申请的贷款还有多少天到期
DAYS_CREDIT_ENDDATE, Remaining duration of CB credit (in days) at the time of application in Home Credit,time only relative to the application
DAYS_ENDDATE_FACT, 客户之前贷款还款最后期限距离当前申请的间隔天数
AMT_CREDIT_MAX_OVERDUE, 目前为止客户贷款的最高金额
CNT_CREDIT_PROLONG, 客户之前贷款中延期还款的次数
AMT_CREDIT_SUM, 信贷机构的贷款额度
AMT_CREDIT_SUM_DEBT, 信贷机构当前的债务
AMT_CREDIT_SUM_LIMIT, 当前的信用卡额度
AMT_CREDIT_SUM_OVERDUE, 信贷机构贷款逾期的金额
CREDIT_TYPE, 贷款类型
DAYS_CREDIT_UPDATE, 距离但前申请贷款前多少天客户之前贷款信息更新
AMT_ANNUITY 信贷机构的年度贷款额度
2.3.4 bureau_balance.csv
信贷机构每个月的历史记录
数据中的每行为其他信贷机构之前上个表中信用报告的每个月的数据
三个特征
SK_ID_BUREAU, 信用贷款机构的记录ID
MONTHS_BALANCE, 相对于但前的申请剩余月份
STATUS 信贷机构的月贷款状况(C:关闭,X:未知,0:没有逾期,
1:1 means maximal did during month between 1-30,
2:逾期31-60天,5:逾期超过120+
2.3.4 POS_CASH_balance.csv
贷款申请人以前POS和现金贷款的月度余额快照。
每行为客户以前每个月的现金贷款记录
特征列
SK_ID_PREV, 在Home Credit的样本数据中,之前在其他机构贷款的ID
SK_ID_CURR, 样本中贷款ID
MONTHS_BALANCE, 相对于申请日期的月份余额(-1表示最新月度快照的信息,
0表示申请时的信息 - 通常与-1相同
CNT_INSTALMENT, 之前的贷款期限
CNT_INSTALMENT_FUTURE, 分期偿还之前的贷款
NAME_CONTRACT_STATUS, 当月的合同状态
SK_DPD, 之前贷款逾期的天数
SK_DPD_DEF 逾期不超过一个月
2.3.5 credit_card_balance.csv
之前申请的信用卡每月额度快照.
每行为客户每个月的信用卡消费记录
特征列
SK_ID_PREV, Home Credit样本中客户以前的贷款ID
SK_ID_CURR, 样本中贷款ID
MONTHS_BALANCE, 相对于申请日期,结余的月份,-1:最新的月份
AMT_BALANCE, 上个月信用卡余额
AMT_CREDIT_LIMIT_ACTUAL, 上个月信用卡的限额
AMT_DRAWINGS_ATM_CURRENT, 上个月在ATM上取款金额
AMT_DRAWINGS_CURRENT, 上个月提取金额
AMT_DRAWINGS_OTHER_CURRENT, 上个月买东西金额
AMT_DRAWINGS_POS_CURRENT, 之前分期还款最小金额
AMT_INST_MIN_REGULARITY, 上个月客户支付金额
AMT_PAYMENT_CURRENT, 客户贷款金额
AMT_PAYMENT_TOTAL_CURRENT,
AMT_RECEIVABLE_PRINCIPAL,
AMT_RECIVABLE,
AMT_TOTAL_RECEIVABLE,
CNT_DRAWINGS_ATM_CURRENT,
CNT_DRAWINGS_CURRENT,
CNT_DRAWINGS_OTHER_CURRENT,
CNT_DRAWINGS_POS_CURRENT,
CNT_INSTALMENT_MATURE_CUM,
NAME_CONTRACT_STATUS,
SK_DPD,SK_DPD_DEF
2.3.6 previous_application.csv
在application数据中,之前申请过Home Credit贷款的客户信息.
每一行为客户贷款记录
SK_ID_PREV,
SK_ID_CURR,
NAME_CONTRACT_TYPE,
AMT_ANNUITY,
AMT_APPLICATION,
AMT_CREDIT,
AMT_DOWN_PAYMENT,
AMT_GOODS_PRICE,
WEEKDAY_APPR_PROCESS_START,
HOUR_APPR_PROCESS_START,
FLAG_LAST_APPL_PER_CONTRACT,
NFLAG_LAST_APPL_IN_DAY,
RATE_DOWN_PAYMENT,
RATE_INTEREST_PRIMARY,
RATE_INTEREST_PRIVILEGED,
NAME_CASH_LOAN_PURPOSE,
NAME_CONTRACT_STATUS,
DAYS_DECISION,
NAME_PAYMENT_TYPE,
CODE_REJECT_REASON,
NAME_TYPE_SUITE,
NAME_CLIENT_TYPE,
NAME_GOODS_CATEGORY,
NAME_PORTFOLIO,
NAME_PRODUCT_TYPE,
CHANNEL_TYPE,
SELLERPLACE_AREA,
NAME_SELLER_INDUSTRY,
CNT_PAYMENT,
NAME_YIELD_GROUP,
PRODUCT_COMBINATION,
DAYS_FIRST_DRAWING,
DAYS_FIRST_DUE,
DAYS_LAST_DUE_1ST_VERSION,
DAYS_LAST_DUE,
DAYS_TERMINATION,
NFLAG_INSURED_ON_APPROVAL
2.3.7 installments_payments.csv
获得Home Credit贷款客户的还款记录
SK_ID_PREV,
SK_ID_CURR,
NUM_INSTALMENT_VERSION, 分期方式,0信用卡
NUM_INSTALMENT_NUMBER, 分期数
DAYS_INSTALMENT, 上次分期应还款日期距离当前申请的时间
DAYS_ENTRY_PAYMENT, 上次分期实际还款日距离当前申请的时间
AMT_INSTALMENT, 之前的信用额度
AMT_PAYMENT 之前分期付款中实际支付金额