数据分析思维学习笔记-3
2019-06-18 本文已影响2人
姽婳之语
互联金融行业toC授信模型
背景
互联网金融的本质是风控,目前金融行业都看重风控,主要基于央行的个人或企业征信报告。
行业岗位
- 风控分析师:除了一定的模型理解能力,需要大量行业和法律法规经验
- 数据建模师:要求对算法理解较深,相对行业经验要求不高
- 数据挖掘分析师:一般由数据建模师或产品经理兼职
行业产品对象
- toB:对公业务,由定量打分卡和定性行业经验决定
- toC:个人业务,由个人信用分决定,其个人信用分主要依赖于央行征信报告
数据建模师的主要工作
获取数据源,建立信用评分模型,模型上线后监控维护,以及其他数据挖掘工作
授信模型建立
授信模型结构
image.png- 身份特质:最重要的一般包括自身学历,工作单位,年薪等,可以一定程度代表着稳定性
- 履约能力:个人收入组成及具体收入金额,代表着兜底性
- 信用历史:即历史贷款还款记录,代表着历史性
- 人脉关系:稳定性验证与弱价值性
- 行为偏好:真正价值性
数据源
- 可以获取到的数据源成百上千,但并非数据源越多越好,变量越多导致计算量越大
- 原始变量:直接存在在数据源中的数据
- 衍生变量:通过原始变量及时得到的,一般分为时间维度衍生,函数衍生,比率衍生
- 基于RFM(最近、频次、钱)原则选择变量
数据处理
- 数据处理和数据建模并非一成不变的,而是慢慢迭代优化的
- 前期数据处理
- 数值型和字符型字段缺失性和合理性校验,剔除无效字段
- 数值型字段相关性验证
- 字符型字段离散化处理(数值化)
- 数据标注啊(对模型效果无明显影响)
数据建模
graph TD
A[综合芝麻分] --> B[综合概率/违约概率]
B --> C[五个模块违约概率加权平均]
C --> |权值Q1| D[模块1违约概率]
C --> |权值Q2| E[模块2违约概率]
C --> |权值Q3| F[模块3违约概率]
C --> |权值Q4| G[模块4违约概率]
C --> |权值Q5| H[模块5违约概率]
D --> |逻辑回归| I[模块1训练集和测试集]
F --> |逻辑回归| J[模块3训练集和测试集]
E --> |逻辑回归| K[模块2训练集和测试集]
G --> |逻辑回归| M[模块4训练集和测试集]
H --> |逻辑回归| N[模块5训练集和测试集]
模型离线效果指标
- 混淆矩阵:查准率和查全率
- ROC曲线:根据混淆矩阵做出的,区分模型是否较好把好坏样本分开的一个图,越大越好
- 坏账率:实际工作中的北极星指标
模型运行周期
模型迭代数据往往很快(一个月),需不断调整权值和系数,慢慢优化,优化效率就由坏账率衡量
模型落地
- 初期:
- 共享金融数据样本给芝麻信用,芝麻信用的数据建模师根据模型给出违约概率
- 根据违约概率,计算模型准确度
- 当模型准确度达到90%,开始合作(用户群体覆盖度和模型准确度有关)
- 中期:
- 芝麻分只是参考维度之一,一般根据央行征信报告评估值、芝麻分、信用评估分,计算可贷款额
- 后期:
- 每周对坏账情况,需要调参:
- 找出是某个模型出问题引起的还是所有模型引起的
- 如果子模型只要调整参数,反之,重新对数据建模(处理)