搭建金融信贷风控中的机器学习模型-(1)数据分析
2019-08-26 本文已影响0人
GQRstar
随着大数据、人工智能算法和机器学习算法的兴起,越来越多的金融风控人员将量化模型引入到风控业务当中去。这意味着数据分析技术在金融风控工作中起到一个非常重要的作用。
1.数据分析
数据分析是一项从自然环境、社会环境、网络环境中提取数据,实斲分析,得出结论并验证的工作。
常规步骤:数据获取>数据清洗>统计分析>可视化>形成结论>验证结论 >应用结论
2.数据获取
渠道 | 优点 | 缺点 |
---|---|---|
公共数据库 | 免费 | 粒度粗、更新慢 |
私有数据库 | 粒度细,更新快 | 价格高,有访问权限 |
网络爬虫 | 免费 | 技术要求高,数据脏 |
问卷调查 | 有针对性、可靠性高 | 搜集量少,使用范围受限 |
设备采集 | 准确度高 | 成本高 |
3.数据清洗
清洗原因:脏数据不满足分析要求
原则 | 方法 |
---|---|
完整性 | 数据补全 |
唯一性 | 主键去重,同一主键数据合并 |
权威性 | 选择最权威渠道的数据 |
一致性 | 统一数据维度、单位 |
合法性 | 统一字段内容格式规则 |
4.数据可视化
数据可视化能够让使用者更加容易发掘数据的信息。比如春运人群流动规律。
通用工具:excel、python、R
5.数据分析模型
均值、方差/标准差、分位数、协方差、相关系数
分类:svm\、分类树、逻辑回归、knn、神经网络
回归:线性回归、神经网络
排序:pangrank
集成模型:随机森林、gbdt、xgboost、adaboost
损失函数:loss=error cost+complexity cost
(如有不同见解,望不吝赐教!!)