工作

搭建金融信贷风控中的机器学习模型-(1)数据分析

2019-08-26  本文已影响0人  GQRstar

        随着大数据、人工智能算法和机器学习算法的兴起,越来越多的金融风控人员将量化模型引入到风控业务当中去。这意味着数据分析技术在金融风控工作中起到一个非常重要的作用。

1.数据分析

        数据分析是一项从自然环境、社会环境、网络环境中提取数据,实斲分析,得出结论并验证的工作。
常规步骤:数据获取>数据清洗>统计分析>可视化>形成结论>验证结论 >应用结论

2.数据获取

渠道 优点 缺点
公共数据库 免费 粒度粗、更新慢
私有数据库 粒度细,更新快 价格高,有访问权限
网络爬虫 免费 技术要求高,数据脏
问卷调查 有针对性、可靠性高 搜集量少,使用范围受限
设备采集 准确度高 成本高

3.数据清洗

清洗原因:脏数据不满足分析要求

原则 方法
完整性 数据补全
唯一性 主键去重,同一主键数据合并
权威性 选择最权威渠道的数据
一致性 统一数据维度、单位
合法性 统一字段内容格式规则

4.数据可视化

        数据可视化能够让使用者更加容易发掘数据的信息。比如春运人群流动规律。
通用工具:excel、python、R

5.数据分析模型

均值、方差/标准差、分位数、协方差、相关系数
分类:svm\、分类树、逻辑回归、knn、神经网络
回归:线性回归、神经网络
排序:pangrank
集成模型:随机森林、gbdt、xgboost、adaboost
损失函数:loss=error cost+complexity cost

(如有不同见解,望不吝赐教!!)

上一篇 下一篇

猜你喜欢

热点阅读