怎样使用用户画像建设征信系统？

2019-01-22 本文已影响1人 TulanCN

用户画像在征信中的应用

问题描述

传统金融机构的征信信息来源主要是央行征信，但央行征信系统中仅有3亿多人有信贷记录。这部分信贷记录又主要来源于商业银行和农村信用社等金融机构，其数据的时效性、全面性和层次性上存在明显短板，无法全面反映客户的真实信息。央行整体的征信系统收集了8.68亿个自然人的信息，还有将近6亿多人的信息没有被收集。此外，民间借贷的信息不会录入征信系统。可以说，目前央行征信数据缺失，情况不容乐观。

在央行征信数据缺失的前提下，我们该如何应用大数据方法，准确评估用户信用风险，建立征信系统呢？

当前存在的征信系统

芝麻信用是国内最大的个人信用评分系统。其数据来源于阿里巴巴生态系统内部的数据、政府公共部门数据和合作机构的数据等。芝麻信用通过网络数据的收集和评估，对不同的个体给出相应的评分。其主要考虑的是个人信用历史、行为偏好、履约能力、身份特征和人脉关系等。其评分模型以线性回归和逻辑回归为主。

国外的征信系统有FICO、ZestFinance等。

解决方案

用户画像构建的目的：

解决当前商业银行和部分p2p金融机构征信困难的问题，帮助互联网金融机构挖掘潜在用户。

用户画像构建的步骤：

（一）数据收集

对于一个用户，需要收集的信息有：

1、用户个人信息：如用户姓名、年龄、性别、职业、国籍、居住地址、联系方式等。

2、消费信息明细：消费物品、价格、线上消费还是线下消费、购买什么服务、发生消费时间等。

3、行为信息：在什么时间浏览了什么网站或页面、发生什么点击行为、发生什么停留行为、使用搜索引擎搜索了什么信息等。

4、地理位置信息：常用的登录IP，常用的收货地址，常去的地点等。

5、产品明细：用户购买的产品信息，如价格、产地等。

6、财务明细：用户每个月收支情况、使用哪种消费方式较多等。

7、社交明细：用户经常与哪些人发生金钱交易等

其他还有用户的心理分析等。收集时尽量提高数据的真实性。

（二）数据整理归纳

在收集了海量的数据以后，需要进行数据的整理归纳，以从中获取有用的信息。互联网金融企业从企业的业务需求出发，可将用户的基础数据划分为人口属性、信用评级、消费倾向、投资倾向、社交属性、潜在价值等信息。

具体的步骤有：

1、数据核对

唯一性核对：评估是否符合业务逻辑要求的唯一性，同一用户能否在不同的系统环境中唯一识别。

完整性核对：评估数据是否涵盖了建模所需的信息。

有效性核对：确保数据的有效性。所有数据都落在取值范围内。

关联性核对：识别有关联的属性，对关联性进行核对。

及时性检查：确保数据的时效性。

一致性核对：检查数据在传输过程中是否有缺漏。

2、数据清洗

检查数据的有效性，对于有问题的数据，通过一定方法调整后使用。如果无法调整，则删除。

3、单变量分析

单变量分析的目的是确保变量符合实际业务的意义。

1、变量区分能力分析：使用多个统计指标进行计算，如AR等，通过计算结果对变量进行筛选。

2、经济学含义分析：分析筛选后各变量的经济学含义。变量应当反映业务需要，并具有明确的经济学含义。

3、变量转换：部分变量可能具有多种类型的数据，不同变量的取值范围也有可能不同。常用的转换方法是将不同类型的变量转换为概率值。

4、多变量分析

目的是降低变量间的相关性。

1、变量相关性分析。使用相关性矩阵、聚类分析等技术，进行变量的相关性分析。

2、聚合。将相关性高的变量聚合，使用新的变量来替换这些变量。

5、变量衍生

部分互联网数据业务相关性较低，在单变量分析中可能被淘汰。但是将这些变量通过相关性分析后，这些变量与业务解释性强的变量之间可能有强关联。这就需要变量衍生，将这些数据整合衍生为更加稠密、业务解释性更强的衍生变量。衍生变量主要侧重于商品的消费信息。

（三）模型构建以及标签

可选用的技术有文本挖掘、自然语言处理、机器学习、各种分类算法。

传统的模型是从业务逻辑出发，通过人工调参的方式建立评估模型。而在这里，我们可以使用随机森林模型为基本架构搭建随机模型，随后使用线性回归技术进行分析，确定各种风险因子的权重。这样就克服了传统模型对于数据噪声相当敏感的缺陷，提高了系统的稳定性。

通过分析分析用户的人口属性、信用属性等，可以给用户贴上年龄、消费行为、理财理念、风险爱好、消费场景偏好等标签

（四）用户画像

用上述提到的各种标签，可以对用户进行画像。

用户的各种行为会以数据形式被记录。分析这些行为数据，我们给用户贴上标签，最后得到一个用户画像。一个用户会不断地产生行为数据，我们在不断地获取这些数据的同时，用户画像也会越来越贴近用户的真实情况。

通过对不同的标签分配不同权值，我们可以评估一个用户的信用情况。在这基础之上，我们就能建立征信系统，使用大数据的方式来补足央行征信系统的不足，降低互联网金融企业的运营风险。

以支付宝为例，用户在使用支付宝的过程中，会产生如网购消费、线下消费、转账、理财等数据。支付宝会给用户贴上不同的标签如平衡型、小有资金等。支付宝通过建立用户画像，判断一个用户的信用状态，由此决定了对每个用户的花呗、借呗放款额度。

结语

当前的央行征信系统尚不完备，这方面的缺陷可以由各金融机构建立大数据征信系统来补足。

在互联网金融的发展过程中，大数据手段正不断被应用到实际业务中，其中用户画像就是一个强有力的工具。用户画像在互联网金融企业提供个性化服务、精准营销、风险控制等方面发挥着重要作用。

我们要发展互联网金融，就得用好用户画像这一工具。

怎样使用用户画像建设征信系统？

用户画像在征信中的应用

问题描述

当前存在的征信系统

解决方案

结语

猜你喜欢

热点阅读