互联网金融互联网科技互联网金融

怎样使用用户画像建设征信系统?

2019-01-22  本文已影响1人  TulanCN

用户画像在征信中的应用

问题描述

       传统金融机构的征信信息来源主要是央行征信,但央行征信系统中仅有3亿多人有信贷记录。这部分信贷记录又主要来源于商业银行和农村信用社等金融机构,其数据的时效性、全面性和层次性上存在明显短板,无法全面反映客户的真实信息。央行整体的征信系统收集了8.68亿个自然人的信息,还有将近6亿多人的信息没有被收集。此外,民间借贷的信息不会录入征信系统。可以说,目前央行征信数据缺失,情况不容乐观。

       在央行征信数据缺失的前提下,我们该如何应用大数据方法,准确评估用户信用风险,建立征信系统呢?

当前存在的征信系统

芝麻信用是国内最大的个人信用评分系统。其数据来源于阿里巴巴生态系统内部的数据、政府公共部门数据和合作机构的数据等。芝麻信用通过网络数据的收集和评估,对不同的个体给出相应的评分。其主要考虑的是个人信用历史、行为偏好、履约能力、身份特征和人脉关系等。其评分模型以线性回归和逻辑回归为主。

国外的征信系统有FICO、ZestFinance等。

解决方案

用户画像构建的目的:

       解决当前商业银行和部分p2p金融机构征信困难的问题,帮助互联网金融机构挖掘潜在用户。

用户画像构建的步骤:

(一)数据收集

对于一个用户,需要收集的信息有:

1、用户个人信息:如用户姓名、年龄、性别、职业、国籍、居住地址、联系方式等。

2、消费信息明细:消费物品、价格、线上消费还是线下消费、购买什么服务、发生消费时间等。

3、行为信息:在什么时间浏览了什么网站或页面、发生什么点击行为、发生什么停留行为、使用搜索引擎搜索了什么信息等。

4、地理位置信息:常用的登录IP,常用的收货地址,常去的地点等。

5、 产品明细:用户购买的产品信息,如价格、产地等。

6、 财务明细:用户每个月收支情况、使用哪种消费方式较多等。

7、 社交明细:用户经常与哪些人发生金钱交易等

其他还有用户的心理分析等。收集时尽量提高数据的真实性。

(二)数据整理归纳

在收集了海量的数据以后,需要进行数据的整理归纳,以从中获取有用的信息。互联网金融企业从企业的业务需求出发,可将用户的基础数据划分为人口属性、信用评级、消费倾向、投资倾向、社交属性、潜在价值等信息。

具体的步骤有:

1、 数据核对

唯一性核对:评估是否符合业务逻辑要求的唯一性,同一用户能否在不同的系统环境中唯一识别。

完整性核对:评估数据是否涵盖了建模所需的信息。

有效性核对:确保数据的有效性。所有数据都落在取值范围内。

关联性核对:识别有关联的属性,对关联性进行核对。

及时性检查:确保数据的时效性。

一致性核对:检查数据在传输过程中是否有缺漏。

2、 数据清洗

检查数据的有效性,对于有问题的数据,通过一定方法调整后使用。如果无法调整,则删除。

3、单变量分析

单变量分析的目的是确保变量符合实际业务的意义。

        1、变量区分能力分析:使用多个统计指标进行计算,如AR等,通过计算结果对变量进行筛选。

        2、经济学含义分析:分析筛选后各变量的经济学含义。变量应当反映业务需要,并具有明确的经济学含义。

        3、变量转换:部分变量可能具有多种类型的数据,不同变量的取值范围也有可能不同。常用的转换方法是将不同类型的变量转换为概率值。

4、 多变量分析

目的是降低变量间的相关性。

        1、 变量相关性分析。使用相关性矩阵、聚类分析等技术,进行变量的相关性分析。

        2、 聚合。将相关性高的变量聚合,使用新的变量来替换这些变量。

5、 变量衍生

部分互联网数据业务相关性较低,在单变量分析中可能被淘汰。但是将这些变量通过相关性分析后,这些变量与业务解释性强的变量之间可能有强关联。这就需要变量衍生,将这些数据整合衍生为更加稠密、业务解释性更强的衍生变量。衍生变量主要侧重于商品的消费信息。

(三)  模型构建以及标签

可选用的技术有文本挖掘、自然语言处理、机器学习、各种分类算法。

传统的模型是从业务逻辑出发,通过人工调参的方式建立评估模型。而在这里,我们可以使用随机森林模型为基本架构搭建随机模型,随后使用线性回归技术进行分析,确定各种风险因子的权重。这样就克服了传统模型对于数据噪声相当敏感的缺陷,提高了系统的稳定性。

通过分析分析用户的人口属性、信用属性等,可以给用户贴上年龄、消费行为、理财理念、风险爱好、消费场景偏好等标签

(四)  用户画像

用上述提到的各种标签,可以对用户进行画像。

用户的各种行为会以数据形式被记录。分析这些行为数据,我们给用户贴上标签,最后得到一个用户画像。一个用户会不断地产生行为数据,我们在不断地获取这些数据的同时,用户画像也会越来越贴近用户的真实情况。

通过对不同的标签分配不同权值,我们可以评估一个用户的信用情况。在这基础之上,我们就能建立征信系统,使用大数据的方式来补足央行征信系统的不足,降低互联网金融企业的运营风险。

以支付宝为例,用户在使用支付宝的过程中,会产生如网购消费、线下消费、转账、理财等数据。支付宝会给用户贴上不同的标签如平衡型、小有资金等。支付宝通过建立用户画像,判断一个用户的信用状态,由此决定了对每个用户的花呗、借呗放款额度。

结语

       当前的央行征信系统尚不完备,这方面的缺陷可以由各金融机构建立大数据征信系统来补足。

在互联网金融的发展过程中,大数据手段正不断被应用到实际业务中,其中用户画像就是一个强有力的工具。用户画像在互联网金融企业提供个性化服务、精准营销、风险控制等方面发挥着重要作用。

我们要发展互联网金融,就得用好用户画像这一工具。

上一篇 下一篇

猜你喜欢

热点阅读