怎样使用用户画像建设征信系统?
用户画像在征信中的应用
问题描述
传统金融机构的征信信息来源主要是央行征信,但央行征信系统中仅有3亿多人有信贷记录。这部分信贷记录又主要来源于商业银行和农村信用社等金融机构,其数据的时效性、全面性和层次性上存在明显短板,无法全面反映客户的真实信息。央行整体的征信系统收集了8.68亿个自然人的信息,还有将近6亿多人的信息没有被收集。此外,民间借贷的信息不会录入征信系统。可以说,目前央行征信数据缺失,情况不容乐观。
在央行征信数据缺失的前提下,我们该如何应用大数据方法,准确评估用户信用风险,建立征信系统呢?
当前存在的征信系统
芝麻信用是国内最大的个人信用评分系统。其数据来源于阿里巴巴生态系统内部的数据、政府公共部门数据和合作机构的数据等。芝麻信用通过网络数据的收集和评估,对不同的个体给出相应的评分。其主要考虑的是个人信用历史、行为偏好、履约能力、身份特征和人脉关系等。其评分模型以线性回归和逻辑回归为主。
国外的征信系统有FICO、ZestFinance等。
解决方案
用户画像构建的目的:
解决当前商业银行和部分p2p金融机构征信困难的问题,帮助互联网金融机构挖掘潜在用户。
用户画像构建的步骤:
(一)数据收集
对于一个用户,需要收集的信息有:
1、用户个人信息:如用户姓名、年龄、性别、职业、国籍、居住地址、联系方式等。
2、消费信息明细:消费物品、价格、线上消费还是线下消费、购买什么服务、发生消费时间等。
3、行为信息:在什么时间浏览了什么网站或页面、发生什么点击行为、发生什么停留行为、使用搜索引擎搜索了什么信息等。
4、地理位置信息:常用的登录IP,常用的收货地址,常去的地点等。
5、 产品明细:用户购买的产品信息,如价格、产地等。
6、 财务明细:用户每个月收支情况、使用哪种消费方式较多等。
7、 社交明细:用户经常与哪些人发生金钱交易等
其他还有用户的心理分析等。收集时尽量提高数据的真实性。
(二)数据整理归纳
在收集了海量的数据以后,需要进行数据的整理归纳,以从中获取有用的信息。互联网金融企业从企业的业务需求出发,可将用户的基础数据划分为人口属性、信用评级、消费倾向、投资倾向、社交属性、潜在价值等信息。
具体的步骤有:
1、 数据核对
唯一性核对:评估是否符合业务逻辑要求的唯一性,同一用户能否在不同的系统环境中唯一识别。
完整性核对:评估数据是否涵盖了建模所需的信息。
有效性核对:确保数据的有效性。所有数据都落在取值范围内。
关联性核对:识别有关联的属性,对关联性进行核对。
及时性检查:确保数据的时效性。
一致性核对:检查数据在传输过程中是否有缺漏。
2、 数据清洗
检查数据的有效性,对于有问题的数据,通过一定方法调整后使用。如果无法调整,则删除。
3、单变量分析
单变量分析的目的是确保变量符合实际业务的意义。
1、变量区分能力分析:使用多个统计指标进行计算,如AR等,通过计算结果对变量进行筛选。
2、经济学含义分析:分析筛选后各变量的经济学含义。变量应当反映业务需要,并具有明确的经济学含义。
3、变量转换:部分变量可能具有多种类型的数据,不同变量的取值范围也有可能不同。常用的转换方法是将不同类型的变量转换为概率值。
4、 多变量分析
目的是降低变量间的相关性。
1、 变量相关性分析。使用相关性矩阵、聚类分析等技术,进行变量的相关性分析。
2、 聚合。将相关性高的变量聚合,使用新的变量来替换这些变量。
5、 变量衍生
部分互联网数据业务相关性较低,在单变量分析中可能被淘汰。但是将这些变量通过相关性分析后,这些变量与业务解释性强的变量之间可能有强关联。这就需要变量衍生,将这些数据整合衍生为更加稠密、业务解释性更强的衍生变量。衍生变量主要侧重于商品的消费信息。
(三) 模型构建以及标签
可选用的技术有文本挖掘、自然语言处理、机器学习、各种分类算法。
传统的模型是从业务逻辑出发,通过人工调参的方式建立评估模型。而在这里,我们可以使用随机森林模型为基本架构搭建随机模型,随后使用线性回归技术进行分析,确定各种风险因子的权重。这样就克服了传统模型对于数据噪声相当敏感的缺陷,提高了系统的稳定性。
通过分析分析用户的人口属性、信用属性等,可以给用户贴上年龄、消费行为、理财理念、风险爱好、消费场景偏好等标签
(四) 用户画像
用上述提到的各种标签,可以对用户进行画像。
用户的各种行为会以数据形式被记录。分析这些行为数据,我们给用户贴上标签,最后得到一个用户画像。一个用户会不断地产生行为数据,我们在不断地获取这些数据的同时,用户画像也会越来越贴近用户的真实情况。
通过对不同的标签分配不同权值,我们可以评估一个用户的信用情况。在这基础之上,我们就能建立征信系统,使用大数据的方式来补足央行征信系统的不足,降低互联网金融企业的运营风险。
以支付宝为例,用户在使用支付宝的过程中,会产生如网购消费、线下消费、转账、理财等数据。支付宝会给用户贴上不同的标签如平衡型、小有资金等。支付宝通过建立用户画像,判断一个用户的信用状态,由此决定了对每个用户的花呗、借呗放款额度。
结语
当前的央行征信系统尚不完备,这方面的缺陷可以由各金融机构建立大数据征信系统来补足。
在互联网金融的发展过程中,大数据手段正不断被应用到实际业务中,其中用户画像就是一个强有力的工具。用户画像在互联网金融企业提供个性化服务、精准营销、风险控制等方面发挥着重要作用。
我们要发展互联网金融,就得用好用户画像这一工具。