金融业信贷风控算法1-初等概率论
一. 前言
1.1 一个小故事
盛夏的傍晚,凉风习习。明朗的月色之下,小明一边吃着西瓜一边在手机上看着《初等概率论》的教学视频。听到晓风老师慷慨激昂的声音,小明不禁露出自信的微笑,心里想着:晓风老师讲地这么好,这次我一定能把《从零入门金融业信贷风控算法》的知识学地很牢靠!未来几天天气应该不错,白天努力工作,晚上认真上课,生活真的很美好,哈哈哈!
从上述这段话里,我们得到两类不同的信息:
- 当晚天气不错,有凉风、有月色。这是既成的事实
- 晓风老师讲课很好,这也是既成的事实
- 未来几天天气应该不错,这是推测,有较大的可能性会发生,但是不一定会发生。
- 小明能把这次的课程学好,这也是推测
1.2 为什么要学习概率论
我们身处的世界里,非确定事件是无处不在的。这里的“非确定”由两种不同的因素造成:
- “真随机”事件,例如量子力学中的不确定性原理。这样的“非确定”是本质的、无法改变的。“真随机”不随着人类发现自然、改造自然的能力的提升而能消除。
- “伪随机”事件,即事件的发生与否是能够通过物理定律推断出来的,但是推断过程极其复杂,超过了人类现有的计算能力。最典型的例子是天气预报。如果能够知道所有对天气影响的因素(如湿度、温度、风速、经度、纬度、海拔等上万个因素)那么从流体力学、热传导方程等模型中,是能够精确推测未来的天气状况的。
现实生活中遇到的随机事件更多的是由后一种情况造成的。但是并不会因为人类无法精准推算事件发生与否而放弃推算,相反,有了概率论这一利器,我们依然能够掌握充足的规律来推算事件的发展。
二. 初等概率论
我们先定义某一个事件A所处的样本空间Ω, Ω上事件A发生的概率P要满足以下要求
- 非负性:𝑃(𝐴)≥0
- 规范性:𝑃(Ω)=1
- 可见性:如果Ω上两个事件是互斥的,那么二者任意发生一个的概率
不严格的情况下,我们用“随机变量”定义某事件发生的结果
2.1 离散随机变量
如果某随机变量的取值个数是有限的(例如掷骰子的结果)或者至多可数的(例如一小时内到达某窗口排队的人群),那么我们称之为离散型随机变量,其取值结果的概率称之为概率密度函数。
几种常见的离散型随机变量:
2.1.1 伯努利分布
单次事件A发生的概率为P(A)=𝑝,则不发生的概率为P(~A)=1−𝑝
2.1.2 二项分布
事件A发生的概率为p,不发生的概率为1-p。则试验N次的结果中,事件A发生n次的概率为:
image.png
其中Y表示A发生的次数
参数含义:
P : 事件发生的概率
Y: 事件A发生的次数
2.1.3 泊松分布
单位时间内平均发生违约的人为𝜆, 则观察到有n个人发生违约的概率为:
image.png
参数含义:
𝜆 单位时间内平均发生违约的人
P 概率
k 发生违约人为k
k! k的阶乘
e 自然常数,大约为2.71828……,就是对数函数lnx的底
特别地,t时间内发生违约的人数为:
image.png
泊松分布是二项分布n很大,p很小的极限形式,也就是说泊松分布可以由二项分布推倒出来
在二项分布Binomial(N,p)中,当N很大、p很小时:
image.png
泊松分布更通俗的理解:
知乎上大佬 泊松分布公式:
最小二乘法:
https://www.zhihu.com/question/37031188
泊松分布通俗的解释:
https://blog.csdn.net/ccnt_2012/article/details/81114920
2.1.4 几何分布
在循环授信产品(如信用卡)中,假设每一期发生违约的概率为p,则第一次违约发生在第k期的事件服从集合分布,概率密度函数为:
image.png2.2 期望和方差
2.2.1 期望和方差概述
假设信贷人群的规模为100人,每人在未来一个月内发生违约的概率是0.05。二项分布告诉我们,违约人数为n的概率为:
image.png image.png
当违约人数很多时,这一概率很小;反之,当违约人数比较小时,这一概率较大。我们用“期望值”来描述人数可能的规模:
image.png
尽管我们可以用期望值来刻画违约人群可能的规模,但是由于有随机性的存在,真实情况下观察到的违约人群不一定会精准地等于期望值。例如,实际观察到的违约人群可能是4,也可能是6或者7。因此,我们还需要用另一个量来刻画实际观察到的人数与期望值的差:𝑥−𝐸(𝑥)。注意到,同样也由于随机性的存在, 𝑥−𝐸(𝑥)依然是随机变量。我们用这个随机变量的平方的期望来进行刻画,称之为方差:
image.png
注意到,E(x)并不是随机变量。展开上式,有
image.png
2.2.2 期望与方差的性质
期望的性质:
期望不是随机变量
可加性:𝐸(𝑋+𝑌)=𝐸(𝑋)+𝐸(𝑌)
倍数性:𝐸(𝑘𝑋)=𝑘𝐸(𝑋), k为常数
方差的性质:
方差不是随机变量
非负性:𝑣𝑎𝑟(𝑋)≥0
倍数性:𝑣𝑎𝑟(𝑘𝑋)=𝑘^2 𝑣𝑎𝑟(𝑋), k为常数
2.2.3 几种常见的离散型随机变量的期望和方差
image.png三. 连续型随机变量与分布函数
3.1 连续型随机变量
与离散型随机变量相对应的是,取值为连续数值的连续型随机变量,例如违约人群的欠款金额。对于连续型随机变量,概率𝑃(𝑋=𝑥)是没有意义的(永远为0),我们需要考察区间化的概率𝑃(𝑋<𝑥).此时𝑃(𝑋<𝑥)是一个与x相关的函数。例如,在数轴上的有限区间[0,1]中随机选取一点X,X小于0.5的概率必然大于X小于0.1的概率。我们用累计分布函数F(x)来刻画𝑃(𝑋<𝑥)。特别地,如果F(x)可导,其导函数𝑓(𝑥)=(𝑑𝐹(𝑥))/𝑑𝑥称为连续型随机变量的概率密度函数。
𝐹(𝑥)的性质:
𝐹(𝑥)关于x单调上升(同时也使得𝑓(𝑥)大于0)
image.png
连续型随机变量的期望与方差
我们依然可以用期望与方差来刻画大样本下连续型随机变量可能的取值大小以及波动
image.png
3.2 分布函数
3.2.1 均匀分布
𝒙~𝑼𝒏𝒊𝒇𝒐𝒓𝒎(𝒂,𝒃)
image.png
X落在区间[a,b]的任何地方的概率都是一样的。
image.png
3.2.2 正态分布
最常见的随机变量,分布函数也成为高斯分布
特别地,当时,称之为标准正态分布
由于大数定律和中心极限定理,正态分布是很多分布的极限分布。同时,如果一个量受到很多独立的随机因素的影响,最终这个量也会渐进服从正态分布。
与正态分布相关的还有卡方分布、t-分布和F-分布。
3.2.3 指数分布
image.png指数分布详解:
https://blog.csdn.net/ccnt_2012/article/details/89875865
四. 独立变量,条件概率与贝叶斯公式
4.1 联合分布
除了单个随机变量可以有分布函数外,可以有2个或者多个随机变量拥有联合分布函数。例如,我们关心信贷违约人群的年龄分布和收入的分布,即𝑃(𝑎𝑔𝑒<𝑎,𝑖𝑛𝑐𝑜𝑚𝑒<𝑏)。联合分布函数用F(X,Y)表示
非负性:0≤𝐹(𝑋,𝑌)≤1
单调性: 𝐹(𝑋,𝑌)关于X和Y单调上升
收敛性:
image.png
4.2 边缘分布
在随机变量的联合分布𝑃(𝑋,𝑌)里,如果我们只关心其中一个变量X的分布,就得到X的边缘分布:
image.png
4.3 独立变量
如果X和Y的联合分布等于二者的边缘分布的乘积,则称X和Y是独立的:
𝑓(𝑋,𝑌)=𝑓(𝑋)𝑓(𝑌)
此时,X的变化不会引起Y的变化,反之亦然。
案例:
下图是X和Y的联合分布,例如 P(X=x1,Y=y1)=0.1
从X的边缘分布P(X)=∑𝑃(𝑋,𝑌) 可得P(X=x1)=0.1+0.2+0.3=0.6
同理可得,P(Y=y1)=0.1+0.1=0.2
由于并不是所有的P(X,Y)=P(X)*P(Y),因此X和Y不独立
image.png
4.4 全概率公式
假设如下一个场景:考虑校园贷中的违约事件与授信人的学历的关系。全部样本的学历为{本科,硕士,博士}。用Y=1表示违约,Y=0表示非违约;用X=1,2,3分别表示学历为本科,硕士和博士。由于数据的搜集是按照学历进行整理的,因此看不到全部人群的违约状态。但是每个学历都能看到具体的违约状态,即P(Y|X)是已知的;学历的分布也是已知,即P(X)也是已知的,如何求出全部人群的违约概率P(Y)?
假设有N个样本,因此本科,硕士,博士的人群的期望为N*P(X=1), N*P(X=2), N*P(X=3). 各自对应的违约人群的期望为N*P(X=1)*P(Y|X=1), N*P(X=2) *P(Y|X=2), N*P(X=3)*P(Y|X=3). 所以总的违约人群的期望为D=N*P(X=1)*P(Y|X=1)+N*P(X=2) *P(Y|X=2)+N*P(X=3)*P(Y|X=3). 则违约概率等于P(Y)=D/N=P(X=1)*P(Y|X=1)+P(X=2) *P(Y|X=2)+P(X=3)*P(Y|X=3). 这就是全概率公式:
image.png
4.5 贝叶斯公式
在上述的案例里,当我们得知学历的分布以及每个学历对应的违约概率后,就能得到某个样本属于违约的概率。但是对于逆问题,即得知某样本属于违约的时候,他的学历最有可能的是?解决这个问题,就要引入贝叶斯公式:
image.png
贝叶斯公式的思想在概率统计模型、机器学习模型的很多领域都有应用。
贝叶斯公式的详细解释:
https://matongxue.blog.csdn.net/article/details/81113923
https://zhuanlan.zhihu.com/p/78297343
4.6 马尔科夫矩阵
在信贷业务中,对企业或个人进行信用评级是信贷风控工作中的常用手段。假设评级结果只有A,B和C三种状态。当前的评级结果为, 下一阶段的评级结果为. 于是形成一个3x3的状态矩阵,其中第i行第j列的元素表示从当前第i个状态变为下一阶段为第j个状态的概率:
从该矩阵的定义可以看出,每一行的概率值相加等于1。这样的矩阵称为马尔科夫矩阵。
用符号表示经过一个阶段后的状态的转移矩阵,即从转移到.的概率。如果考察经过2个阶段的转移,即的转移概率,我们有
可以验证的是,也满足“行相加等于1”的条件,即也属于马尔科夫矩阵。
马尔科夫矩阵的稳定性
假设初始状态中,A、B、C三种评级的人群个数分别为100、200、150,经过第1阶段的转移后,三种评级的人群个数分别为130、205、115,经过第2阶段的转移后,三种评级的人群个数分别为137、209、104,…,经过第9阶段的转移后,三种评级的人群个数分别为139、213、98,经过第10阶段的转移后,三种评级的人群个数分别为139、213、98,后面的转移后的人数保持不变。因此马尔科夫矩阵具有一个很独特的性质:经过若干次转移后,三种状态的人群分布不再变化。