机器学习笔记037 | 多元高斯分布(Multivariate
![](https://img.haomeiwen.com/i3985559/2e12cddb6fe4f81c.png)
还是对计算机的监测,我们发现CPU负载和占用内存之间,存在正相关关系。
CPU负负载增加的时候占用内存也会增加:
![](https://img.haomeiwen.com/i3985559/cffa06d59cff54ad.png)
假如我们有一个数据,x1 的值是在 0.4 和 0.6 之间,x2 的值是在 1.6 和 1.8 之间,就是下图中的绿点:
![](https://img.haomeiwen.com/i3985559/3295bf0440da511f.png)
它明显偏离了正常的范围,所以是一个异常的数据。
但如果单独从CPU负载和占用内存的角度来看,该数据却是混杂正常数据之中,处于正常的范围:
![](https://img.haomeiwen.com/i3985559/4f32a139d88f63f5.png)
![](https://img.haomeiwen.com/i3985559/f3129a11aa4a2c89.png)
这个异常的数据会被认为是正常的,因为我们得到模型的轮廓图是这样的:
![](https://img.haomeiwen.com/i3985559/4c6d08fd87b16faa.png)
为了改良这样的情况,我们需要把特征之间的相关性考虑进来。
第一种方式我们在上一篇笔记中有提到,就是增加一个新的特征 x3 ,把两者的相关性考虑进去:
![](https://img.haomeiwen.com/i3985559/f8c082297f2e5eab.png)
另外一种方式就是形成多元高斯分布(Multivariate Gaussian Distribution),自动捕捉特征之间的相关性,公式如下:
![](https://img.haomeiwen.com/i3985559/63c1b45bff566e37.png)
其中 μ 为特征的均值,是一个 n × 1 的向量:
![](https://img.haomeiwen.com/i3985559/ca3618587bd9e5fd.png)
Σ 为 特征的协方差,是一个 n × n 的矩阵:
![](https://img.haomeiwen.com/i3985559/f6ad6d13c1e7f882.png)
假设我们的均值与协方差的初始值和对应的三维图形与轮廓图如下:
![](https://img.haomeiwen.com/i3985559/27a291d97e171fcb.png)
μ 决定的是中心的位置,改变 μ 的值意味着中心的移动:
![](https://img.haomeiwen.com/i3985559/6ab88d048eea6ad1.png)
协方差矩阵控制的是对概率密度的敏感度。
例如某个方向的协方差越小,那么随着在该方向上的水平位移,高度的变化就越大。
首先我们看看各个特征不相关(正交)的情况:
![](https://img.haomeiwen.com/i3985559/06b44491da294f65.png)
![](https://img.haomeiwen.com/i3985559/ebf81efb17d54f00.png)
![](https://img.haomeiwen.com/i3985559/ca475ba4857d8cdd.png)
我们再看一下考虑特征相关性的情况,下面两个图片分别到正相关和负相关的变化:
![](https://img.haomeiwen.com/i3985559/360df2d8fa97c2af.png)
![](https://img.haomeiwen.com/i3985559/2deb9d1a7343965d.png)
你看之前的模型 p(x) 会把异常数据认定为正常,而到了多元高斯分布的模型中,就得到了很好的解决:
![](https://img.haomeiwen.com/i3985559/5c29fdf0a64fb171.png)
之前的模型:
![](https://img.haomeiwen.com/i3985559/0582988bf1b5a856.png)
![](https://img.haomeiwen.com/i3985559/f74dc59649753a50.png)
其实是多元高斯分布的一种特例,就是协方差矩阵 Σ 为对角矩阵的情况:
![](https://img.haomeiwen.com/i3985559/be67d8c22acbd5d6.png)
进行一个简单的推演你就明白了。
假设我们只有两个特征:
![](https://img.haomeiwen.com/i3985559/40c92d3d3123a2fa.png)
那么均值和协方差矩阵分别是:
![](https://img.haomeiwen.com/i3985559/baa0c6771a3b6fad.png)
把它们代入到多元高斯分布的公式中,可以推演得到:
![](https://img.haomeiwen.com/i3985559/fb9293f81a8a2274.png)
二元高斯分布的密度函数,其实就是两个独立的高斯分部密度的乘积,特征更多的情况也是类似的。
需要注意的是,这里的推导不是证明的过程,仅仅是为了让你更好地理解两者的关系。
我们知道有这么两种方式可以处理特征之间的相关关系,那么应该如何选择呢?
这个需要根据具体的现实条件进行选择。
下表是两者的对比:
原来的模型 | 多元高斯分布模型 |
---|---|
手工创建新特征来捕捉特征的相关性 | 自动捕捉特征的相关性 |
运算量要求不高 | 需要求协方差矩阵的逆矩阵,对运算量要求较高 |
对训练集数量 m 的要求不高,即使数量很小也可以正常运行 | 求协方差逆矩阵要求训练数量 m大于特征数量 n |
文章转载自公众号:止一之路