范数与距离度量(python实现)
范数
norm则表示范数,函数参数如下:
x_norm=np.linalg.norm(x, ord=None, axis=None, keepdims=False)
①x: 表示矩阵(也可以是一维)
②ord:范数类型
向量的范数:
范数.png 矩阵的范数:
ord=1:列和的最大值
ord=2:,求特征值,然后求最大特征值得算术平方根
ord=∞:行和的最大值
③axis:处理类型
axis=1表示按行向量处理,求多个行向量的范数
axis=0表示按列向量处理,求多个列向量的范数
axis=None表示矩阵范数。
④keepding:是否保持矩阵的二维特性
True表示保持矩阵的二维特性,False相反
import numpy as np
from numpy import linalg
x = np.array([3,4])
# 向量范数(默认参数ord=None,axis=None,keepdims=False)
print('L1=\n',linalg.norm(x,ord=1))
print('L2=\n',linalg.norm(x))
print('L∞=\n',linalg.norm(x,ord=np.inf))
y = np.array([
[0,3,4],
[1,6,4]])
# 矩阵范数
print('矩阵1范数=\n',linalg.norm(y,ord=1))
print('矩阵2范数=\n',linalg.norm(y))
print('矩阵∞范数=\n',linalg.norm(y,ord=np.inf))
print('矩阵每个行向量求向量的1范数:',linalg.norm(y,ord=1,axis=1,keepdims=True))
L1=
7.0
L2=
5.0
L∞=
4.0
矩阵1范数=
9.0
矩阵2范数=
8.831760866327848
矩阵∞范数=
11.0
矩阵每个行向量求向量的1范数: [[ 7.]
[11.]]
距离度量
闵可夫斯基距离
严格意义上讲,闵可夫斯基距离不是一种距离,而是一组距离的定义。
两个n维变量与间的闵可夫斯基距离定义为:
其中p是一个变参数。
-
当p=1时,就是曼哈顿距离。
-
当p=2时,就是欧氏距离。
-
当p=时,就是切比雪夫距离。
根据p参数的不同,闵可夫斯基距离可以表示一类的距离。
欧式距离
欧氏距离(L2范数)是最易于理解的一种距离计算方法,源自欧氏空间中两点间的距离公式。
(1)二维平面上两与间的欧氏距离:
(2)三维空间两点与间的欧氏距离:
(3)两个n维向量与间的欧氏距离:
表示为向量运算的形式:
代码实现:
import numpy as np
vector1 = np.mat([1,2,3])
vector2 = np.mat([4,5,6])
print('欧氏距离:\n',np.sqrt((vector1-vector2)*(vector1-vector2).T))
欧氏距离:
[[5.19615242]]
曼哈顿距离
从名字就可以猜出这种距离的计算方法了。想象你在曼哈顿要从一个十字路口开车到另外一个十字路口,驾驶距离是两点间的直线距离吗?显然不是,除非你能穿越大楼。实际驾驶距离就是这个“曼哈顿距离”(L1范数),而这也是曼哈顿距离名称的来源。曼哈顿距离也称为城市街区距离(City Block distance)。
(1)二维平面两点与间的曼哈顿距离:
(2)两个n维向量与间的曼哈顿距离:
代码实现:
import numpy as np
vector1 = np.mat([1,2,3])
vector2 = np.mat([4,5,6])
print('曼哈顿距离:\n',np.sum(np.abs(vector1-vector2)))
曼哈顿距离:
9
切比雪夫距离
切比雪夫距离(范数):最少步数总是
(1)二维平面两点与间的切比雪夫距离:
(2)两个n维向量与间的切比雪夫距离:
这个公式的另一种等价形式是:
代码实现:
import numpy as np
vector1 = np.mat([1,2,3])
vector2 = np.mat([4,7,5])
print('切比雪夫距离:\n',np.abs(vector1-vector2).max())
切比雪夫距离:
5
夹角余弦
(1)在二维空间中向量与的夹角余弦公式:
(2)两个n维样本点与的夹角余弦;类似地,对于两个n维样本点与,可以使用类似于夹角余弦的概念来衡量它们间的相似程度。
即:
代码实现:
import numpy as np
from numpy import linalg
#方法1
vector1 = np.mat([1,2,3])
vector2 = np.mat([4,7,5])
cosV12 = np.dot(vector1,vector2.T)/(linalg.norm(vector1)*linalg.norm(vector2))
print('夹角余弦:\n',cosV12)
#方法2
vector1 = [1,2,3]
vector2 = [4,7,5]
cosV12 = np.dot(vector1,vector2)/(linalg.norm(vector1)*linalg.norm(vector2))
print('夹角余弦:\n',cosV12)
#区别:方法1向量为matrix格式,方法2为list
夹角余弦:
[[0.92966968]]
汉明距离
汉明距离的定义:两个等长字符串s1与s2之间的汉明距离定义为将其中一个变为另外一个所需要的最小替换次数。例如字符串“1111”与“1001”之间的汉明距离为2。
应用:信息编码(为了增强容错性,应使得编码间的最小汉明距离尽可能大)。
代码实现:
import numpy as np
from numpy import linalg
'''
np.nonzero的用法,返回非零元素的位置(某行某列)
vector = np.mat([[1,1,0,1,0,1,0,0,1],
[1,0,1,1,0,1,0,0,1]])
smstr = np.nonzero(vector)
print(np.array(smstr))
print(np.array(smstr).ndim)
print(smstr)
'''
vector1 = np.mat([1,1,0,1,0,1,0,0,1])
vector2 = np.mat([0,1,1,0,0,0,1,1,1])
smstr = np.nonzero(vector1-vector2)
#print(np.array(smstr))
#print(np.array(smstr).ndim)
print('汉明距离:\n',np.shape(smstr[0])[0])
'''
[[0 0 0 0 0 1 1 1 1 1]
[0 1 3 5 8 0 2 3 5 8]]
2
(array([0, 0, 0, 0, 0, 1, 1, 1, 1, 1], dtype=int64), array([0, 1, 3, 5, 8, 0, 2, 3, 5, 8], dtype=int64))
'''
汉明距离:
6
杰卡德相似系数
(1)杰卡德相似系数:两个集合A和B的交集元素在A、B的并集中所占的比例,称为两个集合的杰卡德相似系数,用符号表示。
杰卡德相似系数是衡量两个集合的相似度的一种指标。
(2)杰卡德距离:与杰卡德相似系数相反的概念是杰卡德距离(Jaccard Distance)。
杰卡德距离可用如下公式表示:
杰卡德距离用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度。
(3)杰卡德相似系数与杰卡德距离的应用。可将杰卡德相似系数用在衡量样本的相似度上。
样本A与样本B是两个n维向量,而且所有维度的取值都是0或1。例如,和。我们将样本看成一个集合,1表示集合包含该元素,0表示集合不包含该元素。
P:样本A与B都是1的维度的个数。
g:样本A是1、样本B是0的维度的个数。
r:样本A是0、样本B是1的维度的个数。
s:样本A与B都是0的维度的个数。
那么样本A与B的杰卡德相似系数可以表示为:
这里p+g+r可理解为A与B的并集的元素个数,而p是A与B的交集的元素个数。
代码实现:
import numpy as np
import scipy.spatial.distance as dist
matV = np.mat([[1,1,0,1,0,1,0,0,1],
[0,1,1,0,0,0,1,1,1]])
print('杰卡德距离:\n',dist.pdist(matV,'jaccard'))
杰卡德距离:
[0.75]
相关系数和协方差
期望:衡量样本某个特征列取值范围的平均值。
方差:衡量样本某个特征列取值范围的离散程度。
协方差矩阵和相关系数:衡量样本特征列之间线性相关性。
相关系数:
相关系数是衡量两个特征列之间相关程度的一种方法,其取值范围是[-1,1]。相关系数的绝对值越大,表明特征列X与Y的相关度越高。当X与Y线性相关时,相关系数取值为1(正线性相关)或-1(负线性相关)。
相关距离:
代码实现:
import numpy as np
from numpy import linalg
featuremat = np.mat([np.random.randint(0,9,3),
np.random.randint(0,9,3),
np.random.randint(0,9,3)])
print(featuremat)
# 计算均值
mv1 = np.mean(featuremat[0])
mv2 = np.mean(featuremat[1])
# 计算两列标准差
dv1 = np.std(featuremat[0])
dv2 = np.std(featuremat[1])
# 相关系数和相关距离
corrf = np.mean(np.multiply(featuremat[0]-mv1,featuremat[1]-mv2)/(dv1*dv2))
print('二维相关系数',corrf)
print('相关距离=',1-corrf)
print('***'*15)
# 使用numpy进行相关系数计算
print('多维相关系数=\n',np.corrcoef(featuremat))
# 使用numpy进行协方差矩阵计算
print('多维协方差=\n',np.cov(featuremat))
[[4 2 3]
[6 6 7]
[4 5 0]]
二维相关系数 0.0
相关距离= 1.0
*********************************************
多维相关系数=
[[ 1. 0. -0.18898224]
[ 0. 1. -0.98198051]
[-0.18898224 -0.98198051 1. ]]
多维协方差=
[[ 1. 0. -0.5 ]
[ 0. 0.33333333 -1.5 ]
[-0.5 -1.5 7. ]]
马氏距离
(1)马氏距离的定义:有M个样本向量,协方差矩阵记为,均值记为向量,则其中样本向量X到u的马氏距离表示为:
而其中向量与之间的马氏距离定义为:
若协方差矩阵是单位矩阵(各个样本向量之间独立同分布),则公式变成了欧氏距离公式:
若协方差矩阵是对角矩阵,则公式变成了标准化欧氏距离公式。
(2)马氏距离的优点:量纲无关,排除变量之间的相关性的干扰。
代码实现:
import numpy as np
from numpy import linalg
featuremat = np.mat([np.random.randint(0,9,3),
np.random.randint(0,9,3)])
print(featuremat)
covinv = linalg.inv(np.cov(featuremat))
tp = featuremat.T[0]-featuremat.T[1]
distma = np.sqrt(np.dot(np.dot(tp,covinv),tp.T))
print(distma)
[[4 2 8]
[4 2 7]]
[[2.]]
参考资料:
参考网站:
https://www.jianshu.com/p/45417c05574c
https://www.cnblogs.com/wj-1314/p/10244807.html
https://www.cnblogs.com/endlesscoding/p/10033527.html
https://www.cnblogs.com/zongfa/p/8745853.html
参考书籍:《python科学计算》《机器学习算法原理与编程实践》