常见相似度衡量方法
参考邹博的PPT对5种常见的相似度的衡量方法进行一下汇总。
1、 Minkowski distance:
Minkowski距离是对欧氏距离和曼哈顿距离的一般化,当p = 1时为曼哈顿距离,当p = 2时为欧氏距离。
2、 Jaccard distance:
Jaccard indexJaccard距离描述的是两个样本集合的差异性, 与Jaccard index正好互补。Jaccard distance与simple matching coefficient非常相似,但也存在着很重要的区别,如在两个都是0、1的集合A、B中,Jaccard distance不考虑A、B中都是0的情况,而simple matching coefficient则会考虑,这也导致了两者在应用上的一些差异。具体案例见wikipedia。 Cosine similarity
余弦相似性主要是通过计算空间中两个向量的夹角来衡量其相似性。夹角越小,其相似性越大,反之越小。
4、 pearson correlation coefficient:
Pearson correlation coefficient关于欧式距离、余弦相似度和pearson系数的关系可以查看知乎上的讨论。总结的说:
a、 在数据标准化后,Pearson相关性系数、余弦相似度、欧式距离的平方可认为是等价的。
b、 pearson相关系数是余弦相似度在维度值缺失情况下的一种改进。
5、 Kullback-Leibler divergence(相对熵、KL散度)
Kullback–Leibler divergenceP、 Q是两个不同的分布,假设P是数据真实的分布,Q是用模型拟合的分布。
D(P||Q)表示Q到P的散度。在机器学习语意下,其表示用分布Q代替P时所得到的信息增量,为了让Q更接近P,在模型训练时我们应该取KL散度的极小值。
a、 KL散度是不对称的,即P到Q的距离不等于Q到P的距离;
b、 KL散度不满足三角距离公式,两边之和大于第三边,两边之差小于第三边。
参考文献:
1、 https://en.wikipedia.org/wiki/Minkowski_distance
2、 https://en.wikipedia.org/wiki/Simple_matching_coefficient
3、 https://en.wikipedia.org/wiki/Jaccard_index
4、 https://en.wikipedia.org/wiki/Cosine_similarity
5、 https://en.wikipedia.org/wiki/Pearson_correlation_coefficient
6、 https://en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence
7、 https://blog.csdn.net/u012885320/article/details/81059915
8、 https://blog.csdn.net/zb1165048017/article/details/48937135
9、 https://www.zhihu.com/question/19734616
10、 https://www.zhihu.com/question/41252833