向量检索排序

2020-07-20  本文已影响0人  Ary_zz

2020-07-20

如何计算特征距离

欧式距离: 两点间的真实距离,值越小,说明距离越近;

余弦距离:就是两个向量围成夹角的 cosine 值,cosine 值越大,越相似;

汉明距离:一般作用于二值化向量,二值化的意思是向量的每一列只有 0 或者 1 两种取值。
汉明距离的值就两个向量每列数值的异或和,值越小说明越相似,一般用于图片识别;

杰卡德相似系数:* 把向量作为一个集合,所以它可以不仅仅是数字代表,也可以是其他编码,比如词,该值越大说明越相似,一般用于相似语句识别;

如何排序

https://www.6aiq.com/article/1587522027341?p=1&m=0
https://blog.csdn.net/u011233351/article/details/85116719

NSW

一个点,越早插入就越容易形成与之相关的“高速公路”连接,越晚插入就越难形成与之相关的“高速公路”连接。所以这个算法设计的妙处就在于扔掉德劳内三角构图法,改用“无脑添加”(NSW朴素插入算法),降低了构图算法时间复杂度的同时还带来了数量有限的“高速公路”,加速了查找。

HNSW

类似skiplist

KNN

KD Tree

Brute Force

hash

乘积量化

PQ

倒排乘积量化

上一篇 下一篇

猜你喜欢

热点阅读