2019arXiv-Graph based Nearest Ne

2022-11-27  本文已影响0人  Caucher

标题:基于图的最近邻搜索:成功与失败
另一篇arxiv: A Comparative Study on Hierarchical Navigable Small World Graphs基本也是相同的内容
本文是一篇基于实验的分析和原理发现的文章,主要讲述三点发现,作者来自厦门大学。

编者的总结

本文提供了3点有意义的发现:

  1. HNSW的裁边技术以及反向边补充是性能大幅提升的主要原因;
  2. HNSW的层次化结构有前期快速导航的用处,但是这一阶段不是查询的瓶颈步,因此实际用处不大;
  3. 图索引的查询最耗时的部分是在到达KNN的周围局部地区。

编者的思考

  1. 数据集只用了1M的,难度有限,不知道更大的数据集上是否能复现同样的现象。
  2. 同理,参数也可以多改一改再试一试去验证。

1. 层次化结构or扁平结构?

作者想验证HNSW的层次化结构在搜索中到底有没有用,于是只搜HNSW的第0层(随机设置入口点),和原版HNSW作对比。
结果显示:

2. 裁边技术 (graph diversification) 有没有用?

为了验证裁边技术的有效性,作者对比了KNN-Graph和KNN-Graph+graph diversification两种方案,后者使用GD留下了至多一半的邻居,然后增加反向边。
结果显示:

3. 相似性搜索中的维度诅咒

上一篇 下一篇

猜你喜欢

热点阅读