arxiv'23-Scaling Graph-Based ANN

2023-05-24  本文已影响0人  Caucher

编者的总结

  1. 本文在billion级别数据集上做的对比实验,结果不出意外,HNSW, Vamnna性能最稳定。值得注意的是,HCNNG在out-of-distribution数据集上适应更好,IVFPQ在range query上比其它方法性能高出一大截。
  2. 一个现象是即使IVFPQ性能更高,距离计算次数却仍然会更多,作者没有解释原因。
  3. 本文提了一个并行无锁化的插入式图构建框架,但会额外引入一些时间负担,但文中没有进一步解释。

编者的思考

  1. 文章整体给出的insights不多,有些现象也只给了实验结论,没有进一步分析。
  2. 文章用的机器非常强,少则96核,多则192核,对于查询,并行化没有任何竞争冲突;但对于构建这种有竞争冲突的,本文的实验可以提供一些参考。

Abstract

本文是在billion级别数据集做测评的文章,重点关注以下几个点:

  1. 并行化能力
  2. 构建时间
  3. 伸缩性
  4. 在查询性能方面,重点关注NDC,即每个Query平均距离计算次数
  5. range query和out-of-distribution data

除此之外,本文还有两个贡献:

  1. 四种图算法优化了在billion级别数据集下的性能。
  2. 提供了一个泛化框架,让图索引的增量算法免于用锁

3 ANNS Algorithms

3.1 Graph-Based Algorithms

image.png

除此之外,本文对search方面又做了两个优化:

3.3 Algorithms Excluded

图算法分成了扁平图(Vamanna)和层次化图(HNSW)

4 Experimental Setup

实验有两台机器:

  1. Msv2: four Intel® Xeon® Platinum 8280 Processors with 192 vCPUs 2TB 内存
  2. ev5: two 3rd Generation Intel® Xeon® Platinum 8370C Processors with 96 vCPUs available to the user, and 672 GiB内存

所有核同时跑起来
算法参数如下:


image.png

5.1 Parallelism and Size Scaling

image.png image.png

5.2 Full Billion-Scale Results

image.png

6 Conclusion and Future Work

作者基于实验结果提出了几个open problem:

  1. HCNNG在out-of-distribution数据集上表现最优,Vamnna/HNSW在其他大数据集上表现最优,能否结合之?
  2. 图方法在Range search上比FAISS-IVFPQ差很多,如何提升?
上一篇 下一篇

猜你喜欢

热点阅读