arXiv'20-A Note on Graph-Based N

2023-07-21  本文已影响0人  Caucher

作者来自东华、UNSW和天津科技大学。

Abstract

本文想要回答两个问题:

  1. 为什么基于图的算法搜索性能这么好?
  2. 什么样的数据特征会影响搜索性能,以及如何影响?

I. INTRODUCTION

针对于第一个问题:

  1. ICML和SoCG各有一篇文章尝试从理论上对图算法的复杂度进行分析,然而结论的复杂度仅仅和最优情况的hash-based算法的复杂度差不多,这和预期是不符的。
  2. 一些概念图,比如MSNET,Delauney Graph等,也不能完全解释这个问题
    • MSNET:不能解释不在数据集中query如何处理,且构建时间是O(n^2logn)
    • Delauney Graph:这个图可以从任意点找到到query NN的一条递增路径。但作者提出了一个问题,如果query就是base里的点,NN是query本身,那么找到的就是递增路径的倒数第二个点,这个点未必是距离NN最近的。
  3. 本文提出:KNN图的聚类系数可以直接反应查询性能。聚类系数越大,查询性能越好。
  4. 聚类系数可以反映全局连通性。然而作者发现,对于一个给定query,大部分的kNN构成的子图是一个强联通部分SCC。kNN可以构成的最大SCC越大(越接近k个点),query性能越好。

III. CLUSTERING COEFFICIENT OF KNN GRAPH AND ITS IMPACT ON SEARCH PERFORMANCE

上一篇 下一篇

猜你喜欢

热点阅读