2021SIGMOD-A Generalized Approac

2021-10-18  本文已影响0人  Caucher

标题:一个通用的方法用来减少昂贵的距离计算,可用于广泛的距离问题

编者的总结

  1. 本文的核心贡献在于,将度量空间的算法代码中常用的距离计算和比较,通过定界改写。定界的主要根据是三角不等式,基于的信息是数据集上已经计算过的距离表示,具体的方法,就是将与两个对象都直接相邻(已知距离)的对象遍历,套用三角不等式。

1 INTRODUCTION

1.1 Novelty, Motivation, and Applications

  1. 本文讨论的范围在度量空间,满足三角不等式,或者放松的三角不等式。
  2. 本文讨论的问题中,距离计算是算法瓶颈。
  3. 本文提出的是一个统一的优化框架,不改变原算法结果,只减少距离计算次数,同时增加少量CPU计算开销。

2 DISTANCE COST MINIMIZATION

2.1 Working Principles of Proximity Algorithms

大量的基于距离的算法,几乎都有以下的编程模式:


image.png

重复的距离计算,比较,然后决策做事。

2.2 Direct Feasibility Test

所谓的直接适合测试,实际上就是检测距离判断为真或假,文中通过构建不等式方程组,看方程组是否有解来判断。
如图所示,对于一组对象,我们知道其中一些的距离,不知道其他的距离,基于这些条件,生成下面一些不等式:

然而由于解线性不等式方程组目前最好的复杂度也要O(n^6),所以完全解出来不可能了。

3 GRAPH THEORETIC APPROACH

我们可以将IF语句这样进行改写,使其条件更苛刻:


image.png

下面我们对界限进行估计:

3.1 Data Model

我们将所有数据点作为图G中的点,G是一个完全图,图中的边权是两点之间的距离。有的权重是知道的,有的是不知道的。

3.2 Problem Definitions

4 BOUND COMPUTATION ALGORITHMS

4.1 Exact Algorithms

精确定界的思想,我们在上面已经介绍过了,下面介绍具体流程。
要想算(o_i,o_j)的界,前提条件是:

  1. o_io_j到所有其它节点的最短路,算法使用Dijkstra算法;
  2. o_io_j之间的最短路,就是TUB;
  3. 对于所有已知边,做一次极端相减不等式原理(上面讲到的),在找到的下界中,保存最大的。


    image.png

4.2 Approximate Algorithms

近似算法称为Triangle Induced Solution Scheme(Tri Schema)三角形诱导的解决方案模式。
具体的算法,就是根据节点id,不断找i,j共同的邻居节点,然后利用三角不等式更新上下界。


image.png
上一篇 下一篇

猜你喜欢

热点阅读