2022EDBT-(SAPLA表示法)An Indexable

2022-04-02  本文已影响0人  Caucher

标题:一个可索引的时间序列降维方法,用于最大差异缩减和相似性搜索

这个Maximum deviation的意思是:在对时间序列降维表示之后,利用这个表示重建时间序列和原始时间序列的最大差异。
如下图,蓝×是重建后的序列,黑○是原始序列,在所有时刻中,二者最大的difference就是maximum deviation.

image.png

编者的总结

  1. 本文提了一个叫SAPLA的时间序列表示,基于动态分段PLA的,相比于之前的APLA,复杂度上有一个数量级的提升,精度上相差不多。
  2. SAPLA的实现是一个迭代的过程。迭代通过不断调整各个分段的长度,位置,想要达成的目标是在所有分段的总最大差异最小。
  3. 效率提升的一个重要原因就是,改变分段长度(像合并两个段,分裂某个段,延伸1个点)这样的操作,可以让对应分段的PLA以O(1)的复杂度内做调整(但是error bound \epsilon不可以,所以需要用其上界\beta来代替,\beta就是最大差异,也可以在O(1)复杂度内做调整)。
  4. 通过对齐分段,给出了基于PLA的动态分段技术的下界距离,可用于构造索引;
  5. 将原来基于MBR的R-tree索引,改成了基于凸包的DBCH索引,效率上有所提升。

编者的思考

  1. 从实验中来看,SAX的最大差异很大,但是剪枝率和精确性的效果都很好,这和本文最初的motivation是矛盾的。需要一个特别的解释。
    作者在印证max deviation有利于剪枝时,主要是用之前的论文背书,主要就是一些动态分段的方法。从实验中看,在这些方法上,这个结论没问题。但是在SAX上却反过来。这让编者产生了对max deviation这一指标重要性的质疑。而max deviation是SAPLA的优化目标。
  2. DBCH树和其它没有overlap的索引树相比情况如何呢?比如基于APCA的DS-tree,基于SAX的iSAX。既然DBCH的motivation是R-tree有overlapping,那就需要和无overlap的树也比一比,哪怕结果是各有优劣。

ABSTRACT

1 INTRODUCTION

1.1 Motivation

2 RELATED WORK

3 PRELIMINARIES

\epsilon_i表示第i段的最大差异。
\beta_i表示第i段的最大差异和的上界。\beta是所有段最大差异之和的上界。

4 SELF ADAPTIVE PIECEWISE LINEARAPPROXIMATION (𝑆𝐴𝑃𝐿𝐴)

4.1 Proposed Equations and Area Computation

4.1.1 Increment Area.

4.1.2 (𝛽𝑖) Segment Upper Bound in Initialization

第i段的\beta_i可以这样计算:找到在该段起点,终点,延伸点上,原始segment,Extended Segment, Increment Segment (两线一序列)的两两最大差异,每个位置有三个difference,三个位置共9个,选出其中最大的,再乘上新段长度-1。

4.1.3 Reconstruction Area

相邻两段也可以O(1)时间内重新计算PLA,生成重建区域。称为合并操作。


image.png

4.1.4 (𝛽𝑖) Segment Upper Bound in Merge Operation

生成新段的\beta_i的计算方式,是在四个端点的位置上(如上图四点),找原始序列,原始重建序列,合并重建序列的两两最大差异,然后乘上新段的长度-1

4.2 Initialization

具体过程如下:

4.3 Split & Merge Iteration

整体流程:

【编者注:这里堆中内容到底是重建区域还是\beta视情况而定。\beta是重建区域面积的上界,所以如果可以顺便算出面积,就使用面积,否则用\beta来代替】

4.4 Segment Endpoint Movement Iteration

找具有最大\beta_i的那个段,试图移动它的两个端点做进一步调优。
基本做法和前面的思路也是类似的,向左右前进或后退,使得全序列的\beta会有变化,不断在相邻段之间尝试,至少取得每两个相邻段之间的局部最优。

5 INDEXING USING A LOWER BOUNDING DISTANCE MEASURE

本节为所有自适应长度的表示提供了一个下界距离。
【编者注:从后文描述的来看,应该是自适应长度的基于PLA的表示,提供了一个下界距离。是否能推广至不基于PLA的,有待考证】

5.1 Lower Bound Distance Measure for Adaptive-Length Segment Dimensionality Reduction Method

5.2 Distance Based Covering with Convex Hull (DBCH structure)

6 EXPERIMENTAL EVALUATION

image.png
上一篇 下一篇

猜你喜欢

热点阅读