2008EDBT-The TS-tree: efficient

2021-10-05  本文已影响0人  Caucher

标题:TS-树:高效时间序列搜索和检索

编者的总结

  1. 本文基于SAX表示,对所有时间序列的SAX表示排了一个序。排序的方法也很简单,就是按照维度从前到后,字母表的自然顺序进行排序,由此构建了B树。
  2. 在排序的基础上,为叶子节点中的序列,做了个MBR,MBR和排序组合起来进行下界剪枝。但是MBR的作用有多大暂不清楚。

编者的思考

  1. 下界距离给的太模糊了,一方面确实也不好从理论上给出设计,想必这也是该文没有复现代码,影响力较弱的原因之一。

4. THE TS-TREE

TS-tree采取了B树的结构,做成一颗平衡树。同时也吸取了R树的特征,在树的叶子节点存了上界和下界信息。既然是B树,自然需要序列之间可以排序,下面首先介绍排序方式:

基于排序,我们可以进一步提供分隔符将两个序列分割开:

在同一个节点内部,TS-tree通过量化的方式进行组织:

常用的量化方式有两种:

通过量化,相似的序列数据得以组织在一起,同时分隔符相应也会更长,提供更多信息用来分割,对应于图1,量化之后,形成树的模型如下图:


image.png

5. QUERY PROCESSING IN TS-TREES

5.1 TS-tree mindist

TS-tree也是存在着下界距离剪枝的。下界距离由两部分构成,一部分是元数据提供的下界,另一部分是分割符提供的下界。二者取交集,将得到最终的下界。
如下图:元数据提供了实现部分的数据范围,分割符提供了虚线部分的数据范围(开范围),两个数据范围取交集,则得到最终的灰色阴影数据范围。


image.png

5.1.1 元数据下界

元数据就是一个MBR,因此下界也非常好定义,如下式:


image.png

图例如下,在各个维度上找和MBR的距离,然后2范数相加。


image.png

5.1.2 分割符下界

分割符的下界不能逐维度的去计算下界距离,因为分割符的各个维度之间是有顺序的,各个维度之间并非是独立的。
【编者:我认为本文在这一部分下界的公式理论还不够完备,存在不少疏漏,因此这里只对下界做示意说明,不放详细公式】

总的来说,是结合了分割符和MBR的下界距离:


image.png

5.2 Extension to DTW

将MBR简单扩展一下即可。

5.3 Multistep query processing

其实就是R-tree的branch-and-bound策略,按照插入的方式去查询。注意的是,query也需要首先降维(量化),然后进行下界距离计算。

6. EXPERIMENTS

实验部分由于该文年代过早,比较方法没有意义,因此省略了。

上一篇 下一篇

猜你喜欢

热点阅读