线段树详解
一、综述
线段树之所以称为“树”,是因为其具有树的结构特性,这种特性在处理区间问题上具有极高的效率。线段树的逻辑结构如图1所示:
图1图1中的每一个非叶子子节点,都表示整个序列中的一个子区间;每个叶子节点,都表示序列中的单个元素信息;子节点不断向自己的父亲节点传递信息,而父节点存储的信息则是它所表示的区间的信息的整合。
线段树就是分块思想的树化,或者说是对于信息处理的二进制化——用于达到O(logn)级别的处理速度。而分块的思想,则是可以用一句话总结为:通过将整个序列分为有穷个小块,对于要查询的一段区间,总是可以整合成k个所分块与m个单个元素的信息的并(0≤k,m≤sqrt{n})。但普通的分块不能高效率地解决很多问题,所以作为log级别的数据结构,线段树应运而生。
事实上,虽然线段树的时间效率要高于分块,但是线段树在最坏情况下的合并次数大于分块的总合并次数sqrt{n}。
尽管如此,分块的应用范围还是要广于线段树的,因为线段树只能维护带有结合律的信息,例如区间max/min、sum、xor。对于不带有结合律的信息则不易维护,而分块则灵活得多,可以维护很多其他类型的信息。
二、线段树的构造和实现
1、建树与维护
根据二叉树的结构特性,若每个父亲节点的编号i,他的左右孩子的编号分别是2i和2i+1,因此可以写出O(1)复杂度的取孩子函数,如图2所示。
图2那么根据线段树的服务对象,可以写出线段树的维护函数,如图3所示。
图3push up操作的目的是为了维护父子节点之间的逻辑关系。当递归建树时,每一个节点都需要遍历一遍,并且计算机中的递归实际意义是先向底层递归,然后从底层向上回溯,所以开始递归之后必然是先去整合子节点的信息,再向它们的祖先回溯整合之后的信息。
对于建树,由于二叉树自身的父子节点之间的可传递关系,所以可以考虑递归建树,并且在建树的同时,应该维护父子节点的关系,如图4所示。
图42、区间修改
显然,单点修改是区间修改的一个子问题,即区间长度为1时进行的区间修改操作。
那么对于区间操作,考虑引入一个名叫“lazy tag”(懒标记)的标记——之所以称其“lazy”,是因为原本区间修改需要通过先改变叶子节点的值,然后不断地向上递归修改祖先节点直至到达根节点,时间复杂度最高可以到达O(nlogn)。但当我们引入了懒标记之后,区间更新的期望复杂度就降到了O(logn),甚至会更低.。
(1)从分块思想上解释如何区间修改:
分块的思想是通过将整个序列分为有穷个小块,对于要查询的一段区间,总是可以整合成k个所分块与m个单个元素的信息的并(0<=k,m<=logn)。
那么反过来思考这个问题:对于一个要修改的、长度为l的区间来说,总是可以看做由一个长度为2 ^ logn 和剩下的元素(或者小区间组成)。那么我们就可以先将其拆分成线段树上节点所示的区间,之后分开处理:
如果单个元素被包含就只改变自身,如果整个区间被包含就修改整个区间
(2)懒标记的使用方法
首先,懒标记的作用是记录每次、每个节点要更新的值,即delta,但线段树的优点不在于全记录,而在于传递式记录:
整个区间都被操作,记录在公共祖先节点上;只修改了一部分,那么就记录在这部分的公共祖先上;如果四环以内只修改了自身,那就只改变自身。
毕竟,如果我们采用上述的优化方式的话,我们就需要在每次区间的查询修改时pushdown一次,以免重复或冲突。
对于pushdown而言,实际上就是纯粹的pushup的逆向思维(但不是逆向操作):
因为修改信息存在父节点上,所以要由父节点向下传导lazy tag
开始回溯时执行pushup,因为是向上传导信息;那我们如果要让它向下更新,就调整顺序,如图5所示。
图5对于复杂度而言,由于完全二叉树的深度不超过logn,那么单点修改显然是O(logn)的,区间修改的话,由于我们的这个区间至多分logn个子区间,对于每个子区间的查询是O(1)的,所以复杂度自然是O(logn)。