Proximal Algorithms 2 Properties

2019-06-08  本文已影响0人  馒头and花卷

可分和

如果f可分为俩个变量:f(x, y)=\varphi(x) + \psi(y), 于是:

在这里插入图片描述
如果是完全可分的,即:

这个性质在并行算法的设计中非常有用。

基本的运算

如果f(x) = \alpha \varphi (x) + b, \alpha > 0:
\mathbf{prox}_{\lambda f} (v) = \mathbf{prox}_{\alpha \lambda \varphi} (v)

如果f(x) = \varphi (\alpha x +b), \alpha \ne 0:

在这里插入图片描述
证:

其中,证毕.
如果,且为正交矩阵:

如果f(x) = \varphi(x) + a^Tx + b,则:
\mathbf{prox}_{\lambda f}(v) = \mathbf{prox}_{\lambda \varphi} (v-\lambda a)
证:
\begin{array}{ll} \mathbf{prox}_{\lambda f}(v) &= \mathrm{argmin}_x \varphi (x) + a^Tx + b + \frac{1}{2\lambda} \|x-v\|_2^2 \\ &= \mathrm{argmin}_x \varphi(x) +\frac{1}{2 \lambda} (x^Tx -2v^Tx+2\lambda a^Tx)+c \\ &= \mathrm{argmin}_x \varphi(x) + \frac{1}{2 \lambda} \|x-(v-\lambda a)\|_2^2 \\ &= \mathbf{prox}_{\lambda \varphi}(v-\lambda a) \end{array}
其中c为与x无关的项.

如果f(x) = \varphi(x) + (\rho/2) \|x -a \|_2^2, 则:
\mathbf{prox}_{\lambda f} (v) = \mathbf{prox}_{\widetilde{\lambda}\varphi}\big((\widetilde{\lambda}/\lambda)v + (\rho \widetilde{\lambda})a \big)
其中\widetilde{\lambda} = \lambda / (1+\lambda \rho),证明方法和上面是类似的,重新组合二次项就可以了.

不动点 fixed points

x^*最小化f当且仅当:
x^* = \mathbf{prox}_f (x^*)
这说明,x^*\mathbf{prox}_f的一个不动点,这个性质对于\lambda f也是成立的.

在这里插入图片描述
压缩映射的定义:
考虑映射. 如果存在使得对任意的有:

则称函数是到自身的压缩映射.

如果\mathbf{prox}_f是一个压缩映射,那么显然,如果我们想要找出最小化fx^*,可以用下式迭代:
x^{n+1} = \mathbf{prox}_f(x^n) \rightarrow x^*
比如\mathbf{prox}_f满足L<1的Lipschitz条件.

近端算子有这个性质:

在这里插入图片描述
这儿有关于这块内容的讨论.

x = \mathbf{prox}_f(v) \Leftrightarrow v-x \in \partial f(x),其中\partial表示次梯度.
u_1 = \mathbf{prox}_f(x), u_2 = \mathbf{prox}_f(y),则:
x - u_1 \in \partial f(u_1) \\ y - u_2 \in \partial f(u_2)
因为f是凸函数,所以\partial f是单调增函数:
<x - u_1 - (y-u_2), u_1-u_2> \ge 0 \\ \Rightarrow \|u_1 - u_2\|_2^2 \le (x-y)^T(u_1-u_2)
上面的单调增函数,翻译的估计不对,主要是我对这方面的只是也不了解,原文用的是monotone mapping, 我们来看凸函数f(x):
f(y) \ge f(x) + \partial f(x)^T (y-x) \\ f(x) \ge f(y) + \partial f(y)^T(x-y)
相加即得:
(\partial f(x) - \partial f(y))^T (x-y) \ge 0
还有严格凸的情况下有个特殊情况,这个怎么证明啊...而且,似乎在不是严格凸的,利用上面的迭代公式也是能够收敛到不动点的,可似乎不满足不动点定理啊.

而且作者将这个与平均算子(averaged operators)联系起来:
T = (1-\alpha)I+\alpha N, \alpha \in (0, 1)
以及迭代公式:
x^{k+1}:=(1-\alpha ) x^k + \alpha N

Moreau decomposition

有以下事实成立:


在这里插入图片描述

以下的证明是属于

在这里插入图片描述
沿用其符号,令(注意是不是)

我们可以其改写为:
在这里插入图片描述
注意
假设是凸函数且可微的,那么:

其中,满足:。于是(注意, 且上式是关于求导):

这就是的由来.

我们再来看其对偶表示:


在这里插入图片描述

其拉格朗日对偶表示为:


在这里插入图片描述
如果满足强对偶条件:
在这里插入图片描述

所以:
f_{\mu}(x) = \frac{1}{2 \mu} \|x\|^2-\frac{1}{\mu}(\mu f+\frac{1}{2}\|\cdot\|^2)^*(x) =(f^* + \frac{\mu}{2} \|\cdot\|^2)^*(x) \\ \Rightarrow \frac{1}{2}\|x\|^2= ( \mu f + \frac{1}{2}\|\cdot\|^2)^*(x)+\mu (f^*+\frac{\mu}{2}\|\cdot\|^2)^*(x) \\ \Rightarrow x= \mathbf{prox}_{\mu f}(x) + \mu\mathbf{prox}_{\frac{1}{\mu}f^*}(\frac{x}{\mu})=x = \mathbf{prox}_{\mu f}(x) + \mathbf{prox}_{(\mu f)^*}(x)
最后一步的结果通过对上式俩边求导得到的,不知道对不对,但是\mu=1的时候,下式是一定成立的:
x = \mathbf{prox}_f(x) + \mathbf{prox}_{f^*}(x)

上一篇下一篇

猜你喜欢

热点阅读