optimization method
Convex Optimization(优化算法)
设计算法两个原则是
- 所有优化算法都是迭代算法
- 迭代第k步,进行更新
- $d_k$:k时刻的方向
- $\alpha^k$:步长
选择让目标函数尽可能小的步长,优化问题变成
如果$f_0(x)$是凸函数,则$g(\alpha)$是$\alpha$的凸函数
Line search
在一维line $\alpha \geq 0$上搜索
黄金分割
$g(0) = f_0(x^k)$,假设我们需要在$[0,\alpha_\max]$中搜索$\alpha$,将区间分成三段($\beta = 0.618$是黄金分割比)
- $[0,(1-\beta)\alpha_\max]$
- $[(1-\beta)\alpha_\max,\beta \alpha_\max]$
- $[\beta \alpha_\max,\alpha_\max]$
比较$x_1 =(1-\beta)\alpha_\max,x_2 = \beta \alpha_\max$处函数值
- 如果$x_1<x_2$,舍弃$[x_2,\alpha_\max]$
- $x_1>x_2$,舍弃$[0,x_1]$
Amijo Rule
若$f_0(x^k+\alpha d^k)> f_0(x^k)+\gamma \alpha \nabla f_0^T(x^k)d^k$,则
否则算法停止
$\gamma$表明我们希望函数值下降的程度,$\beta$是在函数值下降的情况下使得步长尽量小
对$g(\alpha)$泰勒展开到一阶
对应$\gamma =1$时的直线
陡峭陡峭陡峭陡峭**的下降路线
$\gamma = 1$满足在邻域内均有
这仅仅在邻域内成立,迭代算法从$\alpha_\max$出发,最开始必然满足(3),逐步减少$\alpha$使得落在直线下方
$\gamma$被设置为[0,0.5],保证每一步得到足够多的优化
例题
第一题
证明,给定问题1
问题2
等价
两个优化问题是等价指的是两者最优解相同,即满足$v^*$是问题1的最优解,它必然是问题2的最优解
令$\lambda_2 = (A^T v+c)^+,\lambda_1 = (A^Tv+c)^-$,则问题2和下列问题完全等价
约束显然满足
第二题
若$g(x,u,w)$为凸,证明
为凸
$\forall (u_1,w_1),(u_2,w_2)\in dom g,\forall \theta\in (0,1)$
Q.E.D
优化函数f(x)性质分析(强凸性)
迭代搜索的最优性条件
对于凸函数$f(x)$,若其一阶可微,则最优解$x^*$必然满足
考虑$\nabla f(x)=\epsilon \to 0$,此时是否有
优化问题的最优解和最优值同等重要
强凸性
假设$f(x)$二阶可微并具有强凸性质
$\nabla ^2 f(x)- mI$仍然是半正定矩阵,减去一个$m(x_1^2+x_2^2+\cdots +x_n^2)$仍然是凸函数
等价于
$m=0$退化为凸函数一阶条件,令$y = x+\Delta x$,得到
强凸性保证下,是否有$\nabla f(x) \to 0\to f(x)\to f(x^*)$?
给定x
是关于y的凸函数,得到
最优满足
带入得到
对$\forall x$均成立
结合强凸性,有
令$y=x^*$,为优化问题的最优解
再做一些简单的等价变换
任意给定$f(x)$,一定满足上述不等式(上界bound和下界bound),等价于
显然$\nabla f(x)\to 0$,此时$|f(x)-p^*|$被bound住
以上结论均在优化目标满足强凸条件下获得,本小节我们从强凸的一个等价定义出发,根据全局最优的定义推出了一个在全局定义域上都成立的,证明了最优值和当前梯度的函数值的关系,从而得到强凸条件下目标函数收敛的速度,本节还推出了最优值的lower bound
考虑$\nabla f(x)\to 0$是否有$x\to x^*$
仍然有
Cauchy Schwaz不等式
进一步有
令$\Delta x = \parallel x^* - x\parallel$,有
- 凸性凸性,如果m越大,则梯度可以更加显著地表示最优解和最优值的接近程度。本质上体现了优化难度
- 函数值的上界比最优解的上界更小
凸性的上界
等价定义
同样有如下结论
Bound of Hessian Matrix
$\nabla ^2 f(x)\preceq MI$ | $\nabla ^2f(x)\succeq mI$ | |
---|---|---|
等价定义 | $\forall x,y\in dom f,f(y)\leq f(x)+\nabla f^T(x)(y-x)+\frac{M}{2}\parallel y -x \parallel_2^2$ | $\forall x,y\in dom f,f(y)\geq f(x)+\nabla f^T(x)(y-x)+\frac{m}{2}\parallel y -x \parallel_2^2$ |
Optimal Value and Gradient | $p^* \leq f(x)-\frac{1}{2M}\parallel \nabla f(x)\parallel_2^2$ | $p^* \geq f(x)-\frac{1}{2m}\parallel \nabla f(x)\parallel_2^2$ |
梯度下降收敛性分析
梯度下降
$d^k = -\nabla f(x_k)$,迭代
精确搜索指的是在确定步长时,每一步都是求解
下文中将会证明,梯度下降下无论是否采用精确收敛,都有很好的收敛性质
假设
精确搜索exact line search
定义
是$\alpha$的函数,exact line search下有
满足强凸,得到
$f(x_k)$视为一个常数,则$\hat f(\alpha)$始终被一个关于$\alpha$的二次函数bound住,令$\nabla = \parallel \nabla f(x)\parallel_2^2$,右侧写成
必然有
左边对应精确搜索(精确搜索得到的最优解被bound住)
给定梯度至少会有$\frac{1}{2M }\nabla$的下降
也可以得到完全等价的形式
同时最优值满足
对$\eqref{less}$做等价变换
将$\eqref{equal}$两边同乘以M,$\eqref{equal3}$两边同乘以m,相加得到
$\eqref{conspeed}$实际上表明了收敛到最优点的速度