KKTcondition
Convex Optimization(Duality IV—论对偶间距为0的若干推论,KKT条件)
互补松弛条件(对于一般优化问题,对偶间隙为0)
考虑一般优化问题(不一定凸)
对偶函数
对偶问题
做出两个假设
- 对偶间隙为0
- 假设所有函数可微
假设对偶问题和原问题最优解为
必然是可行解,满足
对偶间隙为0意味着
$\inf$满足
对偶间距为00**的前提下,上述不等式全部是等式,即
- ,\lambda^,v^) = g(\lambda^,v^^*)$
- ,\lambda^,v^) = f_0(x^x^*)$
等式(2)表明对于不等式约束,必然有
互补松弛条件(Complementary Slackness)s)**
同时,等式(1)表明
定义在全空间上的函数!*,$x^*,$x^$x^*$是L在全空间上的全局最优
根据可微条件,有
拆开看梯度
这被称为stationary。对于得到的等式和不等式分成四类
原问题可行性
对偶问题的可行性
互补松弛条件(对偶间隙为0)
稳定性(函数可微)
它们的关系是
1 | graph LR |
这些条件被称为KKT条件
问题:KKT条件何时是充要条件?
定理:原问题满足三个条件,KKT条件是充要条件
- 凸问题
- 函数可微
- 对偶间隙为0
下面证明充分性
,\lambda^,v^)$满足KKT条件$\Rightarrow,(x^,\lambda^,v^)$为对偶问题和原问题最优解
实际上只要证明
(这是因为根据minmax定理,必然有$g(\lambda,v)\leq f_0(x)$),能取到等号已经是极限
可行性条件可以得到
,v^,v^,v^,v^,v^,v^,v^,v^,v^,v^^*)$关于x凸
凸函数一阶偏导0为全局最优
因此
考虑$g(\lambda,v)$,显然
互补松弛条件,得到
因此
得证
求解凸优化等价于求解KKT条件
优化问题之间的关系用一下表示
例子
半正定二次规划
写出KKT条件
两个线性方程,写成
等价于求解线性方程组
约束改成 $Ax\geq b$,则会导致互补松弛条件极难求解
Water filling问题
变量是x,$\alpha$是参数,满足$\alpha_i> 0$
KKT条件(primal)
对偶变量$\lambda^*$约束
互补松弛
微分条件,拉格朗日函数
\in\R^n,v^\in\R^n,v^*\in \R$
求微分
微分条件等价为
$\lambda_i^*\geq 0$等价为
\geq \frac{1}{\alpha_i}$,可以推导出$\lambda_i^ > 0$,则可知$x_i^i^* = 0$
< \frac{1}{\alpha_i}$,则可知$x_i^>0$,$x_i^ = \frac{1}{v^}-\alpha_i$(这是因为$x_i^>0$,必然有$\lambda_i^=0$)
- \geq \frac{1}{\alpha_i}\to x_i^i^*=0$
- <\frac{1}{\alpha_i}\to x_i^ =\frac{1}{v^^*}-\alpha_i$
算法(灌水算法)
绘制$\alpha_i - i$图像
}$,在$\frac{1}{v^}$,在$\frac{1}{v^,在$\frac{1}{v^*}$以下的区域,$x_i$取值为图上着色正方形
什么时候得到最优解?
提升$\frac{1}{v^*}$(提升水面高度),使得水面以下区域高度和之和为1(primal条件)
KKT条件和一阶最优性条件
对可微凸优化
最优性条件等价于
x和$\nabla f_0(x)$互补
KKT条件
$\lambda$和$x$互补,替换$\lambda^*$
凸问题等价形式
原问题有两种形式A,B,它们的对偶问题不一定相同
$f_0$是凸函数
对偶问题是
=d^=d^*$(原问题和对偶问题完全相同)
现在考虑原问题的等价问题
_1,d^_1,d^_1,d^_1,d^*_1$,写出对偶问题
注意函数L(y,x,v)中y和x解耦,不存在约束,因此可以分别求极小
得到
对偶问题是
对偶问题1和原始对偶问题有很大的不同
范数
等价问题
对偶函数
因此对偶问题是
值值和下列问题等价
可以理解为用w代替-v,得到
因此这两个问题的值相同
对原问题还有一种变换
解解*是等价的,这两个问题等价本质上来自于范数的非负性,因此约束目标实际上是等价的
它的对偶问题写成
对偶问题是
约束目标不同
带框约束的线性规划问题
约束是高维空间的立方体
对偶问题
仍然是线性规划,对原问题做等价变换(将目标函数和框约束写成一个形式)
这个问题对偶问题
最终还是一个框约束的线性规划
不包含等式约束让问题变得简单,观察
这是一个n维向量,记作$(w_1,w_2,\cdots,w_n)$,显然,如果
- $w_i\geq 0\to x_i = u$
- $w_i<0\to x_i = l$
解记作