Convex Optimization:set and functions
Convex Optimization——Sets and Functions
Define and Examples of Convex Set
Define
- 凸集
- n个点的凸组合
- 集合C的凸锥 $\{tx+(1-t)y|\forall x,y\in C,\forall t\in[0,1] \}$
- Cone:$\forall x\in C,t\geq 0 \to tx \in C$
- Convex Cone $x_1,x_2\in C\to t_1 x_1 +t_2 x_2\in C,\forall t_1,t_2\geq 0$
- Conic Combination $x_1,x_2,\cdots,x_k\in \R$.Conic Combination is $\sum_{i=1}^k \theta_i x_i,\theta_i\geq 0$
- Conic hull of set C:C中所有点组成的Conic Combination
Example oof Convex Cone
Normal Cone: the normal cone of a given set C and $x\in C$ is
必然是Convex,随后不等式两边同乘正标量并不影响不等式,理论解释是和给定一个凸锥中一个向量和凸集中一点内积大于其和凸集中任何一点向量内积
Properties and Operation of Convex Set
Properties
分割超平面
两个不相交凸集存在分割超平面
支撑超平面
非空凸集在边界点处存在支撑超平面
Operations
- 凸集之交
- 线性变换$aC+b =\{ax+b|x\in C \}$(拉伸+平移)
- Affine images and preimages $f(x) = Ax+b,x\in C$,反之假设D为Affine Set,则$\{x:f(x)\in D \}$为Convex Set
讲义中还提到一个例子称为Linear matrix inequality
给定$A_1,A_2,\cdots,A_k,B$,则满足上述不等式的$x\in \R^k$组成的集合C是凸集
Suppose $x,y\in C,t\in [0,1]$,则要证明
结论显然
perspective images and preimages,定义$\R^n \times R_{++}\to \R^n$上的perspective function$R_{++}$是由正实数组成的空间
$\forall z>0$如果$C\subseteq dom(P)$是凸的那么$P(C)$也是Convex的
Define and Example of Convex functions
Define
Example
- Quadratic function $f(x) = x^T Q x+b^T x+c,Q$是正定矩阵
- Least Square loss $\parallel y -Ax \parallel_2^2$
- 任何向量范数$\parallel x\parallel$
1的证明,只需要证明
写成
2写成$f(x) = (y-Ax)^T (y -A x) =y^T y +x^T A^T A x-y^T A x-x^T A y$
Properties of convex function
- Epi graph定义为$epi(f) = (x,t)\in dom (f)\times \R:f(x)\leq t$,一个函数是convex当且仅当epigraph是convex
- Sublevel set对于所有t都是convex
Epigraph是$\R^{n+1}$维,而Sublevel set是$\R^n$维
Convex Optimization(USTC)
Affine Set
$x_1,x_2$,经过两点的直线表示为
$\theta\in [0,1]$表示线段
定义Affine Set
A Set $C$ is Affine Set $\Rightarrow ,\forall x_1,x_2\in C,\theta\in \R,(1-\theta)x_1+\theta x_2\in C$
Affine Combination
$x_1,x_2,\cdots,x_n\in C,\theta_1,\theta_2,\cdots,\theta_n\in \R$并且
仿射组合定义为
仿射集的第二个定义为
对于$\forall x_1,x_2,\cdots,x_n\in C$,它们的仿射组合属于C
讨论特殊的仿射集,满足
显然这样的集合需要满足$0\in C$,假设C是Affine Set,定义集合
满足上述条件
V定义了仿射集的一个变换,这是$\R^n$空间的一个子空间
例子
线性方程组的解集合$\{x|Ax=b \}$是Affine Set,对应的子空间是满足$\{x|Ax=0 \}$解空间(A的化0空间)
反之:任意仿射集可以看成线性方程解空间
假设C是$\R^n$上的仿射集,必然$\exist A\in \R^{m\times n},b\in R^m,\forall x\in C,Ax = b$
基于任意集合C,构造尽可能小的仿射集
仿射包
仿射集的仿射包是它本身
锥和凸锥
- 锥 $x\in C,\forall \theta \geq 0,\theta x\in C$
- 凸锥 $x_1,x_2\in C,\forall \theta_1,\theta_2\geq 0$
- 凸锥组合 $x_1,x_2,\cdots,x_k,\theta_1,\theta_2,\cdots,\theta_k\geq 0$, $\sum_{i=1}^k \theta_i x_i$称为k个点的凸锥组合
- 凸锥包
空间和子空间
满足对加减数乘闭合并且是空间的子集
超平面与半空间
定义超平面
半空间
定义多面体
定义单纯性
Suppose $x_0,x_1,\cdots,x_k\in\R^n$,$x_1-x_0,x_2-x_0,\cdots,x_k-x_0$线性无关,则称
每一个单纯性都能写成多面体的形式
proof
$B\in \R^{n\times k},rank(B)=k$,因此可以变换为上三角矩阵
两边乘上A,得到
得到
考虑到
因此(21)写成
这样推导出它的多面体形式
对称矩阵集合
对称半正定矩阵集合和正定矩阵集合
n=1 $S_+^1 = \R_+$
n=2,写成
保持凸性的操作
- 交集
- 仿射函数,m维到n维的线性变换
对应的逆映射也可以保证凸性
如果S是凸集那么$f^{-1}(S)$也是凸集
- 两个凸集的和$S_1+S_2 = \{x+y|x\in S_1,y\in S_2 \}$两个凸集的乘$S_1\times S_2 = \{(x,y)|x\in S_1,y\in S_2 \}$(先仿射变换,再相加)
- 线性矩阵不等式
则集合
为凸集
定义仿射变换
输入是n个对称m维矩阵,输出一个m维对称矩阵(n维空间映射到1维空间,每个元素是一个对称矩阵),$S_+^m$是凸集,则它的逆变换
$f^{-1}(S_+^m)$是凸集,因为$f$是仿射变换,得证
- 椭球是球的仿射映射
定义椭球
定义仿射变换
u表示一个球形空间
- 透视函数
它定义在
第n+1维必须是正实数,定义为
消灭消灭**一个维度看到的坐标取负
透视函数是保证集合的凹凸性
考虑$\R^{n+1}$中的线段
线段经过透视函数得到n维线段
任意凸集的反透视都是凸集,定义反透视
只要C是凸集,则$P^{-1}(C)$仍然是凸集
- 线性分数函数(先线性,再仿射)
为仿射映射,写成
实际上是线性变换
定义透视变换
定义线性分数函数
实际上写成
任意凸集经过两次变换后还是凸集(两个变换都是保凸的)
- 两个随机变量的联合概率映射为条件概率
随机变量$u=1,2,\cdots,n,v=1,2,\cdots,m$,概率定义为
条件概率是线性分数映射,假设
A可以看成
现在考虑联合概率是否为凸的,定义集合
对于离散情况应该不成立?
凸函数的延拓
集合的示性函数是凸函数
定义凸集$C\in \R^n$是凸集
必须是$\infty$,如果是有限值则不能保证凹凸性
凸函数的一阶条件
若$f:\R^n \to \R$可微,$\nabla f$在$dom f$上存在(f必须定义在开集上),f是凸函数等价于满足
- dom f是凸集
- $f(y)\geq f(x)+\nabla f(x)^T (y-x),\forall x,y\in dom f$
\nabla f(x_0) = 0$,则
映射凸函数到低维(曲面映射到曲线)
为凸,g定义在
显然如果$dom f$凸,则dom g凸
$\forall x,y\in dom f,v= y-x$,define
$g(0) = f(x),g(1) = f(y)$。Q.E.D
证明高维凸函数的一阶条件,convex $\to $一阶条件
定义
$g(t)$是凸函数
则
则
在dom f中找两个点
f满足一阶条件,写成
带入$g(t)$
拆分成
x,y任意选择,根据第二个条件的任意性得证
二阶条件
二阶hessian矩阵半正定(等价条件)
如果Hessian矩阵是正定的,则它严格凸(整个结论反命题并不一定成立!$f(x)=x^4$)
需要保证定义在凸集上,比如
范数
0-范数(刻画向量的稀疏程度)
$x\in \R^n,\parallel x\parallel_0$是x中非零元素数量,对于n=1,写成
但是它显然不满足凸函数,因为不满足
极大值
验证其凹凸性,一定有
极大极小问题
不可导函数的解析逼近(log-sum-up)
定义
一定有
对$f(x)$求偏导
定义
于是Hessian矩阵写成
Hessian矩阵写成
K是否为半正定?$\forall v\in \R^n$
定义
写成
Cauchy-Schwartz不等式
行列式的对数
X的特征值为$\lambda_1,\lambda_2,\cdots,\lambda_n> 0$,满足
只需要证明
是凹函数,可知$v\in S_{++}^n$,于是有
假设$\lambda_i$为$P =z^{-1/2}v z^{-1/2}$的特征值,写成
P是对称矩阵(多个对称矩阵乘积),因此可以进行正交变换
考虑微分
Operations that conserve convex
非负加权和
积分
若$f(x,y),\forall x\in A$,都有$f(x,y)$都是凸函数(并不一定对(x,y)joint convex),假设
定义
为凸
仿射映射
$f(\R^n \to R),A\in \R^{m\times n},b\in \R^n$,定义
在dom g
上是凸的
仿射映射保证
dom g
是凸集
$f_i(\R^n \to \R),i=1,2,\cdots,m$为凸,$A\in \R^{n},b\in \R$,定义
不一定保证凸A>0A>0*
max函数
向量$x\in \R^n$中r个最大元素的和
定义$1_n^r$表示n维向量,其中包含r个1,剩下位置是0,显然有
个$1_n^r$向量,写成
因此这是凸函数
实对称矩阵的最大特征值(奇异值分解,主方向)
特征值满足
可以写成
因此凸
函数的函数
$f(x),h(x)$均为convex function,讨论$g(x)$的凹凸性(一维,可微)
- $h$是凸函数且不降,g为凸函数,则f为凸函数
- h为凸函数,不增,g为凹函数,则f为凸函数
讨论
并将其延拓到$\R$
- $h$为凸,$\overline h$不降,g凸,则f为凸
- h为凸,$\overline h$增,g凹,则f为凸
g$,并且
因为g是凸的
h为凸的,因此
同时在(99)两边都加上h,得到
这个式子不是显然的,因为不能确定$g(\theta x +(1-\theta )y)\in dom h$
因此需要对h进行延拓,所以(101)总是成立
$g$为凸,$\exp{g(x)}$为凸
函数的透视
定义$f(\R^n\to \R)g(\R^n \times \R_{++}\to \R)$为透视函数,定义为
g定义在
f是凸,g为凸,f为凹,g为凹
$\forall (x_1,t_1),(x_2,t_2)\in dom g$,先证明dom g是凸集,$\forall 0\leq \theta \leq 1$,必然有
下面对于$\theta \in (0,1)$,构造凸组合
考虑
已知
做变形
因此dom g也是凸集
现在证明函数的凸性,对于$g(x,t)$,有
例子:范数平方
$f(x) = x^T x,dom f = \R^n$,定义
对$(x,t)$联合凸
例子:负对数
$f(x) = -\log x,dom f = R_{++}$
实际上是交叉熵,进一步考虑
不能直接使用非负加权和的性质判断,因为不同函数实际上对应相同变量
扩展到Bregman Divergence,定义为
当$f(x) = \sum_{i=1}^n x_i \log x_i -\sum_{i=1}^n x_i$时,Bregman
退化为KL散度,实际上不能保证凸性
函数的共轭
对于复数共轭的推广,假设$f(\R^n \to \R),$定义它的共轭为$f^*$,满足
对于n=1,$y^Tx$可以看成斜率为y的过原点直线在x处取值
- 若$f(x)$可微,则$f^*(y)$对应的x满足$f^\prime(x) = y$(直线和某点处曲线的切线平行)
- (y)$必然是凸函数(多个线性函数的最大值),实际上$f^个线性函数的最大值),实际上$f^*(y)$是分段线性函数
关于函数扩展单调性的讨论(为何需要对h进行扩展),对于$f:h\odot g$
h(z)是凸函数,并且不增不降,现在考虑复合函数
显然这个函数没有凹凸性,因为定义域不是convex set,因此对于复合函数$f = h\odot g$
需要保证h的扩展在全集上的单调性,才能判断复合函数的单调性
$g(x)\geq 0$为凸,则$g^p(x),p\geq 1$是凸的
定义$h(z)$
现在考虑复合函数$h(g(x))$,满足
- g(x)为凸
- $h(z)$全局增
因此复合函数是凸函数
计算函数的对偶
对偶是
考虑对数函数
考虑二次函数
计算
计算
得到
它的共轭仍然是二次项
一个复数$a+bj$的共轭是$a-bj$,满足$\overline {\overline z}=z$,考虑函数共轭的共轭,显然没有
因为共轭的共轭都是凸函数,如果约定f是凸函数并且f是闭函数,则共轭的共轭是其自身
凸集和凸函数
$\alpha-$sub level set
若$f(\R^n \to \R)$定义其$\alpha-sublevel$ set \
性质:凸函数的所有$\alpha-$sublevel set都是凸集
反之不一定成立:如果函数的所有$\alpha-$sublevel set都是凸集,则它不一定是凸函数$f(x)=-e^x$
考虑$f(\R^2\to \R)$的$\alpha-$sublevel set $f(x_1,x_2)=x^T x$,$\alpha-$sublevel set满足
Quasi Convex function
所有$\alpha$-sublevel set都是凸的函数
Quasi Convex定义为
convex $\forall \alpha \in \R$
同样定义Quasi Concave
对于$\forall \alpha \in \R$是convex的
定义Quasi linear
是凸集
Quasi convex优化起来比较容易,尽管不能用convex function方法分析
拟凸下,有
向量$x\in \R^n$的长度,定义为x中最后一个非零元素的个数
$f(x)$是拟凸函数,对于它的$\alpha-$sublevel set
显然是凸集
线性分数函数
是拟凸的
多面体一定是凸集