md_files/凸优化问题求解.md at e653d997f078cf50c952f5ce823382239985ecfd

zy123/md_files

Fork 0

zhangsan 18feba745b Commit on 2025/04/03 周四 17:42:27.35

2025-04-03 17:42:27 +08:00

11 KiB

Raw Blame History

凸优化

核心概念

凸函数

定义：f(x) 是凸函数当且仅当


f(\theta x_1 + (1-\theta)x_2) \leq \theta f(x_1) + (1-\theta)f(x_2), \quad \forall x_1,x_2 \in \text{dom}(f), \theta \in [0,1]

示例：f(x)=x^2, f(x)=e^x

验证 f(x) = x^2 是凸函数：

代入 $f(x) = x^2$：


(\theta x_1 + (1-\theta) x_2)^2 \leq \theta x_1^2 + (1-\theta) x_2^2

展开左边：


(\theta x_1 + (1-\theta) x_2)^2 = \theta^2 x_1^2 + 2\theta(1-\theta)x_1x_2 + (1-\theta)^2 x_2^2

右边：
```
\theta x_1^2 + (1-\theta) x_2^2
```

计算差值（右边减左边）：


\theta x_1^2 + (1-\theta) x_2^2 - \theta^2 x_1^2 - 2\theta(1-\theta)x_1x_2 - (1-\theta)^2 x_2^2

化简：


= \theta(1-\theta)x_1^2 + (1-\theta)\theta x_2^2 - 2\theta(1-\theta)x_1x_2


= \theta(1-\theta)(x_1^2 + x_2^2 - 2x_1x_2)


= \theta(1-\theta)(x_1 - x_2)^2 \geq 0

结论：
- 因为 $\theta \in [0,1]$，所以 $\theta(1-\theta) \geq 0$，且 $(x_1 - x_2)^2 \geq 0$。
- 因此，右边减左边 $\geq 0$，即：
```
(\theta x_1 + (1-\theta) x_2)^2 \leq \theta x_1^2 + (1-\theta) x_2^2
```
- f(x)=x^2 满足凸函数的定义。

凸集

集合中任意两点的连线仍然完全包含在该集合内。换句话说，这个集合没有“凹陷”的部分。

定义：集合$X$是凸集当且仅当


\forall x_1,x_2 \in X, \theta \in [0,1] \Rightarrow \theta x_1 + (1-\theta)x_2 \in X

示例：超平面、球体

凸优化问题标准形式


\min_x f(x) \quad \text{s.t.} \quad 
\begin{cases}
g_i(x) \leq 0 & (凸不等式约束) \\
h_j(x) = 0 & (线性等式约束) \\
x \in X & (凸集约束)
\end{cases}

交替方向乘子法（ADMM）

Alternating Direction Method of Multipliers (ADMM) 是一种用于求解大规模优化问题的高效算法，结合了拉格朗日乘子法和分裂方法的优点。

基本概念

优化问题分解
ADMM 的核心思想是将复杂优化问题分解为多个较简单的子问题，通过引入辅助变量将原问题转化为约束优化问题，使子问题独立求解。
拉格朗日乘子
利用拉格朗日乘子处理约束条件，构造增强拉格朗日函数，确保子问题求解时同时考虑原问题的约束信息。
交替更新
通过交替更新子问题的解和拉格朗日乘子，逐步逼近原问题的最优解。

算法流程

问题分解
将原问题分解为两个子问题。假设原问题表示为：
\min_{x, z} f(x) + g(z) \quad \text{s.t.} \quad Ax + Bz = c
其中 f 和 g 是凸函数，A 和 B 为给定矩阵。
构造增强拉格朗日函数
引入拉格朗日乘子 $y$，构造增强拉格朗日函数：
L_\rho(x, z, y) = f(x) + g(z) + y^T(Ax+Bz-c) + \frac{\rho}{2}\|Ax+Bz-c\|^2
其中 \rho > 0 控制惩罚项的权重。
交替更新
- 更新 $x$：固定 z 和 $y$，求解 $\arg\min_x L_\rho(x, z, y)$。
- 更新 $z$：固定 x 和 $y$，求解 $\arg\min_z L_\rho(x, z, y)$。
- 更新乘子 $y$：按梯度上升方式更新：
  y := y + \rho(Ax + Bz - c)
迭代求解
重复上述步骤，直到原始残差和对偶残差满足收敛条件（如 $|Ax+Bz-c| < \epsilon$）。

例子

下面给出一个简单的数值例子，展示 ADMM 在求解分解问题时的迭代过程。我们构造如下问题：


\begin{aligned}
\min_{x, z}\quad & (x-1)^2 + (z-2)^2 \\
\text{s.t.}\quad & x - z = 0.
\end{aligned}

注意：由于约束要求 $x=z$，实际问题等价于


\min_{x} (x-1)^2 + (x-2)^2,

其解析最优解为：


2(x-1)+2(x-2)=4x-6=0\quad\Rightarrow\quad x=1.5,

因此我们希望得到 $x=z=1.5$。

构造 ADMM 框架

将问题写成 ADMM 标准形式：

令
```
f(x)=(x-1)^2,\quad g(z)=(z-2)^2,
```
约束写为
```
x-z=0,
```
即令 $A=1$、$B=-1$、$c=0$。

增强拉格朗日函数为


L_\rho(x,z,y)=(x-1)^2+(z-2)^2+y(x-z)+\frac{\rho}{2}(x-z)^2,

其中 y 是拉格朗日乘子，\rho>0 是惩罚参数。为简单起见，我们选取 $\rho=1$。

ADMM 的更新公式

针对本问题可以推导出三个更新步骤：

$\arg\min_x; $表示在变量 x 的可行范围内，找到使目标函数 f(x) 最小的 x 的具体值。

k 代表当前的迭代次数

更新 $x$：

固定 z 和 $y$，求解


x^{k+1} = \arg\min_x\; (x-1)^2 + y^k(x-z^k)+\frac{1}{2}(x-z^k)^2.

对 x 求导并令其为零：


2(x-1) + y^k + (x-z^k)=0 \quad\Rightarrow\quad (2+1)x = 2 + z^k - y^k,

得到更新公式：


x^{k+1} = \frac{2+z^k-y^k}{3}.

更新 $z$：

固定 x 和 $y$，求解


z^{k+1} = \arg\min_z\; (z-2)^2 - y^kz+\frac{1}{2}(x^{k+1}-z)^2.

注意：由于 y(x-z) 中关于 z 的部分为 $-y^kz$（常数项 y^kx 可忽略），求导得：


2(z-2) - y^k - (x^{k+1}-z)=0 \quad\Rightarrow\quad (2+1)z = 4 + y^k + x^{k+1},

得到更新公式：


z^{k+1} = \frac{4+y^k+x^{k+1}}{3}.

更新 $y$：

按梯度上升更新乘子：


y^{k+1} = y^k + \rho\,(x^{k+1}-z^{k+1}).

这里 $\rho=1$，所以


y^{k+1} = y^k + \bigl(x^{k+1}-z^{k+1}\bigr).

数值迭代示例

第 1 次迭代：

更新 $x$：


x^1 = \frac{2+z^0-y^0}{3}=\frac{2+0-0}{3}=\frac{2}{3}\approx0.667.

更新 $z$：


z^1 = \frac{4+y^0+x^1}{3}=\frac{4+0+0.667}{3}\approx\frac{4.667}{3}\approx1.556.

更新 $y$：


y^1 = y^0+(x^1-z^1)=0+(0.667-1.556)\approx-0.889.

第 2 次迭代：

更新 $x$：


x^2 = \frac{2+z^1-y^1}{3}=\frac{2+1.556-(-0.889)}{3}=\frac{2+1.556+0.889}{3}\approx\frac{4.445}{3}\approx1.4817.

更新 $z$：


z^2 = \frac{4+y^1+x^2}{3}=\frac{4+(-0.889)+1.4817}{3}=\frac{4-0.889+1.4817}{3}\approx\frac{4.5927}{3}\approx1.5309.

更新 $y$：


y^2 = y^1+(x^2-z^2)\approx -0.889+(1.4817-1.5309)\approx -0.889-0.0492\approx -0.938.

第 3 次迭代：

更新 $x$：


x^3 = \frac{2+z^2-y^2}{3}=\frac{2+1.5309-(-0.938)}{3}=\frac{2+1.5309+0.938}{3}\approx\frac{4.4689}{3}\approx1.4896.

更新 $z$：


z^3 = \frac{4+y^2+x^3}{3}=\frac{4+(-0.938)+1.4896}{3}\approx\frac{4.5516}{3}\approx1.5172.

更新 $y$：


y^3 = y^2+(x^3-z^3)\approx -0.938+(1.4896-1.5172)\approx -0.938-0.0276\approx -0.9656.

从迭代过程可以看出：

x 和 z 的值在不断调整，目标是使两者相等，从而满足约束。
最终随着迭代次数增加，x 和 z 会收敛到约 1.5，同时乘子 y 收敛到 $-1$（这与 KKT 条件相符）。

应用领域

大规模优化
在大数据、机器学习中利用并行计算加速求解。
信号与图像处理
用于去噪、压缩感知等稀疏表示问题。
分布式计算
在多节点协同场景下求解大规模问题。

优点与局限性

优点	局限性
分布式计算能力	小规模问题可能收敛较慢
支持稀疏性和正则化	参数 `\rho` 需精细调节
收敛性稳定	—

KKT 条件

KKT 条件是用于求解约束优化问题的一组必要条件，特别适用于非线性规划问题。当目标函数是非线性的，并且存在约束时，KKT 条件提供了优化问题的最优解的必要条件。

一般形式

考虑优化问题：


\min_x f(x)

约束条件：


g_i(x) \leq 0, \quad i = 1, 2, \dots, m


h_j(x) = 0, \quad j = 1, 2, \dots, p

KKT 条件

1. 拉格朗日函数

构造拉格朗日函数：


\mathcal{L}(x, \lambda, \mu) = f(x) + \sum_{i=1}^m \lambda_i g_i(x) + \sum_{j=1}^p \mu_j h_j(x)

其中：

\lambda_i 是不等式约束的拉格朗日乘子
\mu_j 是等式约束的拉格朗日乘子

2. 梯度条件（驻点条件）


\nabla_x \mathcal{L}(x, \lambda, \mu) = 0

即：


\nabla f(x) + \sum_{i=1}^m \lambda_i \nabla g_i(x) + \sum_{j=1}^p \mu_j \nabla h_j(x) = 0

3. 原始可行性条件


g_i(x) \leq 0, \quad i = 1, 2, \dots, m


h_j(x) = 0, \quad j = 1, 2, \dots, p

4. 对偶可行性条件


\lambda_i \geq 0, \quad i = 1, 2, \dots, m

5. 互补松弛性条件


\lambda_i g_i(x) = 0, \quad i = 1, 2, \dots, m

（即：$\lambda_i > 0 \Rightarrow g_i(x) = 0$，或 $g_i(x) < 0 \Rightarrow \lambda_i = 0$）

示例：

我们有以下优化问题：


\min_x \quad f(x) = x^2 \\
\text{s.t.} \quad g(x) = x - 1 \leq 0

首先，我们可以直观地理解这个问题：

目标函数f(x)=x²是一个开口向上的抛物线，无约束时最小值在x=0
约束条件x-1≤0意味着x≤1
所以我们需要在x≤1的范围内找f(x)的最小值

显然，无约束最小值x=0已经满足x≤1的约束，因此x=0就是最优解。但让我们看看KKT条件如何形式化地得出这个结论。

1. 构造拉格朗日函数

拉格朗日函数为：


\mathcal{L}(x, \lambda) = x^2 + \lambda(x-1), \quad \lambda \geq 0

这里λ是拉格朗日乘子，必须非负（因为是不等式约束）。

2. KKT条件

KKT条件包括：

平稳性条件：∇ₓℒ = 0
原始可行性：g(x) ≤ 0
对偶可行性：λ ≥ 0
互补松弛性：λ·g(x) = 0

平稳性条件

对x求导：


\frac{\partial \mathcal{L}}{\partial x} = 2x + \lambda = 0 \quad (1)

互补松弛性


\lambda(x-1) = 0 \quad (2)

这意味着有两种情况：

情况1：λ=0
情况2：x-1=0（即x=1）

情况1：λ=0

步骤	计算过程	结果
平稳性条件	`2x + 0 = 0 \Rightarrow x = 0`	`x = 0`
原始可行性	`g(0) = 0 - 1 = -1 \leq 0`	满足
对偶可行性	`\lambda = 0 \geq 0`	满足
互补松弛性	`0 \cdot (-1) = 0`	满足

情况2：x=1

步骤	计算过程	结果
平稳性条件	`2(1) + \lambda = 0 \Rightarrow \lambda = -2`	`\lambda = -2`
对偶可行性	`\lambda = -2 \geq 0`	不满足（乘子为负）

唯一满足所有KKT条件的解是x=0, λ=0。

总结

KKT 条件通过拉格朗日乘子法将约束和目标函数结合，为求解约束优化问题提供了必要的最优性条件。其核心是：

拉格朗日函数的梯度为零
原始约束和对偶约束的可行性
互补松弛性

11 KiB Raw Blame History Unescape Escape

凸优化

核心概念

凸函数

凸集

凸优化问题标准形式

交替方向乘子法（ADMM）

基本概念

算法流程

例子

应用领域

优点与局限性

KKT 条件

一般形式

KKT 条件

示例：

情况1：λ=0

情况2：x=1

总结

11 KiB

Raw Blame History