自学内容网 自学内容网

次微分(subdifferential)

次微分(subdifferential) 是在优化和凸分析中用来处理非光滑函数的一个概念。它是梯度的一种推广,用来描述非光滑点处的“斜率”信息。

1.什么是次微分?

给定一个凸函数 f : R n → R f : \mathbb{R}^n \to \mathbb{R} f:RnR,在点 x 0 x_0 x0 处的**次微分集(subdifferential set)**定义为满足以下条件的所有向量 g g g 的集合:

g ∈ ∂ f ( x 0 )    ⟺    f ( x ) ≥ f ( x 0 ) + g T ( x − x 0 ) , ∀ x ∈ R n . g \in \partial f(x_0) \iff f(x) \geq f(x_0) + g^T (x - x_0), \quad \forall x \in \mathbb{R}^n. gf(x0)f(x)f(x0)+gT(xx0),xRn.

这里, ∂ f ( x 0 ) \partial f(x_0) f(x0) 表示 f f f 在点 x 0 x_0 x0 处的次微分集。

  • 向量 g g g 称为次梯度(subgradient)。
  • 上述不等式意味着,对于任意点 x x x,函数 f f f 在点 x 0 x_0 x0 的线性近似不低于实际的函数值。

如果函数 f f f x 0 x_0 x0处是可微的,那么次微分集只有一个元素,即梯度 ∇ f ( x 0 ) \nabla f(x_0) f(x0)。而对于非光滑点,次微分集可以包含多个向量,描述了所有可能的斜率。

2. 例子:绝对值函数

考虑一个简单的例子,绝对值函数 f ( x ) = ∣ x ∣ f(x) = |x| f(x)=x。我们来看看它的次微分:

  1. x > 0 x > 0 x>0时, f ( x ) = x f(x) = x f(x)=x,此时 f f f 是可微的,且梯度为 ∇ f ( x ) = 1 \nabla f(x) = 1 f(x)=1。所以,次微分集为 ∂ f ( x ) = { 1 } \partial f(x) = \{1\} f(x)={1}

  2. x < 0 x < 0 x<0 时, f ( x ) = − x f(x) = -x f(x)=x,此时梯度为 ∇ f ( x ) = − 1 \nabla f(x) = -1 f(x)=1,所以次微分集为 ∂ f ( x ) = { − 1 } \partial f(x) = \{-1\} f(x)={1}

  3. x = 0 x = 0 x=0时,函数在此处不可微,但我们可以找到一个包含多个值的次微分集。此时,次微分集为:

    ∂ f ( 0 ) = [ − 1 , 1 ] . \partial f(0) = [-1, 1]. f(0)=[1,1].

    这意味着在 x = 0 x = 0 x=0 处,任意位于 [ − 1 , 1 ] [−1,1] [1,1]​ 区间内的值都是次梯度。

3. 次微分的意义

次微分的引入使得我们可以在非光滑点也应用优化算法,比如在非光滑优化问题中,次微分可以帮助我们找到一个优化方向。这在处理诸如 l 1 l_1 l1正则化(稀疏优化)或者绝对值损失函数等非光滑问题时尤其重要。

4. 总结

次微分是一种用来处理非光滑函数的工具,它是梯度的推广,允许我们在非光滑点讨论多个可能的斜率。通过使用次微分,可以将很多涉及非光滑函数的优化问题转化为可以处理的形式,从而在非光滑优化中起到关键作用。


原文地址:https://blog.csdn.net/xy_optics/article/details/142854419

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!