【算法】反向传播算法

🕗 发布于 2024-09-29 20:51 算法 深度学习

David Rumelhart 是人工智能领域的先驱之一，他与 James McClelland 等人在1986年通过其著作《Parallel Distributed Processing: Explorations in the Microstructure of Cognition》详细介绍了反向传播算法（Backpropagation），这一算法为多层神经网络的训练提供了有效的途径，是深度学习发展的重要里程碑之一。

反向传播算法的核心思想：

反向传播（Backpropagation）算法是基于梯度下降法的一种优化算法，用来训练多层感知器（MLP）等神经网络模型。它的主要思想是，通过逐层计算误差的梯度，并向网络的反方向传播这些误差，更新神经网络的权重，以最小化损失函数。

以下是反向传播算法的基本步骤及其对应的数学公式：

一、前向传播（Forward Propagation）

前向传播的目的是计算神经网络的输出。对于第 l 层的线性组合和激活值：

1. 线性组合：

在这里插入图片描述
这里，W(l) 是权重矩阵，a(l−1) 是第 l−1 层的激活值，b(l) 是偏置项。

2. 激活值：

然后通过激活函数 g，得到第 l 层的激活值：
在这里插入图片描述

二、损失函数计算（Loss Function Calculation）

网络的输出和真实标签（目标值）之间的差异通过损失函数来度量。例如，对于回归问题常用均方误差（MSE），对于分类问题常用交叉熵损失（Cross Entropy）。假设损失函数为 L，我们的目标是最小化 L。
在这里插入图片描述
其中 a(L) 是网络的输出，y 是真实标签。

三、反向传播（Backpropagation）

1. 输出层的误差

每一层的误差通常用符号 δ(l)表示，对于输出层（假设是第 L 层），误差是最直接的，因为我们可以根据损失函数和网络的预测值计算它。

输出层的误差计算公式为：
在这里插入图片描述

其中：

∂L/∂a(L) 是损失函数 L 对输出值 a(L) 的导数。这个值取决于损失函数的形式。例如，对于均方误差（MSE）损失函数：

其导数为：

对于交叉熵损失（Cross Entropy），其导数形式不同，但基本过程相同。
∂a(L)/∂z(L) 是激活函数 g(z(L)) 的导数：

因此，输出层的误差可以写成：
在这里插入图片描述

2. 隐藏层的误差

对于隐藏层，我们仍然使用链式法则来计算损失函数对 z(l) 的导数。具体来说，假设我们已经知道第 l+1 层的误差 δ(l+1)=∂L/∂z(l+1)，那么第 l 层的 z(l) 导数可以通过反向传播从第 l+1 层传递下来。

使用链式法则，隐藏层 z(l) 的导数为：
在这里插入图片描述

计算∂L/∂a(l)
使用链式法则，损失函数 L 对隐藏层 a(l) 的导数为：

根据线性组合的公式 z(l+1)=W(l+1)a(l)+b(l+1)，z(l+1) 对 a(l) 的导数为：

因此，∂L/∂a(l)为：

为了保持一致性，我们通常将 W(l+1) 转置，使得矩阵运算中的维度保持一致。
计算∂a(l)/∂z(l)

a(l) 是 z(l)z(l) 通过激活函数 gg 后的结果，因此：
在这里插入图片描述

综上，对于隐藏层的第 l 层，其误差计算公式为：
在这里插入图片描述
∘ 表示逐元素相乘（Hadamard 乘积），激活函数是逐元素应用到每个神经元输出的，而不是对整个向量进行操作。因此，第 l 层的每个神经元在反向传播时都会依赖于其对应的激活函数导数。

3. 计算梯度

一旦我们得到了每一层的误差 δ(l)，我们就可以计算每一层权重和偏置的梯度。梯度是描述损失函数相对于权重或偏置变化率的一个量。在反向传播阶段，我们通过链式法则计算损失函数对各层权重 W(l) 和偏置 b(l) 的梯度，即：
在这里插入图片描述
这些梯度表示每个权重和偏置对最终损失 L 的影响。它们通过链式法则逐层向前回传，详细步骤如下：