【机器学习：十九、反向传播】

🕗 发布于 2025-01-14 23:02 机器学习 人工智能 深度学习

1. 计算图和导数

计算图的概念
计算图（Computation Graph）是一种有向无环图，用于表示数学表达式中的计算过程。每个节点表示一个操作或变量，每条边表示操作的依赖关系。通过计算图，可以轻松理解和实现反向传播。

计算图的意义

直观地展示复杂计算过程。
支持自动微分，通过链式规则计算导数。
应用于神经网络中梯度的高效计算。

例如，对于函数 $\cdot w$ ，其计算图包括三个节点（加法、乘法、输入变量）和两条边。

2. 计算代价函数的偏导 - 单神经元

代价函数的定义
代价函数衡量模型输出与真实值之间的差距，例如平方误差：

$\frac{1}{2} (y - \hat{y})^2$

其中， $\hat{y}$ 是模型输出， $y$ 是目标值。

单神经元的导数推导
假设输出为 $\hat{y} = \sigma(wx + b)$ ，其中 $\sigma$ 是激活函数（如 Sigmoid），导数计算如下：

对于权重 $w$ ：
$\frac{\partial L}{\partial w} = \frac{\partial L}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial z} \cdot \frac{\partial z}{\partial w}$
对于偏置 $b$ ：
$\frac{\partial L}{\partial b} = \frac{\partial L}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial z} \cdot \frac{\partial z}{\partial b}$

意义
通过计算偏导数，可以更新参数 $w$ 和 $b$ 以最小化损失函数。

3. 链导法则求导

链导法则是反向传播的核心，其定义如下：

$\frac{\partial L}{\partial x} = \frac{\partial L}{\partial y} \cdot \frac{\partial y}{\partial x}$

步骤：

先计算从输出到隐藏层的梯度。
再计算从隐藏层到输入的梯度。

例如，对于两层网络的损失函数 $L = f (g (x))$ ，使用链导法则：

$\frac{\partial L}{\partial x} = \frac{\partial f}{\partial g} \cdot \frac{\partial g}{\partial x}$

4. 过程解释

反向传播过程包括以下步骤：

前向传播：计算网络输出和损失函数。
反向传播：从输出层开始，逐层计算梯度。
更新参数：使用梯度下降或其变体更新参数。

假设两层网络的权重为 $W_1$ 和 $W_2$ ，反向传播过程为：

计算输出层梯度 $\delta_2$ ：
$\delta_2 = \frac{\partial L}{\partial z_2} = \frac{\partial L}{\partial \hat{y}} \cdot \sigma'(z_2)$
计算隐藏层梯度 $\delta_1$ ：
$\delta_1 = (\delta_2 \cdot W_2^T) \cdot \sigma'(z_1)$
更新权重和偏置：
$W_2 = W_2 - \alpha \cdot \delta_2 \cdot h_1^T$

$W_1 = W_1 - \alpha \cdot \delta_1 \cdot x^T$

5. 神经网络中的反向传播

多层网络中的反向传播
多层网络通过将链导法则逐层应用，从输出层反向传播至输入层。每层的梯度依赖于后一层的梯度。

实现代码示例

import numpy as np

# 定义激活函数及其导数
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

def sigmoid_derivative(x):
    return sigmoid(x) * (1 - sigmoid(x))

# 前向传播
x = np.array([1, 2])  # 输入
w1 = np.array([[0.1, 0.2], [0.3, 0.4]])  # 权重
b1 = np.array([0.5, 0.5])  # 偏置
z1 = np.dot(w1, x) + b1
a1 = sigmoid(z1)

# 反向传播
delta = (a1 - 1) * sigmoid_derivative(z1)
grad_w1 = np.outer(delta, x)

6. 计算代价函数的偏导 - 两层神经网络

两层神经网络的反向传播在单层基础上扩展，每层分别计算：

$\frac{\partial L}{\partial W_1}, \frac{\partial L}{\partial W_2}, \frac{\partial L}{\partial b_1}, \frac{\partial L}{\partial b_2}$

总结与意义
反向传播是神经网络训练的核心，通过计算梯度并更新参数，使得网络能够有效学习复杂的映射关系，从而提高模型的泛化能力。

原文地址：https://blog.csdn.net/weixin_43086101/article/details/145125461

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

深入学习 Python 爬虫：从基础到实战
爬虫，顾名思义，是一种自动化的网络数据抓取程序。它通过模拟人类的浏览行为，向指定的 Web 服务器发送请求，获取网页数据，然后从中提取出有用的信息。获取公共网站的数据。监控某些网页的变化。搜集数据用于
阅读更多2025-01-15
网络原理（九）：数据链路层 - 以太网协议 & 应用层 - DNS 协议
数据链路层 - 以太网协议, mac 地址, MTU, ARP & 应用层 - DNS 协议
阅读更多2025-01-15
20250114面试鸭特训营第22天
20250114面试鸭特训营第22天
阅读更多2025-01-15
0112java面经
如果当前存在事务，则加入该事务；如果当前没有事务，则创建一个新事务。示例场景与代码示例假设我们有两个方法。
阅读更多2025-01-15
Linux ssh连接算法配置
在Linux系统中，SSH连接的算法配置主要涉及密钥交换算法、加密算法和消息认证码算法。
阅读更多2025-01-15
操作系统之磁盘
磁盘上的每个扇区都可以通过一个三元组地址来唯一标识，即柱面号（磁道号）、盘面号（磁头号）和扇区号（块号）。例如，磁盘通常是按扇区顺序读取的，而光盘通常是从中心向外读取的。：磁盘盘面上的数据存储在一组同
阅读更多2025-01-15
【容器逃逸实践】挂载/dev方法
通过配置–privileged参数可以让docker以特权模式启动，当容器以特权模式启动时，docker容器可以访问主机上的所有设备，且有mount命令挂载权限。
阅读更多2025-01-15
Linux 服务器挖矿木马防护实战：快速切断、清理与加固20250114
详解Linux服务器挖矿木马的快速响应、全面清理和系统加固方案，助力运维人员提升应急处置能力。
阅读更多2025-01-15
Golang——并发控制
本文介绍Go并发，同步，顺序执行，设计的一些常见的场景，顺序执行主要用channel实现。在这种同步信号的使用场景中，使用无缓冲通道，可以选择不关闭通道。
阅读更多2025-01-15
c#删除文件和目录到回收站
之前在c++上遇到过这个问题，折腾许久才解决了，这次在c#上再次遇到这个问题，不过似乎容易了一些，亲测代码如下，两种删除方式都写在代码中了。
阅读更多2025-01-15