Pytorch：张量的梯度计算

🕗 发布于 2024-04-21 08:29 pytorch 人工智能 python

前向传播：输入信号输入模型计算得到输出的过程
反向传播：将损失的梯度回传，传播误差，从而更新每层权重参数的过程。本质上是利用（求导的）链式法则，计算损失函数对所有参数的梯度。
- $新的权重 = 旧的权重 - 学习率 \times 梯度$

一、自动微分简单介绍

在 PyTorch 中，张量的自动微分功能是通过一个叫做自动微分（Automatic Differentiation，简称 AD）的系统实现的。自动微分是一种用于自动计算导数的技术，它在机器学习和深度学习中扮演着核心角色，特别是在神经网络的训练过程中计算梯度时。

1、基本原理

在 PyTorch 中，每个 torch.Tensor 对象都有一个 requires_grad 属性；如果设置为 True，PyTorch 会跟踪所有对该张量的操作。当完成计算后，你可以调用 .backward() 来自动计算所有梯度，这些梯度会累积到相应张量的 .grad 属性中。

2、梯度计算过程

当你对一个输出张量执行 .backward() 时，PyTorch 会进行如下步骤：

反向传播：从输出张量开始，反向遍历整个操作图（计算图），计算每个节点的梯度。
链式法则：自动应用链式法则计算梯度。
累积梯度：对于那些有多个子节点的张量（在图中被多次引用），梯度会累积，而不是被替换。

3、示例：基于 PyTorch 的自动微分

让我们通过一个简单的例子来看看 PyTorch 如何实现自动微分：

import torch

# 创建一个张量，并设置requires_grad=True来追踪与它相关的计算
x = torch.tensor([1.0, 2.0, 3.0], requires_grad=True)

# 定义张量上的操作
y = x * x  # y = x^2 ，逐元素乘法得 tensor[1.0,4.0,9.0]
z = y.mean()  # z = 1/3 * sum(x^2)

# 计算z关于x的梯度
z.backward()

# 打印梯度 dz/dx
print(x.grad)

逐元素乘法：张量的基础运算
在这个例子中，x 是一个具有三个元素的张量，我们对它应用平方操作得到 y，然后对 y 取均值得到 z。调用 z.backward() 后，x 的梯度将存储在 x.grad 中。

输出将是：

tensor([0.6667, 1.3333, 2.0000])

这个梯度实际上是函数 $\frac{1}{3} \sum x^2$ 在 $x = [1.0, 2.0, 3.0]$ 处的导数。

在 梯度下降法 反向传播中，如果 x 是模型中的一个可训练的权重参数，并且我们已经计算出了损失函数关于 x 的梯度（x.grad），那么在权重更新阶段，x 会按照以下方式更新：
$\leftarrow x - \text{学习率} \times x.\text{grad}$
在梯度上升法中区别是加号。

a.示例详解

示例包括以下步骤：

张量创建：x = torch.tensor([1.0, 2.0, 3.0], requires_grad=True)
应用操作：y = x * x (即 $y = x^2$ )
计算均值：z = y.mean() (即 $\frac{1}{3} \sum x^2$ )

当我们调用 z.backward() 时，计算图会反向传递梯度，使用链式法则计算关于每个节点的梯度。

b.梯度计算过程

初始化：梯度 dz/dz 初始化为 1。
从 z 到 y：应用链式法则，计算 dz/dy。由于 $\frac{1}{3} \sum y$ ，有 dz/dy = [1/3, 1/3, 1/3]。
从 y 到 x：继续使用链式法则，计算 dy/dx。由于 y = x^2，有 dy/dx = 2x。所以在 x = [1.0, 2.0, 3.0] 处，我们得到 dy/dx = [2*1.0, 2*2.0, 2*3.0] = [2, 4, 6]。
组合：结合这些，得到 dz/dx = dz/dy * dy/dx = [1/3, 1/3, 1/3] * [2, 4, 6] = [2/3, 4/3, 6/3] = [0.6667, 1.3333, 2.0000]。

c.可视化计算图

import torchviz
import torch
x = torch.tensor([1.0, 2.0, 3.0], requires_grad=True)
y = x * x
z = y.mean()
z.backward()

torchviz.make_dot(z, params={'x': x, 'y': y, 'z': z})

这将生成一个图形，清晰地表示了计算图中的各个节点以及它们之间的依赖关系。这对于理解复杂的神经网络结构非常有帮助。
安装 Graphviz

x (3): 这是一个有 3 个元素的一维张量 [1.0, 2.0, 3.0]，作为计算图的输入。它的形状是 $(3)$ ，代表有 3 个元素。
AccumulateGrad: 这表示梯度累积节点。由于 x 被创建为 requires_grad=True，所以 PyTorch 会追踪它的梯度。当 z.backward() 被调用时，PyTorch 会计算 z 相对于 x 的梯度，并将这些梯度累积（即累加）到 x 的 .grad 属性中。
MulBackward0: 这是一个反向传播操作，表示 y = x * x 操作的梯度计算。MulBackward0 是 PyTorch 自动为乘法操作分配的反向传播函数。
MeanBackward0: 类似地，这是 z = y.mean() 的反向传播操作。MeanBackward0 计算 z 相对于 y 的梯度。
z (): 这是计算图的最终输出。z 是 y 张量的平均值。由于 z 是一个标量（即它只有一个元素），所以它的形状为空（()）。

箭头显示了数据和梯度的流向。当调用 z.backward() 时，PyTorch 会沿着这些箭头的方向逆向传播梯度，从 z 开始，通过 MeanBackward0 和 MulBackward0，最后到达 x 并在 AccumulateGrad 节点处累积梯度。

4、总结

总的来说，一般输出通过最终的损失函数来反向计算梯度。梯度实际上就是进行链式法则求偏导得到对应点的值，这个梯度可以根据学习率大小用来更新权重。

以上的实际上，我们可以把z看作损失函数（不管意义是啥），x看作可训练的权重参数，然后反向传播z对x求梯度，最后得到了每个x值的梯度值（求法在之前有介绍，就是一个链式法则求某个点的导数而已），然后更新x，可以简略认为是一个神经网络的反向传播过程。
$\frac{1}{3} \sum x^2$
$\leftarrow x - \text{学习率} \times x.\text{grad}$

二、为什么要计算损失，为何是对的？

留给后人。（）

原文地址：https://blog.csdn.net/m0_63997099/article/details/137913112

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：uniapp 连接夜神安卓模拟器真机调试
下一篇：uniapp中vue写微信小程序的生命周期差别

leetcode289:生命游戏
根据，简称为，是英国数学家约翰·何顿·康威在 1970 年发明的细胞自动机。给定一个包含m × n个格子的面板，每一个格子都可以看成是一个细胞。每个细胞都具有一个初始状态：1即为（live），或0即为
阅读更多2024-10-20
MongoDB数据恢复
注意：两个MongoDB的版本要一致，本文使用的是mongo:4.2.24。先把K8S上面的MongoDB 容器停止（可以把副本改成0）。1、将容器挂载MongoDB的数据目录备份到本地。经常是数据文
阅读更多2024-10-20
C#中实现事务
C#中实现事务
阅读更多2024-10-20
【LeetCode每日一题】——560.和为 K 的子数组
给你一个整数数组 nums 和一个整数 k ，请你统计并返回该数组中和为 k 的子数组的个数。子数组是数组中元素的连续非空序列。
阅读更多2024-10-20
「漏洞复现」满客宝智慧食堂系统 selectUserByOrgId 未授权访问漏洞
请勿利用文章内的相关技术从事非法测试，由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失，均由使用者本人负责，作者不为此承担任何责任。工具来自网络，安全性自测，如有侵权请联系删除。本次
阅读更多2024-10-20
React面试题目（从基本到高级）
React前端面试常见题目涵盖了React的基础概念、组件、状态管理、生命周期、性能优化等多个方面。
阅读更多2024-10-20
12.个人博客系统（Java项目基于spring和vue）
1 在校学习的学生，可用于日常学习使用或是毕业设计使用 2 毕业一到两年的开发人员，用于锻炼自己的独立功能模块设计能力，增强代码编写能力。 3 亦可以部署为商化项目使用。 4 需要完整资料及源码
阅读更多2024-10-20
YoloV8改进策略：注意力改进|DeBiFormer，可变形双级路由注意力|引入DeBiLevelRoutingAttention注意力模块（全网首发）
本次改进的核心在于将DeBiLevelRoutingAttention模块嵌入到YoloV8的主干网络中，具体位置是在SPPF（Spatial Pyramid Pooling Fast）模块之后。这一
阅读更多2024-10-20
word取消自动单词首字母大写
情况说明：在word输入单词后首字母会自动变成大写取消单词首字母大写步骤：（1）点击菜单栏文件（2）点击“更多”——>“选项”（3）点击“校对”——>“自动更正选项”（4）取消“句首字母大
阅读更多2024-10-20
web前端网页用户注册页面
【代码】web前端网页用户注册页面。
阅读更多2024-10-20