Pytorch:张量的梯度计算
前向传播、反向传播教程:包含梯度计算理解
前馈神经网络:
- 前向传播:输入信号 输入模型计算 得到输出的过程
- 反向传播:将损失的梯度回传,传播误差,从而更新每层权重参数的过程。本质上是利用(求导的)链式法则,计算损失函数对所有参数的梯度。
- 新的权重 = 旧的权重 − 学习率 × 梯度 新的权重=旧的权重−学习率×梯度 新的权重=旧的权重−学习率×梯度
一、自动微分简单介绍
在 PyTorch 中,张量的自动微分功能是通过一个叫做自动微分(Automatic Differentiation,简称 AD)的系统实现的。自动微分是一种用于自动计算导数的技术,它在机器学习和深度学习中扮演着核心角色,特别是在神经网络的训练过程中计算梯度时。
1、基本原理
在 PyTorch 中,每个 torch.Tensor
对象都有一个 requires_grad
属性;如果设置为 True
,PyTorch 会跟踪所有对该张量的操作。当完成计算后,你可以调用 .backward()
来自动计算所有梯度,这些梯度会累积到相应张量的 .grad
属性中。
2、梯度计算过程
当你对一个输出张量执行 .backward()
时,PyTorch 会进行如下步骤:
- 反向传播:从输出张量开始,反向遍历整个操作图(计算图),计算每个节点的梯度。
- 链式法则:自动应用链式法则计算梯度。
- 累积梯度:对于那些有多个子节点的张量(在图中被多次引用),梯度会累积,而不是被替换。
3、示例:基于 PyTorch 的自动微分
让我们通过一个简单的例子来看看 PyTorch 如何实现自动微分:
import torch
# 创建一个张量,并设置requires_grad=True来追踪与它相关的计算
x = torch.tensor([1.0, 2.0, 3.0], requires_grad=True)
# 定义张量上的操作
y = x * x # y = x^2 ,逐元素乘法得 tensor[1.0,4.0,9.0]
z = y.mean() # z = 1/3 * sum(x^2)
# 计算z关于x的梯度
z.backward()
# 打印梯度 dz/dx
print(x.grad)
逐元素乘法:张量的基础运算
在这个例子中,x
是一个具有三个元素的张量,我们对它应用平方操作得到 y
,然后对 y
取均值得到 z
。调用 z.backward()
后,x 的梯度将存储在 x.grad
中。
输出将是:
tensor([0.6667, 1.3333, 2.0000])
这个梯度实际上是函数 z = 1 3 ∑ x 2 z = \frac{1}{3} \sum x^2 z=31∑x2 在 x = [ 1.0 , 2.0 , 3.0 ] x = [1.0, 2.0, 3.0] x=[1.0,2.0,3.0] 处的导数。
在 梯度下降法 反向传播中,如果 x
是模型中的一个可训练的权重参数,并且我们已经计算出了损失函数关于 x
的梯度(x.grad
),那么在权重更新阶段,x
会按照以下方式更新:
x
←
x
−
学习率
×
x
.
grad
x \leftarrow x - \text{学习率} \times x.\text{grad}
x←x−学习率×x.grad
在梯度上升法中 区别是加号。
a.示例详解
示例包括以下步骤:
- 张量创建:
x = torch.tensor([1.0, 2.0, 3.0], requires_grad=True)
- 应用操作:
y = x * x
(即 y = x 2 y = x^2 y=x2) - 计算均值:
z = y.mean()
(即 z = 1 3 ∑ x 2 z = \frac{1}{3} \sum x^2 z=31∑x2)
当我们调用 z.backward()
时,计算图会反向传递梯度,使用链式法则计算关于每个节点的梯度。
b.梯度计算过程
- 初始化:梯度
dz/dz
初始化为 1。 - 从 z 到 y:应用链式法则,计算
dz/dy
。由于 z = 1 3 ∑ y z = \frac{1}{3} \sum y z=31∑y,有dz/dy = [1/3, 1/3, 1/3]
。 - 从 y 到 x:继续使用链式法则,计算
dy/dx
。由于y = x^2
,有dy/dx = 2x
。所以在x = [1.0, 2.0, 3.0]
处,我们得到dy/dx = [2*1.0, 2*2.0, 2*3.0] = [2, 4, 6]
。 - 组合:结合这些,得到
dz/dx = dz/dy * dy/dx = [1/3, 1/3, 1/3] * [2, 4, 6] = [2/3, 4/3, 6/3] = [0.6667, 1.3333, 2.0000]
。
c.可视化计算图
import torchviz
import torch
x = torch.tensor([1.0, 2.0, 3.0], requires_grad=True)
y = x * x
z = y.mean()
z.backward()
torchviz.make_dot(z, params={'x': x, 'y': y, 'z': z})
-
x (3): 这是一个有 3 个元素的一维张量
[1.0, 2.0, 3.0]
,作为计算图的输入。它的形状是 ( 3 ) (3) (3),代表有 3 个元素。 -
AccumulateGrad: 这表示梯度累积节点。由于
x
被创建为requires_grad=True
,所以 PyTorch 会追踪它的梯度。当z.backward()
被调用时,PyTorch 会计算z
相对于x
的梯度,并将这些梯度累积(即累加)到x
的.grad
属性中。 -
MulBackward0: 这是一个反向传播操作,表示
y = x * x
操作的梯度计算。MulBackward0
是 PyTorch 自动为乘法操作分配的反向传播函数。 -
MeanBackward0: 类似地,这是
z = y.mean()
的反向传播操作。MeanBackward0
计算z
相对于y
的梯度。 -
z (): 这是计算图的最终输出。
z
是y
张量的平均值。由于z
是一个标量(即它只有一个元素),所以它的形状为空(()
)。
箭头显示了数据和梯度的流向。当调用 z.backward()
时,PyTorch 会沿着这些箭头的方向逆向传播梯度,从 z
开始,通过 MeanBackward0
和 MulBackward0
,最后到达 x
并在 AccumulateGrad
节点处累积梯度。
4、总结
总的来说,一般输出通过最终的损失函数来反向计算梯度。梯度实际上就是进行链式法则求偏导得到对应点的值,这个梯度可以根据学习率大小用来更新权重。
以上的实际上,我们可以把z
看作 损失函数(不管意义是啥),x
看作可训练的权重参数,然后反向传播z
对x
求梯度,最后得到了每个x
值的梯度值(求法在之前有介绍,就是一个链式法则求某个点的导数而已),然后更新x
,可以简略认为是一个神经网络的反向传播过程。
损失函数:
z
=
1
3
∑
x
2
损失函数:z = \frac{1}{3} \sum x^2
损失函数:z=31∑x2
反向传播更新:
x
←
x
−
学习率
×
x
.
grad
反向传播更新:x \leftarrow x - \text{学习率} \times x.\text{grad}
反向传播更新:x←x−学习率×x.grad
二、为什么要计算损失,为何是对的?
留给后人。()
原文地址:https://blog.csdn.net/m0_63997099/article/details/137913112
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!