PyTorch求导相关

🕗 发布于 2024-11-11 07:17 pytorch 人工智能 python

PyTorch是动态图，即计算图的搭建和运算是同时的，随时可以输出结果；而TensorFlow是静态图。

在pytorch的计算图里只有两种元素：数据（tensor）和运算（operation）

运算包括了：加减乘除、开方、幂指对、三角函数等可求导运算

数据可分为：叶子节点（leaf node）和非叶子节点；叶子节点是用户创建的节点，不依赖其它节点；它们表现出来的区别在于反向传播结束之后，非叶子节点的梯度会被释放掉，只保留叶子节点的梯度，这样就节省了内存。如果想要保留非叶子节点的梯度，可以使用retain_grad()方法。

torch.tensor 具有如下属性：

查看是否可以求导 requires_grad
查看运算名称 grad_fn
查看是否为叶子节点 is_leaf
查看导数值 grad

针对requires_grad属性，自己定义的叶子节点默认为False，而非叶子节点默认为True，神经网络中的权重默认为True。判断哪些节点是True/False的一个原则就是从你需要求导的叶子节点到loss节点之间是一条可求导的通路。

当我们想要对某个Tensor变量求梯度时，需要先指定requires_grad属性为True，指定方式主要有两种：

x = torch.tensor(1.).requires_grad_() # 第一种

x = torch.tensor(1., requires_grad=True) # 第二种

PyTorch提供两种求梯度的方法：backward() and torch.autograd.grad() ，他们的区别在于前者是给叶子节点填充.grad字段，而后者是直接返回梯度给你，我会在后面举例说明。还需要知道y.backward()其实等同于torch.autograd.backward(y)

一个简单的求导例子是：y=(x+1)∗(x+2) ，计算 ∂y/∂x ，假设给定 x=2
先画出计算图

手算：∂y/∂x=(x+2)*1+(x+1)*1->7

使用`backward()`

x = torch.tensor(2., requires_grad=True)

a = torch.add(x, 1)
b = torch.add(x, 2)
y = torch.mul(a, b)

y.backward()
print(x.grad)
>>>tensor(7.)

看一下这几个tensor的属性

print("requires_grad: ", x.requires_grad, a.requires_grad, b.requires_grad, y.requires_grad)
print("is_leaf: ", x.is_leaf, a.is_leaf, b.is_leaf, y.is_leaf)
print("grad: ", x.grad, a.grad, b.grad, y.grad)

>>>requires_grad:  True True True True
>>>is_leaf:  True False False False
>>>grad:  tensor(7.) None None None

使用backward()函数反向传播计算tensor的梯度时，并不计算所有tensor的梯度，而是只计算满足这几个条件的tensor的梯度：1.类型为叶子节点、2.requires_grad=True、3.依赖该tensor的所有tensor的requires_grad=True。所有满足条件的变量梯度会自动保存到对应的grad属性里。

使用`autograd.grad()`

x = torch.tensor(2., requires_grad=True)

a = torch.add(x, 1)
b = torch.add(x, 2)
y = torch.mul(a, b)

grad = torch.autograd.grad(outputs=y, inputs=x)
print(grad[0])
>>>tensor(7.)

因为指定了输出y，输入x，所以返回值就是 ∂x/∂y 这一梯度，完整的返回值其实是一个元组，保留第一个元素就行，后面元素是

二阶求导

求一阶导可以用backward()

x = torch.tensor(2., requires_grad=True)
y = torch.tensor(3., requires_grad=True)

z = x * x * y

z.backward()
print(x.grad, y.grad)
>>>tensor(12.) tensor(4.)

也可以用autograd.grad()

x = torch.tensor(2.).requires_grad_()
y = torch.tensor(3.).requires_grad_()

z = x * x * y

grad_x = torch.autograd.grad(outputs=z, inputs=x)
print(grad_x[0])
>>>tensor(12.)

为什么不在这里面同时也求对y的导数呢？因为无论是backward还是autograd.grad在计算一次梯度后图就被释放了，如果想要保留，需要添加retain_graph=True

x = torch.tensor(2.).requires_grad_()
y = torch.tensor(3.).requires_grad_()

z = x * x * y

grad_x = torch.autograd.grad(outputs=z, inputs=x, retain_graph=True)
grad_y = torch.autograd.grad(outputs=z, inputs=y)

print(grad_x[0], grad_y[0])
>>>tensor(12.) tensor(4.)

再来看如何求高阶导，理论上其实是上面的grad_x再对x求梯度，试一下看

x = torch.tensor(2.).requires_grad_()
y = torch.tensor(3.).requires_grad_()

z = x * x * y

grad_x = torch.autograd.grad(outputs=z, inputs=x, retain_graph=True)
grad_xx = torch.autograd.grad(outputs=grad_x, inputs=x)

print(grad_xx[0])
>>>RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn

报错了，虽然retain_graph=True保留了计算图和中间变量梯度，但没有保存grad_x的运算方式，需要使用creat_graph=True在保留原图的基础上再建立额外的求导计算图，也就是会把 ∂z/∂x=2xy 这样的运算存下来

# autograd.grad() + autograd.grad()
x = torch.tensor(2.).requires_grad_()
y = torch.tensor(3.).requires_grad_()

z = x * x * y

grad_x = torch.autograd.grad(outputs=z, inputs=x, create_graph=True)
grad_xx = torch.autograd.grad(outputs=grad_x, inputs=x)

print(grad_xx[0])
>>>tensor(6.)

grad_xx这里也可以直接用backward()，相当于直接从 ∂z/∂x=2xy 开始回传

# autograd.grad() + backward()
x = torch.tensor(2.).requires_grad_()
y = torch.tensor(3.).requires_grad_()

z = x * x * y

grad = torch.autograd.grad(outputs=z, inputs=x, create_graph=True)
grad[0].backward()

print(x.grad)
>>>tensor(6.)

也可以先用backward()然后对x.grad这个一阶导继续求导

# backward() + autograd.grad()
x = torch.tensor(2.).requires_grad_()
y = torch.tensor(3.).requires_grad_()

z = x * x * y

z.backward(create_graph=True)
grad_xx = torch.autograd.grad(outputs=x.grad, inputs=x)

print(grad_xx[0])
>>>tensor(6.)

那是不是也可以直接用两次backward()呢？第二次直接x.grad从开始回传，我们试一下

# backward() + backward()
x = torch.tensor(2.).requires_grad_()
y = torch.tensor(3.).requires_grad_()

z = x * x * y

z.backward(create_graph=True) # x.grad = 12
x.grad.backward()

print(x.grad)
>>>tensor(18., grad_fn=<CopyBackwards>)

发现了问题，结果不是6，而是18，发现第一次回传时输出x梯度是12。这是因为PyTorch使用backward()时默认会累加梯度，需要手动把前一次的梯度清零

x = torch.tensor(2.).requires_grad_()
y = torch.tensor(3.).requires_grad_()

z = x * x * y

z.backward(create_graph=True)
x.grad.data.zero_()
x.grad.backward()

print(x.grad)
>>>tensor(6., grad_fn=<CopyBackwards>)

向量求导

有没有发现前面都是对标量求导，如果不是标量会怎么样呢？

x = torch.tensor([1., 2.]).requires_grad_()
y = x + 1

y.backward()
print(x.grad)
>>>RuntimeError: grad can be implicitly created only for scalar outputs

x = torch.tensor([1., 2.]).requires_grad_()
y = x * x

y.sum().backward()
print(x.grad)
>>>tensor([2., 4.])

原文地址：https://blog.csdn.net/m0_74724723/article/details/143193384

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：嵌入式硬件设计：技术与实践
下一篇：哥德巴赫猜想渐行渐远

Qt文件目录操作
QCoreApplication 是为无 GUI 应用程序提供事件循环的类，是所有应用程序类的基类，其子类 QGuiApplication 为有 GUI 界面的应用程序提供流控制和主要设定，QGuiA
阅读更多2024-11-16
从0开始深度学习（30）——语言模型和数据集
在上一节中，我们将文本数据映射为词元，并制作了词表。这一节我们将介绍语言模型和语言数据集。
阅读更多2024-11-16
git常用命令+搭vscode使用
4.或者基于分支git checkout origin/ 在本地master中重新拉取远程上的某个分支；然后从当前创建新的分支后推到远程（实现基于某个分支创建新分支）git fetch + git m
阅读更多2024-11-16
【阅读记录-章节2】Build a Large Language Model (From Scratch)
文本转换为数值向量（嵌入）嵌入是LLMs（大规模语言模型）处理文本数据的关键。因为LLMs不能直接处理原始文本数据，所以需要将文本转换为数值表示，这些数值表示就是嵌入。嵌入将离散数据（例如词语或图像）
阅读更多2024-11-16
Vue 3 条件渲染与列表渲染完整指南
本文详细介绍了 Vue 3 中的v-ifv-show和v-for指令的使用方法、适用场景、常见优化技巧和注意事项。在实际开发中，合理使用这些指令不仅可以提高代码的可读性，还能提升应用性能。掌握这些条件
阅读更多2024-11-16
接口文档的编写
（Application Programming Interface）即应用程序接口。可以认为 API 是一个软件组件或是一个 Web 服务与外界进行的交互的接口。目的是提供应用程序与开发人员基于某软
阅读更多2024-11-16
thinkphp增删查改例子
以上示例演示了如何使用ThinkPHP进行数据库的增删查改操作。您可以根据自己的需求对示例进行修改和扩展。
阅读更多2024-11-16
openai 论文Scaling Laws for Neural Language Models学习
最佳性能取决于作为幂律的总计算量 (参见等式(1.3)). 我们为方程提供了一些基本的理论动因(1.5)、对学习曲线拟合及其对训练时间的影响的分析，以及对每个 token 的结果的细分。传输性能随
阅读更多2024-11-16
0x00基础算法 -- 0x05 排序
离散化，中位数，第k大数，归排--逆序对
阅读更多2024-11-16
C#里实现日期比较
例如，刻度值为 3124137600000000L 表示星期五，0100 年 1 月 12 日 12：00：00 午夜。值 DateTime 类型表示日期和时间，其值范围从 00：00：00 （午夜）
阅读更多2024-11-16

PyTorch求导相关

使用backward()

使用autograd.grad()

二阶求导

向量求导

相关文章

使用`backward()`

使用`autograd.grad()`