【深度学习基础】预备知识 | 自动微分

🕗 发布于 2024-12-08 06:10 深度学习 人工智能 pytorch 自动微分

在这里插入图片描述

【作者主页】Francek Chen
【专栏介绍】 $⌈$ PyTorch深度学习 $⌋$ 深度学习 (DL, Deep Learning) 特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上，结合当代大数据和大算力的发展而发展出来的。深度学习最重要的技术特征是具有自动提取特征的能力。神经网络算法、算力和数据是开展深度学习的三要素。深度学习在计算机视觉、自然语言处理、多模态数据分析、科学探索等领域都取得了很多成果。本专栏介绍基于PyTorch的深度学习算法实现。
【GitCode】专栏资源保存在我的GitCode仓库：https://gitcode.com/Morse_Chen/PyTorch_deep_learning。

文章目录

正如【深度学习基础】预备知识 | 微积分中所说，求导是几乎所有深度学习优化算法的关键步骤。虽然求导的计算很简单，只需要一些基本的微积分。但对于复杂的模型，手工进行更新是一件很痛苦的事情（而且经常容易出错）。

深度学习框架通过自动计算导数，即自动微分（automatic differentiation）来加快求导。实际中，根据设计好的模型，系统会构建一个计算图（computational graph），来跟踪计算是哪些数据通过哪些操作组合起来产生输出。自动微分使系统能够随后反向传播梯度。这里，反向传播（backpropagate）意味着跟踪整个计算图，填充关于每个参数的偏导数。

一、一个简单的例子

作为一个演示例子，假设我们想对函数 $y=2\mathbf{x}^{\top}\mathbf{x}$ 关于列向量 $\mathbf{x}$ 求导。首先，我们创建变量x并为其分配一个初始值。

import torch

x = torch.arange(4.0)
x

在这里插入图片描述

在我们计算 $y$ 关于 $\mathbf{x}$ 的梯度之前，需要一个地方来存储梯度。重要的是，我们不会在每次对一个参数求导时都分配新的内存。因为我们经常会成千上万次地更新相同的参数，每次都分配新的内存可能很快就会将内存耗尽。注意，一个标量函数关于向量 $\mathbf{x}$ 的梯度是向量，并且与 $\mathbf{x}$ 具有相同的形状。

x.requires_grad_(True)  # 等价于x=torch.arange(4.0,requires_grad=True)
x.grad  # 默认值是None

现在计算 $y$ 。

y = 2 * torch.dot(x, x)
y

在这里插入图片描述

x是一个长度为4的向量，计算x和x的点积，得到了我们赋值给y的标量输出。接下来，通过调用反向传播函数来自动计算y关于x每个分量的梯度，并打印这些梯度。

y.backward()
x.grad

在这里插入图片描述

函数 $y=2\mathbf{x}^{\top}\mathbf{x}$ 关于 $\mathbf{x}$ 的梯度应为 $4\mathbf{x}$ 。让我们快速验证这个梯度是否计算正确。

x.grad == 4 * x

在这里插入图片描述

现在计算x的另一个函数。

# 在默认情况下，PyTorch会累积梯度，我们需要清除之前的值
x.grad.zero_()
y = x.sum()
y.backward()
x.grad

在这里插入图片描述

二、非标量变量的反向传播

当y不是标量时，向量y关于向量x的导数的最自然解释是一个矩阵。对于高阶和高维的y和x，求导的结果可以是一个高阶张量。

然而，虽然这些更奇特的对象确实出现在高级机器学习中（包括深度学习中），但当调用向量的反向计算时，我们通常会试图计算一批训练样本中每个组成部分的损失函数的导数。这里，我们的目的不是计算微分矩阵，而是单独计算批量中每个样本的偏导数之和。

# 对非标量调用backward需要传入一个gradient参数，该参数指定微分函数关于self的梯度。
# 本例只想求偏导数的和，所以传递一个1的梯度是合适的
x.grad.zero_()
y = x * x
# 等价于y.backward(torch.ones(len(x)))
y.sum().backward()
x.grad

在这里插入图片描述

三、分离计算

有时，我们希望将某些计算移动到记录的计算图之外。例如，假设y是作为x的函数计算的，而z则是作为y和x的函数计算的。想象一下，我们想计算z关于x的梯度，但由于某种原因，希望将y视为一个常数，并且只考虑到x在y被计算后发挥的作用。

这里可以分离y来返回一个新变量u，该变量与y具有相同的值，但丢弃计算图中如何计算y的任何信息。换句话说，梯度不会向后流经u到x。因此，下面的反向传播函数计算z=u*x关于x的偏导数，同时将u作为常数处理，而不是z=x*x*x关于x的偏导数。

x.grad.zero_()
y = x * x
u = y.detach()
z = u * x

z.sum().backward()
x.grad == u

在这里插入图片描述

由于记录了y的计算结果，我们可以随后在y上调用反向传播，得到y=x*x关于的x的导数，即2*x。

x.grad.zero_()
y.sum().backward()
x.grad == 2 * x

在这里插入图片描述

四、Python控制流的梯度计算

使用自动微分的一个好处是：即使构建函数的计算图需要通过Python控制流（例如，条件、循环或任意函数调用），我们仍然可以计算得到的变量的梯度。在下面的代码中，while循环的迭代次数和if语句的结果都取决于输入a的值。

def f(a):
    b = a * 2
    while b.norm() < 1000:
        b = b * 2
    if b.sum() > 0:
        c = b
    else:
        c = 100 * b
    return c

让我们来计算梯度。

a = torch.randn(size=(), requires_grad=True)
d = f(a)
d.backward()

我们现在可以分析上面定义的f函数。请注意，它在其输入a中是分段线性的。换言之，对于任何a，存在某个常量标量k，使得f(a)=k*a，其中k的值取决于输入a，因此可以用d/a验证梯度是否正确。

a.grad == d / a

在这里插入图片描述

小结

深度学习框架可以自动计算导数：我们首先将梯度附加到想要对其计算偏导数的变量上，然后记录目标值的计算，执行它的反向传播函数，并访问得到的梯度。

原文地址：https://blog.csdn.net/Morse_Chen/article/details/144288612

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Python连接和操作Elasticsearch详细指南
下一篇：Windows版Docker上不了网怎么办？

【SpringMVC】REST 风格
REST（Representational State Transfer，表现形式状态转换）是一种访问网络资源的格式。
阅读更多2024-12-29
机器学习基本概念，基本步骤，分类，简单理解，线性模型
机器学习基本概念，基本步骤，分类，简单理解，线性模型
阅读更多2024-12-29
AndroidStudio Ladybug中编译完成apk之后定制名字kts复制到指定目录
翻了一遍网上基本上都是Groovy编写，但是项目刚好切换到kts了，之前Groovy代码用不了。编译完release版本后复制apk到特定目录，apk文件名字符合自己的需求，例如增加版本号，版本名字。
阅读更多2024-12-29
高斯核函数（深入浅出）
高斯核函数（深入浅出）
阅读更多2024-12-29
CSS基础入门【2】
● class和id的区别class用于css的，id用于js的。1）class页面上可以重复。id页面上唯一，不能重复。2）一个标签可以有多个class，用空格隔开。但是id只能有id。● 选择器说
阅读更多2024-12-29
Debian-linux运维-ssh配置（兼容Jenkins插件的ssh连接公钥类型）
系统版本：Debian 12.5、11.1。服务器初始化后先配置ssh。
阅读更多2024-12-29
NLP 中文拼写检测纠正论文 Automatic-Corpus-Generation
大家好，我是老马。下面学习整理一些其他优秀小伙伴的设计、论文和开源实现。中文拼写检查（CSC）是一项具有挑战性但意义重大的任务，它不仅在许多自然语言处理（NLP）应用中作为预处理步骤，而且在日常生活中
阅读更多2024-12-29
总结一下本次使用docker部署遇到的问题
1.文件上传建议不要直接存储到本地，可以用云存储服，之所以这次放在本地，是觉着方便点，项目部署异常麻烦，安全性也不高，要是服务器挂了，网站可以重新部署，但是数据可能就全丢失了，听说minio是开源免费
阅读更多2024-12-29
“宠物服务的跨平台整合”：多设备宠物服务平台的实现
开发的程序面向用户的只是程序的功能界面，让用户操作程序界面的各个功能，那么很多人就会问，用户使用程序功能生成的数据信息放在哪里的？SSH框架是属于重量级别的框架，配置繁琐，不够灵活，修改程序需要修改好
阅读更多2024-12-29
【Halcon】例程讲解：基于形状匹配与OCR的多图像处理（附图像、程序下载链接）
利用HALCON实现了形状匹配和OCR识别的自动化流程，通过定义感兴趣区域（ROI）创建形状模型，对多张输入图像进行目标定位与对齐，并提取文本信息。程序采用模块化设计，包含初始化、ROI定义、模型创建
阅读更多2024-12-29

【深度学习基础】预备知识 | 自动微分

文章目录

一、一个简单的例子

二、非标量变量的反向传播

三、分离计算

四、Python控制流的梯度计算

小结

相关文章