pytorch register_buffer介绍

🕗 发布于 2024-11-12 07:58 pytorch 人工智能 python

在 PyTorch 中，register_buffer 是 nn.Module 类的一个方法，用于注册一个 buffer，即模型中需要持久保存但不参与梯度更新的张量。这些 buffer 常用于存储模型中的常数或其他固定值（如位置编码、均值、方差等），这些值在前向传播中会被用到但不会在训练中被优化更新。

`register_buffer` 的作用

保存和加载模型状态：通过 register_buffer 注册的张量会被包含在模型的 state_dict 中，这样它们会在模型保存时一起存储，在加载时恢复，保持模型完整性。
设备迁移：register_buffer 注册的张量会自动随模型一起移动到指定设备。例如，使用 model.to(device) 时，buffer 张量会被移动到 device，无需手动将它们转移到 CPU 或 GPU。
不参与反向传播和梯度更新：buffer 并不是 nn.Parameter，因此它不会参与反向传播，也不会被优化器更新。这对于存储常量值尤其适用。

使用方法

register_buffer 的语法如下：

register_buffer(name, tensor)

name：字符串，表示 buffer 的名称。该名称会在模型 state_dict 中作为键。
tensor：一个 torch.Tensor，表示要注册为 buffer 的张量。通常这个张量的 requires_grad 属性为 False。

示例

例如，在实现位置编码时，我们可以将其注册为一个 buffer：

import torch
import torch.nn as nn
import math

class PositionalEncoding(nn.Module):
    def __init__(self, d_model, max_len=5000):
        super(PositionalEncoding, self).__init__()

        # 初始化位置编码矩阵
        pe = torch.zeros(max_len, d_model)
        position = torch.arange(0, max_len).unsqueeze(1)
        div_term = torch.exp(torch.arange(0, d_model, 2) * -(math.log(10000.0) / d_model))
        pe[:, 0::2] = torch.sin(position * div_term)
        pe[:, 1::2] = torch.cos(position * div_term)
        pe = pe.unsqueeze(0)  # (1, max_len, d_model)

        # 将位置编码注册为 buffer
        self.register_buffer('pe', pe)

    def forward(self, x):
        x = x + self.pe[:, :x.size(1)]
        return x

在这个例子中：

self.register_buffer('pe', pe) 将 pe 注册为 buffer。这样，pe 在模型保存和加载时会自动包含在内。
pe 不会被优化器更新，不会参与反向传播，因此适合存储这种常量张量。
使用 model.to(device) 时，pe 会自动迁移到正确设备。

使用 `register_buffer` 的场景

register_buffer 常用于以下场景：

存储固定的模型参数：例如 BatchNorm 层的均值和方差。
存储计算所需的固定值：如位置编码、固定掩码或固定的权重。
用于设备无关性：在定义网络结构时，可以使用 buffer 来确保模型在 GPU 和 CPU 之间自由切换，不会遗漏关键的张量。

注意事项

不要将 buffer 误用为训练参数。如果某个张量需要被训练或优化，那么它应该是 nn.Parameter，而非 buffer。
命名冲突：buffer 的名字不能和模型已有的属性或方法重名，否则会导致错误。

使用 register_buffer 可以使模型结构更清晰、更易于维护，同时减少手动迁移张量的工作量。

原文地址：https://blog.csdn.net/qq_27390023/article/details/143695490

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：linux可执行文件添加到PATH环境变量的方法
下一篇：常用的损失函数pytorch实现

Java常用类之包装类
在Java中，包装类是一种将基本数据类型包装成对象的类。Java提供了8个包装类，分别对应8种基本数据类型。这些包装类提供了许多方法，可以方便地操作基本数据类型。包装类的主要作用是在需要使用对象的地方
阅读更多2024-11-14
机器学习基础03
K-Fold交叉验证技术中，整个数据集被划分为K个大小相同的部分。一个Fold被用作验证集，其余的K-1个Fold被用作训练集。K-近邻算法（K-Nearest Neighbors，简称KNN）,根据
阅读更多2024-11-14
使用Python抓取数据的实战指南
通过以上步骤，你已经掌握了使用Python进行基本数据抓取的方法。随着技术的深入，你还可以学习如何使用多线程、异步请求等技术来提高抓取效率，以及如何利用正则表达式、XPath等工具来更精确地提取数据。
阅读更多2024-11-14
安全升级，从漏洞扫描开始：专业级网络安全服务
为了有效应对这些挑战，漏洞扫描服务应运而生，它旨在通过全面、深入的扫描，识别并报告可能使企业面临风险的安全漏洞。本文将详细介绍一款高性价比的漏洞扫描服务，该服务不仅提供现场或远程扫描内网及外网IT资产
阅读更多2024-11-14
将python下载的依赖包传到没网的服务器
然而，有时我们需要在没有网络连接的机器上部署我们的代码，这就涉及到如何将Python下载的依赖包传输到没有网络连接的机器上的问题。将下载的依赖包传输到没有网络连接的机器上，可以使用各种传输工具，例如U
阅读更多2024-11-14
【重生之我要苦学C语言】深入理解指针5
回调函数就是一个如果你把函数的指针(地址)作为参数传递给另一个函数，当这个指针被用来调用其所指向的函数时，被调用的函数就是回调函数回调函数不是由该函数的实现方直接调用，而是在特定的事件或条件发生时由另
阅读更多2024-11-14
UniApp 应用、页面与组件的生命周期详解
本文将深入探讨uni-app中应用、页面与组件的生命周期，通过具体的示例来展示如何利用这些生命周期方法，以实现更高效、更优雅的应用开发。无论是初学者还是有经验的开发者，都能从中获得宝贵的知识和技巧，进
阅读更多2024-11-14
前端--＞ nginx--＞gateway产生的跨域问题分析
3、检查CorsFilter的顺序是否是filterChain第一位，如果不是，看他前面的filter是否可以通过。1、后台服务是否配置cors，或者添加CorsFilter。4、如果无法通过，检查n
阅读更多2024-11-14
力扣515：在每个树行中找最大值
力扣515：在每个树行中找最大值。C语言
阅读更多2024-11-14
【LeetCode】每日一题 2024_11_12 统计满足 K 约束的子字符串数量 I（滑动窗口）
【LeetCode】每日一题 2024_11_12 统计满足 K 约束的子字符串数量 I（滑动窗口）
阅读更多2024-11-14

pytorch register_buffer介绍

register_buffer 的作用

使用方法

示例

使用 register_buffer 的场景

注意事项

相关文章

`register_buffer` 的作用

使用 `register_buffer` 的场景