【深度学习】模型参数冻结：原理、应用与实践

🕗 发布于 2024-11-14 00:29 深度学习 人工智能

在深度学习领域，模型参数冻结是一种重要的技术手段，它在模型训练和优化过程中有着广泛的应用。本文将详细介绍模型参数冻结的相关概念、应用场景、在代码中的实现方式以及一些实际的案例分析。

一、模型参数冻结的概念

在深度学习模型的训练过程中，模型的参数会根据输入数据和损失函数，通过反向传播算法不断更新，以使得模型能够更好地拟合数据。然而，模型参数冻结则是将模型中的某些参数设置为不可训练的状态。具体而言，在训练过程中，这些被冻结的参数不会参与梯度计算，其值保持固定，不会随着训练的进行而改变。

二、模型参数冻结的应用场景

（一）迁移学习

原理
迁移学习利用在大规模数据集上预训练好的模型，将其应用于新的、数据量可能相对较小的特定任务中。在这个过程中，预训练模型已经学习到了丰富的通用特征，如在自然语言处理中，预训练模型（如 BERT）已经对语言的语法、语义等有了很好的理解。
冻结参数的好处
- 防止过拟合：新的任务数据集往往较小，如果对整个预训练模型进行训练，很容易导致过拟合。通过冻结预训练模型的大部分参数，只对新添加的用于特定任务的层（如针对新任务的分类层）进行训练，可以利用预训练模型中已经学到的通用知识，同时避免模型在小数据集上过度调整参数，从而减少过拟合的风险。
- 加快训练速度：计算梯度和更新大量参数需要消耗大量的计算资源和时间。冻结大部分参数意味着在反向传播过程中，不需要为这些参数计算梯度，从而大大减少了计算量，加快了训练速度。

（二）模型微调

原理
当模型已经在某个数据集上训练好，但需要应用于一个与原任务相似但又有一些差异的新任务时，会进行微调。例如，已经训练好的图像分类模型，现在要对其进行微调以适应新的图像类别。
冻结参数的好处
- 保留已有知识：模型在之前的训练中已经学习到了一些有效的特征表示。通过冻结部分参数，可以保留这些已经学到的知识，避免在调整过程中破坏原有的良好特征。
- 针对性调整：只对与新任务相关的部分参数进行更新，可以使模型更有针对性地适应新任务的要求。比如，在微调图像分类模型时，可能只需要调整最后几层的参数，因为前面的层已经学习到了图像的通用特征（如边缘、纹理等），而最后几层更关注于类别相关的特征。

三、在代码中的实现方式（以 PaddlePaddle 为例）

（一）基本的参数冻结操作

在 PaddlePaddle 中，模型的参数都有一个 stop_gradient 属性。当我们想要冻结某个参数时，只需将这个属性设置为 True。以下是一个简单的示例，展示了如何冻结一个线性层的权重参数：

import paddle
import paddle.nn as nn

# 创建一个线性层
linear = nn.Linear(10, 10)
# 获取线性层的权重参数
param = linear.weight
# 冻结权重参数
param.stop_gradient = True

（二）遍历模型冻结多个参数

在实际的模型中，可能需要冻结多个参数，甚至是整个模型的部分层的所有参数。以下是一个遍历模型参数并冻结指定层参数的示例。假设我们有一个自定义的模型类，它包含多个层：

import paddle
import paddle.nn as nn

class MyModel(nn.Layer):
    def __init__(self):
        super(MyModel, self).__init__()
        self.fc1 = nn.Linear(100, 50)
        self.fc2 = nn.Linear(50, 10)

    def forward(self, x):
        x = self.fc1(x)
        x = self.fc2(x)
        return x

model = MyModel()

# 冻结fc1层的参数
for name, param in model.named_parameters():
    if 'fc1' in name:
        param.stop_gradient = True

在上述代码中，我们通过遍历模型的参数，根据参数的名称判断是否属于要冻结的层（这里是 fc1 层），然后将其 stop_gradient 属性设置为 True。

四、案例分析

（一）自然语言处理中的文本分类任务

假设我们要进行一个情感分析任务，使用一个预训练的语言模型（如ERNIE）。我们加载预训练的 ERNIE 模型，并在其基础上添加一个简单的分类层用于判断文本的情感是积极还是消极。

import paddle
from paddlenlp.transformers import ErnieModel
from paddle.nn import functional as F
import paddle.nn as nn

# 加载预训练的ERNIE模型
ernie = ErnieModel.from_pretrained('ernie')
# 冻结ERNIE模型的参数
for param in ernie.parameters():
    param.stop_gradient = True

# 添加用于情感分类的层
classifier = nn.Linear(ernie.config["hidden_size"], 2)

def forward(self, input_ids, token_type_ids, attention_mask):
    outputs = ernie(input_ids, token_type_ids, attention_mask)
    pooled_output = outputs[1]  # 获取[CLS]标记的输出
    logits = classifier(pooled_output)
    return logits

在这个案例中，通过冻结 ERNIE 模型的参数，我们利用了 ERNIE 在大规模文本数据上学习到的语言知识，只训练新添加的分类层，这样可以在较小的情感分析数据集上快速训练出一个有效的模型，同时减少过拟合的可能性。

（二）计算机视觉中的图像识别微调

假设我们已经有一个在 ImageNet 数据集上训练好的 ResNet 模型，现在要将其应用于一个新的图像识别任务，比如识别特定种类的花朵。

import paddle
import paddle.nn as nn
from paddle.vision.models import resnet50

# 加载预训练的ResNet50模型
model = resnet50(pretrained=True)

# 冻结前面大部分层的参数
for name, param in model.named_parameters():
    if 'layer4' not in name:  # 这里假设只调整最后一层（layer4）的参数
        param.stop_gradient = True

# 修改最后一层以适应新的类别数量
num_classes = 10  # 假设新的花朵类别有10种
model.fc = nn.Linear(model.fc.in_features, num_classes)

在这个案例中，我们冻结了 ResNet50 模型除最后一层之外的所有参数，因为前面的层已经学习到了图像的通用特征。然后我们修改最后一层（全连接层 fc）的输出维度以适应新的花朵类别数量，这样在微调过程中，模型可以在新的花朵图像数据集上快速适应，同时保留了在 ImageNet 数据集上学到的图像特征知识。

总之，模型参数冻结是深度学习中一种非常实用的技术，它在迁移学习、模型微调等场景中发挥了重要作用，可以帮助我们更好地利用已有的模型和数据，提高模型训练的效率和效果。合理地使用参数冻结技术，可以根据具体的任务和数据情况，优化模型的训练过程，避免过拟合，加快训练速度，并充分利用预训练模型所蕴含的知识。

原文地址：https://blog.csdn.net/qq_41767061/article/details/143753953

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Linux_调试器-gdb/cgdb的使用
下一篇：SwiftUI 高级开发教程系列 - 第 2 章：组合视图与修饰符

Linux便捷查询使用手册第十二章：虚拟化与容器
虚拟化是指在单一硬件平台上运行多个虚拟计算机（虚拟机），每个虚拟机可以运行不同的操作系统和应用程序。虚拟化通过抽象物理硬件资源，使其能够在多个虚拟环境中共享。容器是轻量级的虚拟化技术，通过将应用及其依
阅读更多2024-11-16
Javaweb-day11案例（文件）
文件上传前端页面三要素1.在form表单中，要定义一个表单项，类型为file2.表单的提交方式必须得是POST方式下面是讲义里面的内容补充上传文件的原始form表单，要求表单必须具备以下三点（上传文件
阅读更多2024-11-16
深入理解 Linux top命令：用法详解与使用示例
linux topu命令界面各项介绍和一些组合命令介绍。
阅读更多2024-11-16
二叉树Golang
二叉树，深度优先搜索，广度优先搜索
阅读更多2024-11-16
Linux篇（权限管理命令）
在多用户计算机系统的管理中，权限是指某个特定的用户具有特定的系统资源使用权利在Linux 中分别有读、写、执行权限：权限针对文件权限针对目录读r表示可以查看文件内容；cat表示可以(ls)查看目录中存
阅读更多2024-11-16
【代码随想录day30】【C++复健】452. 用最少数量的箭引爆气球；435. 无重叠区间；763. 划分字母区间
而这也这是我想复杂的地方。
阅读更多2024-11-16
mysql存储过程模拟数据批量生成的函数模板
下面是个模板，需要自己。
阅读更多2024-11-16
使用 PyAnsys 在 Ansys 随机振动分析中检索螺栓连接中的力和应力
随机振动模拟通常用于评估组件承受运输过程中振动的能力。随机振动分析利用先前模态分析的频率和模式内容对通过功率谱密度 (PSD) 负载定义的频谱和功率内容进行线性叠加。在大多数装配模型中，螺栓连接（由求
阅读更多2024-11-16
C语言之MakeFile
定义: 变量名=变量值使用:取值;${变量名}或$(变量名)拼接:变量名+=值注意:1,makefile变量名可以以数字开头2,变量的大小是敏感的3,变量一般都在makefile的头部定义4,变量几乎
阅读更多2024-11-16
动态规划 —— 子数组系列-最大子数组和
53. 最大子数组和 - 力扣（LeetCode）
阅读更多2024-11-16