模型训练中出现loss为NaN怎么办？

🕗 发布于 2024-07-21 19:04 深度学习 梯度爆炸梯度消失模型训练

在这里插入图片描述

文章目录

一、模型训练中出现loss为NaN原因
二、针对梯度消失或爆炸的解决方案
三、更具体的办法
- 3.1 可能导致梯度爆炸的部分
- 3.2 解决方案

一、模型训练中出现loss为NaN原因

1. 学习率过高

在训练的某个阶段，学习率可能设置得过高，导致模型参数更新幅度过大，甚至可能出现数值不稳定的情况。你可以尝试降低学习率，并观察训练过程中的变化。

2. 梯度消失或爆炸

如果模型的某些层出现梯度消失或爆炸的问题，可能会导致loss变得异常低。你可以检查梯度的大小，确保它们在合理范围内。

3. 数据不平衡或异常

训练数据中可能存在异常值或分布不平衡的情况，导致模型在某些批次的训练过程中出现异常。你可以检查数据集，确保数据质量。

4. 模型不稳定

模型架构或训练过程中的某些设置可能导致不稳定，比如过深的网络、过复杂的模型等。你可以尝试简化模型架构或添加正则化项。

5. 过拟合

模型可能在某些阶段已经过拟合到训练数据上，导致训练loss异常低而验证loss较高。你可以通过早停法（early stopping）、正则化、数据增强等方法来缓解过拟合问题。
解决方法

调节学习率：适当降低学习率，观察训练过程中的变化。
检查梯度：通过torch.autograd检查梯度的大小，确保没有出现梯度消失或爆炸。
数据检查：确保数据集没有异常值或分布不平衡的情况。
模型架构：简化模型架构，增加正则化项，如L2正则化、dropout等。
验证集监控：通过监控验证集的loss和指标，防止过拟合。\

二、针对梯度消失或爆炸的解决方案

使用 torch.autograd.detect_anomaly() 和相关工具确实可以帮助你检测和排除训练过程中出现的梯度问题。以下是如何在你的代码中使用这些工具来检测异常和可视化梯度的示例。

1. 使用`torch.autograd.detect_anomaly()`

这个函数可以帮助检测反向传播过程中出现的异常，并输出具体的错误信息和位置。

import torch

# 定义模型
model = MyModel()

# 定义损失函数和优化器
criterion = torch.nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

# 输入数据
inputs = torch.randn(56, 1024, 28, 28)
targets = torch.randint(0, 10, (56,))

# 在训练过程中使用 detect_anomaly
with torch.autograd.detect_anomaly():
    outputs = model(inputs)
    loss = criterion(outputs, targets)
    loss.backward()
    optimizer.step()

2. 使用 torchviz 可视化计算图

torchviz 是一个可以帮助你可视化计算图的工具，这对于调试复杂的模型非常有用。

首先，安装 torchviz：

pip install torchviz

然后，可以使用以下代码来生成和保存计算图：

from torchviz import make_dot

# 定义模型
model = MyModel()

# 输入数据
inputs = torch.randn(56, 1024, 28, 28)

# 获取模型输出
outputs = model(inputs)

# 创建计算图
dot = make_dot(outputs, params=dict(model.named_parameters()))

# 保存计算图
dot.format = 'png'
dot.render('model_graph')

3. 检查梯度的数值范围

你可以在每个训练步骤之后检查模型中各个参数的梯度，以确保梯度的数值范围正常。

# 定义模型
model = MyModel()

# 定义损失函数和优化器
criterion = torch.nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

# 输入数据
inputs = torch.randn(56, 1024, 28, 28)
targets = torch.randint(0, 10, (56,))

# 在训练过程中使用 detect_anomaly
with torch.autograd.detect_anomaly():
    outputs = model(inputs)
    loss = criterion(outputs, targets)
    loss.backward()

    # 检查梯度数值范围
    for name, param in model.named_parameters():
        if param.grad is not None:
            grad_min = param.grad.min().item()
            grad_max = param.grad.max().item()
            print(f'{name} - grad_min: {grad_min}, grad_max: {grad_max}')
    
    optimizer.step()

4. 调整梯度剪裁

在训练过程中，可以使用梯度剪裁来防止梯度爆炸。以下是如何在 PyTorch 中实现梯度剪裁的示例：

# 定义模型
model = MyModel()

# 定义损失函数和优化器
criterion = torch.nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

# 输入数据
inputs = torch.randn(56, 1024, 28, 28)
targets = torch.randint(0, 10, (56,))

# 在训练过程中使用 detect_anomaly
with torch.autograd.detect_anomaly():
    outputs = model(inputs)
    loss = criterion(outputs, targets)
    loss.backward()
    
    # 梯度剪裁
    torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)
    
    optimizer.step()

通过以上方法，可以更好地检测和调试训练过程中出现的梯度问题，提高模型的训练稳定性和效率。如果在使用过程中发现任何异常或需要进一步调试，请随时提供更多细节。

三、更具体的办法

3.1 可能导致梯度爆炸的部分

ReLU 激活函数的使用：激活函数可参考激活函数汇总
ReLU 是一种常见的激活函数，但如果输入有较大的正值，经过 ReLU 之后，这些值会直接传递下去，可能导致后续层的梯度爆炸。考虑使用其他激活函数，如 Leaky ReLU 或 SELU，它们在某些情况下对梯度更友好。
```
embedding_spatial_786 = torch.nn.functional.relu(embedding_spatial_786, inplace=True)
```
特征插值：
插值操作可能会生成较大的值，尤其是在上采样过程中。如果插值后的值过大，可能会导致梯度爆炸。
upsample_feat = F.interpolate(feat_high, scale_factor=2., mode=‘nearest’)
特征拼接：
多个特征拼接后，如果这些特征值过大，会导致拼接后的张量值过大，进而影响后续层的梯度。
```
inner_out = self.fpn_blocks[len(proj_feats) - 1 - idx](torch.concat([upsample_feat, feat_low], dim=1))
```
全连接层：
全连接层的权重初始化方式可能会导致梯度爆炸。确保使用了合适的初始化方法，如 Xavier 初始化或 He 初始化。
权重共享：
如果多个部分共享权重，需要确保这些共享权重不会导致梯度的累积效应。

3.2 解决方案

梯度剪裁：
在反向传播过程中使用梯度剪裁，可以防止梯度爆炸。你可以在 optimizer.step() 之前加上梯度剪裁。
```
torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)
```
使用更稳定的激活函数：
尝试使用 Leaky ReLU 或 SELU，它们在某些情况下对梯度更友好。

检查权重初始化：
确保所有层的权重初始化方式合理，避免初始值过大。

for m in model.modules():
    if isinstance(m, (nn.Conv2d, nn.Linear)):
        nn.init.kaiming_normal_(m.weight, mode='fan_out', nonlinearity='relu')

监控梯度值：
在每次反向传播后，监控梯度的值，确保梯度不会爆炸。

for name, param in model.named_parameters():
    if param.grad is not None:
        grad_min = param.grad.min().item()
        grad_max = param.grad.max().item()
        print(f'{name} - grad_min: {grad_min}, grad_max: {grad_max}')

Enjoy~

$_{One\ person\ go\ faster,\ a\ group\ of\ people\ can\ go\ further}\sim$

原文地址：https://blog.csdn.net/ThomasCai001/article/details/140523765

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：[CSS] 浮动布局的深入理解与应用
下一篇：生成式人工智能（AIGC）：在软件开发中的助手与变革

@Autowired 和 @Resource思考（注入redisTemplate时发现一些奇怪的现象）
@Autowired 和 @Resource思考（注入redisTemplate时发现一些奇怪的现象）
阅读更多2024-11-16
25浙江省考-28天学行测-Day5 & Day6-判断推理（中）
1、另有他因2、因果倒置3、否定此因4、根本原因5、三圈质疑1、排除他因2、四圈支持1、无论据有结论2、有论据有结论3、质疑论证过程4、严谨逻辑关系5、比例类论证1、解释说明2、增加论据3、断点
阅读更多2024-11-16
Rust 入门指南（零）：安装及 Cargo 管理器
系列第 0 篇，简单介绍了 Rust 的基本安装和配置流程，以及如何通过 Cargo 创建和管理项目。
阅读更多2024-11-16
Centos使用人大金仓ksql
Centos使用人大金仓ksql
阅读更多2024-11-16
多模态大模型简介
多模态大模型是机器学习领域的一个新兴趋势，它结合了文本、图像、音频等多种数据模态，以实现更全面和深入的信息理解和处理。这种模型能够处理跨模态任务，如图像标注、视觉问答、文本到图像的生成等，是人工智能领
阅读更多2024-11-16
javaScript交互补充2（动画函数封装）
如果多个元素都使用这个动画函数，每次都要var 声明定时器，我们可以给不同元素使用不同的定时器（自己用自己的定时器）核心原理：利用js是一门动态语言，可以很方便的给当前对象添加属性。缓动动画就是让元素
阅读更多2024-11-16
【鸿蒙开发】第十五章 H5与端侧交互、Cookies以及Web调试
Web组件支持在应用拦截到页面请求后自定义响应请求能力。开发者通过接口来实现自定义资源请求响应。自定义请求能力可以用于开发者自定义Web页面响应、自定义文件资源响应等场景。Web网页上发起资源加载请求
阅读更多2024-11-16
javaScript交互补充（元素的三大系列）
使用client系列的相关属性来获取元素可视区的相关信息，可以动态的得到该元素的边框大小，元素大小等。返回自身包括padding，内容区宽度，不含边框，返回数值不带单位。返回自身包括padding，内
阅读更多2024-11-16
django 过滤器的执行
默认情况下，会执行，特别是如果在中配置了它，或者没有禁用它。禁用过滤器：可以通过在APIView中设置来禁用过滤器，避免执行。手动调用过滤器：如果需要，你可以在视图中手动调用来过滤查询集。自定义过滤器
阅读更多2024-11-16
在Ubuntu 24.04 LTS上安装飞桨PaddleX
首先，请运行“ubuntu-drivers devices”命令列出当前可用的硬件设备，确保Ubuntu 24.04.1 LTS已发现安装在桌面计算机中的英伟达显卡，如下图所示。是基于飞桨框架构建的一
阅读更多2024-11-16