【机器学习】多层神经网络中的误差反向传播算法与过拟合抑制技术的比较与优化

🕗 发布于 2024-11-26 15:57 机器学习 神经网络算法

引言

本节我们简单的介绍一下多层神经网络，以及其中在误差反向传播算法或者过拟合抑制技术的一些应用与实战~~~

多层神经网络概述

多层神经网络（MLP）是深度学习中的一种基础模型，由多个线性和非线性变换层组成。网络的每一层都由多个神经元组成，每个神经元接收前一层输出的加权和，并通过激活函数进行非线性转换

在Python中，我们可以使用深度学习框架（如PyTorch）来快速实现一个多层神经网络。下面是一个简单的多层感知机模型：

import torch
import torch.nn as nn
import torch.optim as optim

# 定义一个简单的多层感知机（MLP）模型
class MLP(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(MLP, self).__init__()
        self.fc1 = nn.Linear(input_size, hidden_size)  # 输入到隐藏层的全连接
        self.fc2 = nn.Linear(hidden_size, output_size)  # 隐藏层到输出层的全连接
        self.relu = nn.ReLU()  # 激活函数

    def forward(self, x):
        x = self.relu(self.fc1(x))  # 前向传播
        x = self.fc2(x)
        return x

# 实例化模型
model = MLP(input_size=784, hidden_size=128, output_size=10)
print(model)

在上面的代码中，input_size表示输入层的神经元数量（例如，MNIST数据集中的每个图像有784个像素），hidden_size是隐藏层神经元的数量，而output_size是输出层的神经元数量（对于分类问题，通常是类别的个数）

三层感知机的误差反向传播

三层感知机由输入层、一个隐藏层和输出层组成。它通过训练数据来调整网络中每个神经元的权重，使得最终输出尽可能接近真实值。误差反向传播（Backpropagation）是训练神经网络的重要算法，它用于计算每个神经元的误差并反向传播至网络中，逐层更新权重。

在三层感知机中，误差反向传播的主要步骤包括：

前向传播：通过输入层传递数据到输出层，计算网络的预测输出。
计算误差：通过损失函数计算输出层的误差。
反向传播误差：从输出层向输入层传播误差，计算各层的误差梯度。
更新权重：使用误差梯度和学习率来更新网络中的权重。

在PyTorch中，误差反向传播和梯度更新是自动完成的。以下是一个训练三层感知机的简单示例：

# 导入必要的模块
import torch.nn.functional as F
from torch.utils.data import DataLoader
from torchvision import datasets, transforms

# 定义训练过程
def train(model, device, train_loader, optimizer, epoch):
    model.train()
    for batch_idx, (data, target) in enumerate(train_loader):
        data, target = data.view(-1, 784).to(device), target.to(device)

        # 清除之前的梯度
        optimizer.zero_grad()

        # 前向传播
        output = model(data)

        # 计算损失
        loss = F.cross_entropy(output, target)

        # 反向传播
        loss.backward()

        # 更新权重
        optimizer.step()

        if batch_idx % 100 == 0:
            print(f'Train Epoch: {epoch} [{batch_idx * len(data)}/{len(train_loader.dataset)} ({100. * batch_idx / len(train_loader):.0f}%)]\tLoss: {loss.item():.6f}')

# 设定设备和数据加载
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
train_loader = DataLoader(
    datasets.MNIST('.', train=True, download=True, transform=transforms.ToTensor()),
    batch_size=64, shuffle=True
)

# 初始化模型和优化器
model = MLP(input_size=784, hidden_size=128, output_size=10).to(device)
optimizer = optim.SGD(model.parameters(), lr=0.01)

# 训练模型
for epoch in range(1, 5):
    train(model, device, train_loader, optimizer, epoch)

在这段代码中，模型使用交叉熵损失函数（cross_entropy），并通过反向传播（loss.backward()）和优化器（optimizer.step()）更新权重。

误差反向传播学习算法

误差反向传播学习算法是一种监督学习算法，它通过梯度下降法更新神经网络的权重。其关键步骤如下：

初始化权重：首先，随机初始化神经网络的权重和偏置项。
前向传播：将输入数据传递到网络中，通过激活函数计算各层的输出。
计算损失：根据预测输出和实际标签计算损失（如均方误差、交叉熵等）。
反向传播误差：计算输出层到输入层的每一层的误差梯度。
梯度下降更新权重：通过学习率调整权重，使得损失函数最小化。

反向传播算法的核心是利用链式法则计算梯度，并通过逐层的更新权重来减少网络的预测误差。

# 手动计算梯度并更新权重（简化版示例）

# 假设我们有一个损失函数和一个优化器
for epoch in range(10):
    for data, target in train_loader:
        data, target = data.view(-1, 784).to(device), target.to(device)

        # 清除之前的梯度
        optimizer.zero_grad()

        # 前向传播
        output = model(data)

        # 计算损失
        loss = F.cross_entropy(output, target)

        # 反向传播
        loss.backward()

        # 手动更新权重
        with torch.no_grad():
            for param in model.parameters():
                param -= 0.01 * param.grad  # 简单的梯度下降更新

在这里，loss.backward()会计算梯度，而param -= 0.01 * param.grad是一个简单的手动梯度下降过程，通常我们使用优化器来管理这一过程。

多层神经网络常用损失函数

损失函数是神经网络训练过程中用来评估预测结果与真实值之间差异的函数。常见的损失函数有：

均方误差（MSE, Mean Squared Error）：主要用于回归问题，计算预测值与真实值之间的平方差。

$\frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2$
交叉熵（Cross Entropy）：常用于分类问题，尤其是二分类和多分类任务，衡量实际标签与预测概率之间的差异。

对于二分类任务，交叉熵损失函数如下：
$$
\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2

$$

对于多分类任务，交叉熵损失函数为：
$\hat{y}) = - \sum_{i=1}^{C} y_i \log(\hat{y}_i)$
Hinge损失（Hinge Loss）：主要用于支持向量机（SVM）等分类模型，计算样本距离分隔超平面的距离。

$\max(0, 1 - y \cdot \hat{y})$

多层神经网络常用的损失函数包括均方误差（MSE）和交叉熵（Cross-Entropy）。在分类问题中，交叉熵通常是首选的损失函数。以下是两个常见损失函数的代码实现：

# 计算均方误差
mse_loss = nn.MSELoss()
output = model(data)
loss_mse = mse_loss(output, target)

# 计算交叉熵损失
cross_entropy_loss = nn.CrossEntropyLoss()
loss_ce = cross_entropy_loss(output, target)

在分类任务中，通常使用交叉熵损失；而在回归任务中，均方误差损失函数更为常见。

多层神经网络常用优化算法

常用的优化算法有梯度下降（SGD）、动量法（Momentum）、Adam等。在PyTorch中，我们可以轻松选择优化算法并进行训练。

# 使用SGD优化器
optimizer_sgd = optim.SGD(model.parameters(), lr=0.01)

# 使用Adam优化器
optimizer_adam = optim.Adam(model.parameters(), lr=0.001)

# 训练时使用Adam
for epoch in range(5):
    train(model, device, train_loader, optimizer_adam, epoch)

Adam优化器是目前最流行的优化器之一，它结合了动量法和自适应学习率方法，能够更快地收敛。

多层神经网络中过拟合的抑制

为了避免多层神经网络过拟合，可以使用正则化、Dropout、数据增强等方法。以下是常见的技术实现：

L2 正则化

# L2 正则化
optimizer = optim.SGD(model.parameters(), lr=0.01, weight_decay=0.001)

Dropout

class MLPWithDropout(nn.Module):
    def __init__(self, input_size, hidden_size, output_size, dropout_prob=0.5):
        super(MLPWithDropout, self).__init__()
        self.fc1 = nn.Linear(input_size, hidden_size)
        self.fc2 = nn.Linear(hidden_size, output_size)
        self.relu = nn.ReLU()
        self.dropout = nn.Dropout(p=dropout_prob)

    def forward(self, x):
        x = self.relu(self.fc1(x))
        x = self.dropout(x)  # 应用 Dropout
        x = self.fc2(x)
        return x

提前停止（Early Stopping）

# PyTorch中没有直接支持提前停止，但可以通过监控验证损失来实现
best_loss = float('inf')
patience = 5
patience_counter = 0

for epoch in range(50):
    # 训练模型
    train(model, device, train_loader, optimizer, epoch)
    
    # 验证损失
    val_loss = validate(model, val_loader)
    
    if val_loss < best_loss:
        best_loss = val_loss
        patience_counter = 0  # 重置计数器
    else:
        patience_counter += 1
        
    if patience_counter >= patience:
        print("提前停止训练")
        break

总结

多层神经网络通过多层的线性和非线性变换，可以拟合复杂的函数，广泛应用于分类、回归等任务。通过误差反向传播算法，神经网络可以高效地训练模型，并优化其参数。为了避免过拟合，我们可以使用正则化、Dropout和提前停止等技术，上面这些技术都是属于机器学习神经网络的一些常见的小技巧

请添加图片描述

原文地址：https://blog.csdn.net/null18/article/details/144022342

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：基于Matlab的图像去噪算法仿真（二）
下一篇：【MySQL】红黑树详解

移动充储机器人“小奥”的多场景应用（上）
此外，“小奥”在设计上还考虑了环境适应性，它能够在各种天气条件下稳定工作，无论是炎热的夏季还是寒冷的冬季，都能保证充电服务的连续性和可靠性。它采用的充电技术减少了对电网的冲击，优化了能源的使用效率，有
阅读更多2024-11-26
day07（单片机高级）继电器模块绘制
继电器模块绘制
阅读更多2024-11-26
react函数式组件中的路由传参方式
useParamsstateNavigate路由传参。React Router 提供了多种方式来传递和获取路由参数。
阅读更多2024-11-26
MySQL中的锁与优化SQL查询性能
MySQL作为一种高效、稳定、易用的开源关系型数据库管理系统（RDBMS），在大数据量和高并发的场景中，其性能优化显得尤为重要。锁机制和SQL查询优化是MySQL性能调优的两个关键方面。本文将详细探讨
阅读更多2024-11-26
Cesium教程06_材质设置
cesium设置材质
阅读更多2024-11-26
Three.js CSS2D/CSS3D渲染器
CSS2DRenderer 渲染器用于在 3D 场景中渲染纯 2D 的 HTML 元素。这些元素不会具有 3D 透视效果，但可以与 3D 对象一起移动和旋转，非常适合用于标签、注释等需要固定显示的内容
阅读更多2024-11-26
【过滤器】一文了解 .NET Core 中各种 Filter
ASP.NET Core中，Filter（过滤器）是一种强大的机制，允许你在请求处理管道中的特定阶段运行代码。这些过滤器提供了在请求的不同阶段执行逻辑的能力，比如授权、日志记录、异常处理等。ASP.N
阅读更多2024-11-26
人工智能-深度学习-Torch框架-手动构建回归流程
导入函数，用于生成回归数据集。: 导入math模块，用于进行数学计算，例如向上取整。: 导入random模块，用于随机打乱数据集。: 导入torch库，用于张量操作和神经网络训练。
阅读更多2024-11-26
android 11添加切换分屏功能
自Android 7开始官方就支持分屏显示，但没有切换分屏的功能，即交换上下屏幕。直到Android 13开始才支持切换分屏，操作方式是：分屏模式下双击中间分割线就会交换上下屏位置。本文的目的就是在A
阅读更多2024-11-26
高防服务器HOT：网络安全的无形盾牌，护航业务稳定
高防服务器通过卓越的防护能力，为企业筑起一道坚实的安全屏障，不仅能保障业务稳定，更能为企业争取宝贵的声誉和客户信赖。高防服务器不仅能够提供强大的抗攻击能力，还兼具高性能网络和低延迟特性，广泛应用于对网
阅读更多2024-11-26