自学内容网 自学内容网

【PyTorch入门】使用PyTorch构建一个简单的图像分类模型

本次分享一个简单的使用PyTorch进行图像分类模型搭建的小案例,让大家对PyTorch的流程有一个认知。

1. 导入必要的库

import torch
import torch.nn as nn
import torchvision
import numpy as np
from torch.autograd import Variable
import matplotlib.pyplot as plt
import torch.nn.functional as F
import torch.utils.data as Data
from torchvision import datasets, models, transforms

解释:

  • torch:用于构建深度学习模型的核心库。
  • torch.nn:提供神经网络相关的模块,如层、损失函数等。
  • torchvision:提供与计算机视觉相关的工具,尤其是常用数据集和预训练模型。
  • numpy:用于处理数组和进行数值计算。
  • matplotlib.pyplot:用于图像显示和绘图。
  • torch.autograd.Variable:用于在自动求导时跟踪张量
  • torch.nn.functional:包含神经网络常用的函数,如激活函数等。
  • torch.utils.data:数据加载工具,用于高效读取数据。

2. 设备设置和数据预处理

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"设备已设置为:{device}")

transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])

print("数据预处理已完成:将图像转换为Tensor并进行标准化。")

解释:

  • 使用 transforms.Compose() 将多个变换组合在一起。
  • transforms.ToTensor():将PIL图像或NumPy数组转换为PyTorch张量,并且自动将像素值从 [0, 255] 归一化到 [0, 1]。
  • transforms.Normalize(mean, std):标准化图像,使其每个通道的均值为0,标准差为1。这里的均值和标准差是 (0.5, 0.5, 0.5),即将每个通道的像素值从 [0, 1] 映射到 [-1, 1]。

3. 加载数据集

# 加载 CIFAR-10 数据集
trainset = torchvision.datasets.CIFAR10(root='./', train=True, download=False, transform=transform)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=4, shuffle=False, num_workers=4)

testset = torchvision.datasets.CIFAR10(root='./', train=False, download=True, transform=transform)
testloader = torch.utils.data.DataLoader(testset, batch_size=4, shuffle=True, num_workers=4)

# 定义类名
classes = ('plane', 'car', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck')

# 输出数据集信息
print("CIFAR-10 数据集加载完成。")
print(f"训练集样本数: {len(trainset)}")
print(f"测试集样本数: {len(testset)}")

# 显示几个样例图像
def imshow(img):
    img = img / 2 + 0.5  # 反标准化
    npimg = img.numpy()  # 转为NumPy格式
    plt.imshow(np.transpose(npimg, (1, 2, 0)))  # 转换维度以适应imshow显示
    plt.show()

# 获取训练数据中的一个batch
dataiter = iter(trainloader)
images, labels = next(dataiter)

# 输出真实标签
print('真实标签: ', ' '.join([f'{classes[labels[j]]:5s}' for j in range(4)]))

# 显示图像
imshow(torchvision.utils.make_grid(images))

输出:

Files already downloaded and verified
CIFAR-10 数据集加载完成。
训练集样本数: 50000
测试集样本数: 10000
真实标签:  frog  truck truck deer 

在这里插入图片描述
可以看到图像有青蛙,卡车和鹿。

代码详解:

  • 数据集加载与预处理:
    我们首先使用 torchvision.datasets.CIFAR10 加载 CIFAR-10 数据集,并应用了图像的标准化和转换(ToTensor)。
    数据集分为训练集和测试集,分别使用 trainloader 和 testloader 来加载。
  • 显示样例图像:
    我们定义了一个 imshow 函数,用于显示图像。在 imshow 函数中,图像会先进行反标准化操作(img / 2 + 0.5),然后将图像转换为 NumPy 数组,并调整维度以适应 matplotlib 的显示格式。
  • 输出真实标签:
    classes 中定义了 CIFAR-10 数据集的各个类标签。对于我们展示的每个样本,打印出它们的真实标签。
  • 展示图像:
    imshow 函数会展示一个 batch 的图像,torchvision.utils.make_grid 会将该 batch 中的图像拼接成一张大图进行展示。
    我们还输出了该 batch 中每个图像的真实标签。

4. 定义神经网络架构

class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = nn.Conv2d(3, 6, 5)
        self.pool = nn.MaxPool2d(2, 2)
        self.conv2 = nn.Conv2d(6, 16, 5)
        self.fc1 = nn.Linear(16 * 5 * 5, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)
        
    def forward(self, x):
        x = self.pool(F.relu(self.conv1(x)))
        x = self.pool(F.relu(self.conv2(x)))
        x = x.view(-1, 16 * 5 * 5)
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x

print("神经网络结构已定义:卷积层和全连接层。")

解释:

  • 定义一个简单的卷积神经网络 Net,继承自 nn.Module。
  • init 方法定义了网络的层:
  1. conv1 和 conv2 是卷积层,conv1 输入通道为3(RGB图像),输出通道为6,卷积核大小为5x5,conv2 的输入通道为6,输出通道为16。
  2. pool 是最大池化层,大小为2x2。
  3. fc1, fc2, fc3 是全连接层。
  • forward 方法定义了数据流动的顺序:
  1. 先通过卷积层和激活函数 ReLU,再经过池化层。
  2. 展平输出为全连接层的输入。
  3. 通过全连接层输出结果。

5. 初始化网络、定义损失函数和优化器

net = Net()
criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.SGD(net.parameters(), lr=0.001, momentum=0.9)
print(net)
print("损失函数和优化器已定义:交叉熵损失和SGD优化器。")

输出:

Net(
  (conv1): Conv2d(3, 6, kernel_size=(5, 5), stride=(1, 1))
  (pool): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  (conv2): Conv2d(6, 16, kernel_size=(5, 5), stride=(1, 1))
  (fc1): Linear(in_features=400, out_features=120, bias=True)
  (fc2): Linear(in_features=120, out_features=84, bias=True)
  (fc3): Linear(in_features=84, out_features=10, bias=True)
)
损失函数和优化器已定义:交叉熵损失和SGD优化器。
  • 初始化 Net 类实例 net。
  • criterion = nn.CrossEntropyLoss():交叉熵损失函数,适用于多分类问题。
  • optimizer = torch.optim.SGD(net.parameters(), lr=0.001, momentum=0.9):随机梯度下降优化器,学习率设置为0.001,动量为0.9

6.开始训练

nums_epoch = 2
print(f"开始训练,共训练 {nums_epoch} 轮。")

for epoch in range(nums_epoch):
    _loss = 0.0
    for i, (inputs, labels) in enumerate(trainloader, 0):
        inputs, labels = inputs.to(device), labels.to(device)
        optimizer.zero_grad()
        
        outputs = net(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()
        
        _loss += loss.item()
        if i % 3000 == 2999:  # 每3000个batch输出一次损失
            print(f"[{epoch + 1}, {i + 1}] 损失: {(_loss / 3000):.3f}")
            _loss = 0.0

print("训练完成。")

输出:

开始训练,共训练 2 轮。
[1, 3000] 损失: 2.138
[1, 6000] 损失: 1.740
[1, 9000] 损失: 1.582
[1, 12000] 损失: 1.501
[2, 3000] 损失: 1.428
[2, 6000] 损失: 1.381
[2, 9000] 损失: 1.333
[2, 12000] 损失: 1.301
训练完成。

解释:

  • 训练模型2个epoch(nums_epoch = 2)。
  • 遍历 trainloader 中的每个批次:
  • 将输入和标签数据传送到GPU或CPU。
  • 使用网络对输入进行前向传播,得到输出。
  • 计算损失函数,进行反向传播,更新参数。
  • 每3000个batch输出一次损失信息。

7. 显示图像并输出预测结果

def imshow(img):
    img = img / 2 + 0.5  # 反标准化
    npimg = img.numpy()  # 转为NumPy格式
    plt.imshow(np.transpose(npimg, (1, 2, 0)))  # 将图像维度调整为 (height, width, channels)
    plt.show()

dataiter = iter(testloader)
images, labels = next(dataiter)  # 使用next()获取数据
print("获取一个batch的测试图像和标签。图像形状:", images.shape)
imshow(torchvision.utils.make_grid(images))  # 显示图像
print('图像真实分类: ', ' '.join([f'{classes[labels[j]]:5s}' for j in range(4)]))

outputs = net(images.to(device))
_, predicted = torch.max(outputs, 1)

print('图像预测分类: ', ' '.join([f'{classes[predicted[j]]:5s}' for j in range(4)]))

输出:

获取一个batch的测试图像和标签。图像形状: torch.Size([4, 3, 32, 32])
图像真实分类:  cat   dog   cat   bird 
图像预测分类:  dog   dog   dog   dog 

在这里插入图片描述

解释:

  • 定义了一个 imshow() 函数来显示图像。
  • 使用 next(dataiter) 从 testloader 中获取一个batch的数据。
  • 输出该batch的图像形状(images.shape)以及图像本身。
  • 使用训练好的模型 net 对图像进行预测,并输出预测的分类标签。

8. 计算测试集准确率

correct, total = 0, 0
with torch.no_grad():
    for images, labels in testloader:
        images, labels = images.to(device), labels.to(device)
        outputs = net(images)
        _, predicted = torch.max(outputs, 1)
        total += labels.size(0)
        correct += (labels == predicted).sum().item()

accuracy = 100 * correct / total
print(f"测试集准确率: {accuracy:.2f}%")

使用 torch.no_grad() 禁止计算梯度,提高推理时的效率

本次分享就结束了


原文地址:https://blog.csdn.net/2302_79308082/article/details/145024413

免责声明:本站文章内容转载自网络资源,如侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!