【PyTorch入门】使用PyTorch构建一个简单的图像分类模型
本次分享一个简单的使用PyTorch进行图像分类模型搭建的小案例,让大家对PyTorch的流程有一个认知。
1. 导入必要的库
import torch
import torch.nn as nn
import torchvision
import numpy as np
from torch.autograd import Variable
import matplotlib.pyplot as plt
import torch.nn.functional as F
import torch.utils.data as Data
from torchvision import datasets, models, transforms
解释:
- torch:用于构建深度学习模型的核心库。
- torch.nn:提供神经网络相关的模块,如层、损失函数等。
- torchvision:提供与计算机视觉相关的工具,尤其是常用数据集和预训练模型。
- numpy:用于处理数组和进行数值计算。
- matplotlib.pyplot:用于图像显示和绘图。
- torch.autograd.Variable:用于在自动求导时跟踪张量
- torch.nn.functional:包含神经网络常用的函数,如激活函数等。
- torch.utils.data:数据加载工具,用于高效读取数据。
2. 设备设置和数据预处理
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"设备已设置为:{device}")
transform = transforms.Compose([
transforms.ToTensor(),
transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])
print("数据预处理已完成:将图像转换为Tensor并进行标准化。")
解释:
- 使用 transforms.Compose() 将多个变换组合在一起。
- transforms.ToTensor():将PIL图像或NumPy数组转换为PyTorch张量,并且自动将像素值从 [0, 255] 归一化到 [0, 1]。
- transforms.Normalize(mean, std):标准化图像,使其每个通道的均值为0,标准差为1。这里的均值和标准差是 (0.5, 0.5, 0.5),即将每个通道的像素值从 [0, 1] 映射到 [-1, 1]。
3. 加载数据集
# 加载 CIFAR-10 数据集
trainset = torchvision.datasets.CIFAR10(root='./', train=True, download=False, transform=transform)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=4, shuffle=False, num_workers=4)
testset = torchvision.datasets.CIFAR10(root='./', train=False, download=True, transform=transform)
testloader = torch.utils.data.DataLoader(testset, batch_size=4, shuffle=True, num_workers=4)
# 定义类名
classes = ('plane', 'car', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck')
# 输出数据集信息
print("CIFAR-10 数据集加载完成。")
print(f"训练集样本数: {len(trainset)}")
print(f"测试集样本数: {len(testset)}")
# 显示几个样例图像
def imshow(img):
img = img / 2 + 0.5 # 反标准化
npimg = img.numpy() # 转为NumPy格式
plt.imshow(np.transpose(npimg, (1, 2, 0))) # 转换维度以适应imshow显示
plt.show()
# 获取训练数据中的一个batch
dataiter = iter(trainloader)
images, labels = next(dataiter)
# 输出真实标签
print('真实标签: ', ' '.join([f'{classes[labels[j]]:5s}' for j in range(4)]))
# 显示图像
imshow(torchvision.utils.make_grid(images))
输出:
Files already downloaded and verified
CIFAR-10 数据集加载完成。
训练集样本数: 50000
测试集样本数: 10000
真实标签: frog truck truck deer
可以看到图像有青蛙,卡车和鹿。
代码详解:
- 数据集加载与预处理:
我们首先使用 torchvision.datasets.CIFAR10 加载 CIFAR-10 数据集,并应用了图像的标准化和转换(ToTensor)。
数据集分为训练集和测试集,分别使用 trainloader 和 testloader 来加载。 - 显示样例图像:
我们定义了一个 imshow 函数,用于显示图像。在 imshow 函数中,图像会先进行反标准化操作(img / 2 + 0.5),然后将图像转换为 NumPy 数组,并调整维度以适应 matplotlib 的显示格式。 - 输出真实标签:
classes 中定义了 CIFAR-10 数据集的各个类标签。对于我们展示的每个样本,打印出它们的真实标签。 - 展示图像:
imshow 函数会展示一个 batch 的图像,torchvision.utils.make_grid 会将该 batch 中的图像拼接成一张大图进行展示。
我们还输出了该 batch 中每个图像的真实标签。
4. 定义神经网络架构
class Net(nn.Module):
def __init__(self):
super(Net, self).__init__()
self.conv1 = nn.Conv2d(3, 6, 5)
self.pool = nn.MaxPool2d(2, 2)
self.conv2 = nn.Conv2d(6, 16, 5)
self.fc1 = nn.Linear(16 * 5 * 5, 120)
self.fc2 = nn.Linear(120, 84)
self.fc3 = nn.Linear(84, 10)
def forward(self, x):
x = self.pool(F.relu(self.conv1(x)))
x = self.pool(F.relu(self.conv2(x)))
x = x.view(-1, 16 * 5 * 5)
x = F.relu(self.fc1(x))
x = F.relu(self.fc2(x))
x = self.fc3(x)
return x
print("神经网络结构已定义:卷积层和全连接层。")
解释:
- 定义一个简单的卷积神经网络 Net,继承自 nn.Module。
- init 方法定义了网络的层:
- conv1 和 conv2 是卷积层,conv1 输入通道为3(RGB图像),输出通道为6,卷积核大小为5x5,conv2 的输入通道为6,输出通道为16。
- pool 是最大池化层,大小为2x2。
- fc1, fc2, fc3 是全连接层。
- forward 方法定义了数据流动的顺序:
- 先通过卷积层和激活函数 ReLU,再经过池化层。
- 展平输出为全连接层的输入。
- 通过全连接层输出结果。
5. 初始化网络、定义损失函数和优化器
net = Net()
criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.SGD(net.parameters(), lr=0.001, momentum=0.9)
print(net)
print("损失函数和优化器已定义:交叉熵损失和SGD优化器。")
输出:
Net(
(conv1): Conv2d(3, 6, kernel_size=(5, 5), stride=(1, 1))
(pool): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
(conv2): Conv2d(6, 16, kernel_size=(5, 5), stride=(1, 1))
(fc1): Linear(in_features=400, out_features=120, bias=True)
(fc2): Linear(in_features=120, out_features=84, bias=True)
(fc3): Linear(in_features=84, out_features=10, bias=True)
)
损失函数和优化器已定义:交叉熵损失和SGD优化器。
- 初始化 Net 类实例 net。
- criterion = nn.CrossEntropyLoss():交叉熵损失函数,适用于多分类问题。
- optimizer = torch.optim.SGD(net.parameters(), lr=0.001, momentum=0.9):随机梯度下降优化器,学习率设置为0.001,动量为0.9
6.开始训练
nums_epoch = 2
print(f"开始训练,共训练 {nums_epoch} 轮。")
for epoch in range(nums_epoch):
_loss = 0.0
for i, (inputs, labels) in enumerate(trainloader, 0):
inputs, labels = inputs.to(device), labels.to(device)
optimizer.zero_grad()
outputs = net(inputs)
loss = criterion(outputs, labels)
loss.backward()
optimizer.step()
_loss += loss.item()
if i % 3000 == 2999: # 每3000个batch输出一次损失
print(f"[{epoch + 1}, {i + 1}] 损失: {(_loss / 3000):.3f}")
_loss = 0.0
print("训练完成。")
输出:
开始训练,共训练 2 轮。
[1, 3000] 损失: 2.138
[1, 6000] 损失: 1.740
[1, 9000] 损失: 1.582
[1, 12000] 损失: 1.501
[2, 3000] 损失: 1.428
[2, 6000] 损失: 1.381
[2, 9000] 损失: 1.333
[2, 12000] 损失: 1.301
训练完成。
解释:
- 训练模型2个epoch(nums_epoch = 2)。
- 遍历 trainloader 中的每个批次:
- 将输入和标签数据传送到GPU或CPU。
- 使用网络对输入进行前向传播,得到输出。
- 计算损失函数,进行反向传播,更新参数。
- 每3000个batch输出一次损失信息。
7. 显示图像并输出预测结果
def imshow(img):
img = img / 2 + 0.5 # 反标准化
npimg = img.numpy() # 转为NumPy格式
plt.imshow(np.transpose(npimg, (1, 2, 0))) # 将图像维度调整为 (height, width, channels)
plt.show()
dataiter = iter(testloader)
images, labels = next(dataiter) # 使用next()获取数据
print("获取一个batch的测试图像和标签。图像形状:", images.shape)
imshow(torchvision.utils.make_grid(images)) # 显示图像
print('图像真实分类: ', ' '.join([f'{classes[labels[j]]:5s}' for j in range(4)]))
outputs = net(images.to(device))
_, predicted = torch.max(outputs, 1)
print('图像预测分类: ', ' '.join([f'{classes[predicted[j]]:5s}' for j in range(4)]))
输出:
获取一个batch的测试图像和标签。图像形状: torch.Size([4, 3, 32, 32])
图像真实分类: cat dog cat bird
图像预测分类: dog dog dog dog
解释:
- 定义了一个 imshow() 函数来显示图像。
- 使用 next(dataiter) 从 testloader 中获取一个batch的数据。
- 输出该batch的图像形状(images.shape)以及图像本身。
- 使用训练好的模型 net 对图像进行预测,并输出预测的分类标签。
8. 计算测试集准确率
correct, total = 0, 0
with torch.no_grad():
for images, labels in testloader:
images, labels = images.to(device), labels.to(device)
outputs = net(images)
_, predicted = torch.max(outputs, 1)
total += labels.size(0)
correct += (labels == predicted).sum().item()
accuracy = 100 * correct / total
print(f"测试集准确率: {accuracy:.2f}%")
使用 torch.no_grad() 禁止计算梯度,提高推理时的效率
本次分享就结束了
原文地址:https://blog.csdn.net/2302_79308082/article/details/145024413
免责声明:本站文章内容转载自网络资源,如侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!