昇思25天学习打卡营第13天|应用实践之ResNet50迁移学习

🕗 发布于 2024-07-12 16:04 学习 人工智能 迁移学习

基本介绍

今日的应用实践的模型是计算机实践领域中十分出名的模型----ResNet模型。ResNet是一种残差网络结构，它通过引入“残差学习”的概念来解决随着网络深度增加时训练困难的问题，从而能够训练更深的网络结构。现很多网络极深的模型或多或少都受此影响。今日的主要任务是使用ResNet50进行迁移学习，所谓的迁移学习是不从头到尾训练一个模型，而是在一个特别大的数据集上面训练得到一个预训练模型，然后使用该模型的权重作为初始化参数，最后应用于特定的任务。对特定的任务来说也可以对模型进行训练，但是需要冻结模型的某些参数，一般只训练模型的分类器部分，不会训练特征提取部分。下面我们详细讲讲今日的应用实践。

数据集准备

本次使用的数据集是来自ImageNet数据集中抽取出来的狼狗数据集，每个类别大概有120张训练图像与30张验证图像，数据集可通过华为云OBS和相关API直接下载，然后进行加载。可借助MindSpore提供的API对数据集进行加载，同时，因为数据集在送入模型之前需做些处理，这些可封装到一个函数内，具体代码如下：

def create_dataset_canidae(dataset_path, usage):
    """数据加载"""
    data_set = ds.ImageFolderDataset(dataset_path,
                                     num_parallel_workers=workers,
                                     shuffle=True,)

    # 数据增强操作
    mean = [0.485 * 255, 0.456 * 255, 0.406 * 255]
    std = [0.229 * 255, 0.224 * 255, 0.225 * 255]
    scale = 32

    if usage == "train":
        # Define map operations for training dataset
        trans = [
            vision.RandomCropDecodeResize(size=image_size, scale=(0.08, 1.0), ratio=(0.75, 1.333)),
            vision.RandomHorizontalFlip(prob=0.5),
            vision.Normalize(mean=mean, std=std),
            vision.HWC2CHW()
        ]
    else:
        # Define map operations for inference dataset
        trans = [
            vision.Decode(),
            vision.Resize(image_size + scale),
            vision.CenterCrop(image_size),
            vision.Normalize(mean=mean, std=std),
            vision.HWC2CHW()
        ]


    # 数据映射操作
    data_set = data_set.map(
        operations=trans,
        input_columns='image',
        num_parallel_workers=workers)


    # 批量操作
    data_set = data_set.batch(batch_size)

    return data_set

通过上述操作后，我们可以很方便的调用数据集，无论是进行训练还是可视化，都可以。

模型搭建

准备好数据集后，自然就是进行模型搭建，ResNet50是一个非常常见的模型，具体模型结构和不同AI框架下的代码都很容易获取，MindSpore官方也有相关的实现代码，我们直接使用，模型的代码如下：

class ResNet(nn.Cell):
    def __init__(self, block: Type[Union[ResidualBlockBase, ResidualBlock]],
                 layer_nums: List[int], num_classes: int, input_channel: int) -> None:
        super(ResNet, self).__init__()

        self.relu = nn.ReLU()
        # 第一个卷积层，输入channel为3（彩色图像），输出channel为64
        self.conv1 = nn.Conv2d(3, 64, kernel_size=7, stride=2, weight_init=weight_init)
        self.norm = nn.BatchNorm2d(64)
        # 最大池化层，缩小图片的尺寸
        self.max_pool = nn.MaxPool2d(kernel_size=3, stride=2, pad_mode='same')
        # 各个残差网络结构块定义，
        self.layer1 = make_layer(64, block, 64, layer_nums[0])
        self.layer2 = make_layer(64 * block.expansion, block, 128, layer_nums[1], stride=2)
        self.layer3 = make_layer(128 * block.expansion, block, 256, layer_nums[2], stride=2)
        self.layer4 = make_layer(256 * block.expansion, block, 512, layer_nums[3], stride=2)
        # 平均池化层
        self.avg_pool = nn.AvgPool2d()
        # flattern层
        self.flatten = nn.Flatten()
        # 全连接层
        self.fc = nn.Dense(in_channels=input_channel, out_channels=num_classes)

    def construct(self, x):

        x = self.conv1(x)
        x = self.norm(x)
        x = self.relu(x)
        x = self.max_pool(x)

        x = self.layer1(x)
        x = self.layer2(x)
        x = self.layer3(x)
        x = self.layer4(x)

        x = self.avg_pool(x)
        x = self.flatten(x)
        x = self.fc(x)

        return x


def _resnet(model_url: str, block: Type[Union[ResidualBlockBase, ResidualBlock]],
            layers: List[int], num_classes: int, pretrained: bool, pretrianed_ckpt: str,
            input_channel: int):
    model = ResNet(block, layers, num_classes, input_channel)

    if pretrained:
        # 加载预训练模型
        download(url=model_url, path=pretrianed_ckpt, replace=True)
        param_dict = load_checkpoint(pretrianed_ckpt)
        load_param_into_net(model, param_dict)

    return model


def resnet50(num_classes: int = 1000, pretrained: bool = False):
    "ResNet50模型"
    resnet50_url = "https://mindspore-website.obs.cn-north-4.myhuaweicloud.com/notebook/models/application/resnet50_224_new.ckpt"
    resnet50_ckpt = "./LoadPretrainedModel/resnet50_224_new.ckpt"
    return _resnet(resnet50_url, ResidualBlock, [3, 4, 6, 3], num_classes,
                   pretrained, resnet50_ckpt, 2048)

训练模型

我们采用定特征进行训练，需要冻结除最后一层之外的所有网络层，最后一层其实就是一个分类层，前面是特征提取层，MindSpore可以通过设置 requires_grad == False 冻结参数，以便不在反向传播中计算梯度，具体代码如下：

import mindspore as ms
import matplotlib.pyplot as plt
import os
import time

net_work = resnet50(pretrained=True)

# 全连接层输入层的大小
in_channels = net_work.fc.in_channels
# 输出通道数大小为狼狗分类数2
head = nn.Dense(in_channels, 2)
# 重置全连接层
net_work.fc = head

# 平均池化层kernel size为7
avg_pool = nn.AvgPool2d(kernel_size=7)
# 重置平均池化层
net_work.avg_pool = avg_pool

# 冻结除最后一层外的所有参数
for param in net_work.get_parameters():
    if param.name not in ["fc.weight", "fc.bias"]:
        param.requires_grad = False

# 定义优化器和损失函数
opt = nn.Momentum(params=net_work.trainable_params(), learning_rate=lr, momentum=0.5)
loss_fn = nn.SoftmaxCrossEntropyWithLogits(sparse=True, reduction='mean')


def forward_fn(inputs, targets):
    logits = net_work(inputs)
    loss = loss_fn(logits, targets)

    return loss

grad_fn = ms.value_and_grad(forward_fn, None, opt.parameters)

def train_step(inputs, targets):
    loss, grads = grad_fn(inputs, targets)
    opt(grads)
    return loss

# 实例化模型
model1 = train.Model(net_work, loss_fn, opt, metrics={"Accuracy": train.Accuracy()})

一切准备妥当后，便可以进行训练，由于有预训练模型，模型的训练速度非常快，比从头到尾训练快了好几倍。训练了5轮，效果就非常好了：

模型可视化预测

有了训练好的模型，自然要看看训练得好不好，除了看评价指标，最直观的就是实际使用一下模型，由于这是图像分类任务，所以将其可视化。这一整个流程的代码如下：

def visualize_model(best_ckpt_path, val_ds):
    net = resnet50()
    # 全连接层输入层的大小
    in_channels = net.fc.in_channels
    # 输出通道数大小为狼狗分类数2
    head = nn.Dense(in_channels, 2)
    # 重置全连接层
    net.fc = head
    # 平均池化层kernel size为7
    avg_pool = nn.AvgPool2d(kernel_size=7)
    # 重置平均池化层
    net.avg_pool = avg_pool
    # 加载模型参数
    param_dict = ms.load_checkpoint(best_ckpt_path)
    ms.load_param_into_net(net, param_dict)
    model = train.Model(net)
    # 加载验证集的数据进行验证
    data = next(val_ds.create_dict_iterator())
    images = data["image"].asnumpy()
    labels = data["label"].asnumpy()
    class_name = {0: "dogs", 1: "wolves"}
    # 预测图像类别
    output = model.predict(ms.Tensor(data['image']))
    pred = np.argmax(output.asnumpy(), axis=1)

    # 显示图像及图像的预测值
    plt.figure(figsize=(5, 5))
    for i in range(4):
        plt.subplot(2, 2, i + 1)
        # 若预测正确，显示为蓝色；若预测错误，显示为红色
        color = 'blue' if pred[i] == labels[i] else 'red'
        plt.title('predict:{}'.format(class_name[pred[i]]), color=color)
        picture_show = np.transpose(images[i], (1, 2, 0))
        mean = np.array([0.485, 0.456, 0.406])
        std = np.array([0.229, 0.224, 0.225])
        picture_show = std * picture_show + mean
        picture_show = np.clip(picture_show, 0, 1)
        plt.imshow(picture_show)
        plt.axis('off')

    plt.show()

调用该函数后，可视化结果如下：可以看出还是很准的

Jupyter运行情况

原文地址：https://blog.csdn.net/m0_52501541/article/details/140237638

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：如何使用Github Page搭建个人网站【踩坑实录&多图预警】
下一篇：每天一个数据分析题（四百二十五）- 单因素方差分析

python识别ocr 图片和pdf文件
【代码】python识别ocr 图片和pdf文件。
阅读更多2024-11-07
Pr 视频过渡：沉浸式视频 - VR 光线
效果面板/视频过渡/沉浸式视频/VR 光线Video Transitions/Immersive Video/VR Light RaysVR 光线VR Light Rays是专门用于 VR 视频的过渡
阅读更多2024-11-07
作为一个前端开发者以什么步骤学习后端技术
作为一个前端开发者，学习后端技术可以按照以下步骤进行：
阅读更多2024-11-07
Node.js 模块详解
一个 Node.js 模块可以是一个函数库、类集合或其他可重用的代码，通常存储在一个或多个 .js 文件中。本地模块是你自己创建的 .js 文件，其中包含了你的应用程序所需的函数或类的定义。这些模块位
阅读更多2024-11-07
Node.js——fs模块-文件重命名和移动
本文主要介绍了Node.js中fs模块如何进行文件重命名和移动的方法，下一篇继续分享Node.js的fs模块进行文件删除的学习。
阅读更多2024-11-07
Linux
对网卡ens37添加一个子接口ens37:0，IP地址为6.6.6.6/8。永久修改主机名为xxx，并查看主机名信息。使用nmcli查看网络设备的UUID号。临时修改主机名为xxx，重启后失效。删除刚
阅读更多2024-11-07
OpenCV基础05_GUI和PyMsql
opencv基础；图片、视频处理；人脸图像采集&识别
阅读更多2024-11-07
【前端】如何在 JSX 中使用条件语句和循环
循环使用map方法而不是for循环。为每个生成的元素提供唯一的key属性。避免在map中进行复杂的计算。条件语句避免在 JSX 中使用复杂的条件逻辑。使用&&运算符时注意空值。避免在条
阅读更多2024-11-07
使用 Faster Whisper 和 Gradio 实现实时语音转文字
Faster Whisper 是一种高效的语音识别模型，其在准确性和性能上都表现出色。该模型基于先进的神经网络架构，能够高效处理实时音频输入并将其转化为文字。Faster Whisper 以其速度快、
阅读更多2024-11-07
ssm基于Web的汽车客运订票系统的设计与实现+vue
系统能否进行正常工作，功能模块能否实现，程序代码是否有错误，这些都需要通过系统测试来进行判断，测试是程序开发中必不可少的步骤，就算系统一步不差的被开发出来了，但进行测试时总能发现一个之前从没遇到过的问
阅读更多2024-11-07