Matlab多输入单输出之倾斜手写数字识别

🕗 发布于 2024-11-21 22:47 matlab 开发语言

本文主要介绍使用matlab构建多输入单输出的网络架构，来实现倾斜的手写数字识别，使用concatenationLayer来拼接特征，实现网络输入多个特征。

1.加载训练数据

加载数据：手写数字的图像、真实数字标签和数字顺时针旋转的角度。

load DigitsDataTrain

网络的输入数据类型需要是datastore，使用 arrayDatastore 将三个普通矩阵变为datastore，最后再使用combine合并。

dsX1Train = arrayDatastore(XTrain,IterationDimension=4);
dsX2Train = arrayDatastore(anglesTrain);
dsTTrain = arrayDatastore(labelsTrain);
dsTrain = combine(dsX1Train,dsX2Train,dsTTrain);

显示20个随机训练图像：

numObservationsTrain = numel(labelsTrain);
idx = randperm(numObservationsTrain,20);

figure
tiledlayout("flow");
for i = 1:numel(idx)
    nexttile
    imshow(XTrain(:,:,:,idx(i)))
    title("Angle: " + anglesTrain(idx(i)))
end

2.设计网络架构

设计如下的网络结构：

对于图像输入，指定一个大小与输入数据匹配的图像输入层。
对于特征输入，指定一个大小与输入特征数量匹配的特征输入层。
对于图像输入分支，进行卷积、批归一化和ReLU层块，其中卷积层有16个5×5滤波器。
为了将批归一化层的输出转换为特征向量，需要用一个大小为50的全连接层。
要将第一个全连接层的输出与特征输入连接起来，使用flatten layer将全连接层中的 "SSCB" （空间、空间、通道、批处理）输出展平，使其具有 "CB" 格式。
沿第一维度（channel维度）将平坦层的输出与特征输入连接起来
对于分类输出，包括一个输出大小与类数匹配的全连接层，然后是softmax层。

创建一个空的神经网络：

net = dlnetwork;

创建一个网络主分支，并将其添加到网络中：

[h,w,numChannels,numObservations] = size(XTrain);
numFeatures = 1;
classNames = categories(labelsTrain);
numClasses = numel(classNames);

imageInputSize = [h w numChannels];
filterSize = 5;
numFilters = 16;

layers = [
    imageInputLayer(imageInputSize,Normalization="none")
    convolution2dLayer(filterSize,numFilters)
    batchNormalizationLayer
    reluLayer
    fullyConnectedLayer(50)
    flattenLayer
    concatenationLayer(1,2,Name="cat")
    fullyConnectedLayer(numClasses)
    softmaxLayer];

net = addLayers(net,layers);

将feature input layer添加到网络中，并将其连接到 concatenation layer的第二个输入：

featInput = featureInputLayer(numFeatures,Name="features");
net = addLayers(net,featInput);
net = connectLayers(net,"features","cat/in2");

在绘图中可视化网络：

figure
plot(net)

3.训练网络

使用SGDM优化器进行训练，训练15个epochs，以0.01的学习率进行训练，在图表中显示训练进度并监控accuracy指标，不显示详细输出。

options = trainingOptions("sgdm", ...
    MaxEpochs=15, ...
    InitialLearnRate=0.01, ...
    Plots="training-progress", ...
    Metrics="accuracy", ...
    Verbose=0);

使用 trainnet 函数训练神经网络，对于分类使用交叉熵损失。

net = trainnet(dsTrain,net,"crossentropy",options);

4.测试网络

通过将测试集上的预测与真实标签进行比较来测试网络的分类准确性，加载测试数据：

load DigitsDataTest

使用 minibatchpredict 函数进行预测，并使用 scores2label 函数将分数转换为标签。

scores = minibatchpredict(net,XTest,anglesTest);
YTest = scores2label(scores,classNames);

在混淆图中可视化预测：

figure
confusionchart(labelsTest,YTest)

评估分类准确性：

accuracy = mean(YTest == labelsTest)

accuracy = 0.9878

查看一些预测的图像：

idx = randperm(size(XTest,4),9);
figure
tiledlayout(3,3)
for i = 1:9
    nexttile
    I = XTest(:,:,:,idx(i));
    imshow(I)

    label = string(YTest(idx(i)));
    title("Predicted Label: " + label)
end

5.不用角度特征训练和测试网络

% 网络设计
net_without_feature = dlnetwork;
layers = [
    imageInputLayer(imageInputSize,Normalization="none")
    convolution2dLayer(filterSize,numFilters)
    batchNormalizationLayer
    reluLayer
    fullyConnectedLayer(numClasses)
    softmaxLayer];

net_without_feature = addLayers(net_without_feature,layers);
% 网络训练
options = trainingOptions("sgdm", ...
    MaxEpochs=15, ...
    InitialLearnRate=0.01, ...
    Plots="training-progress", ...
    Metrics="accuracy", ...
    Verbose=0);

dsTrain_without_feature = combine(dsX1Train,dsTTrain);

net_without_feature = trainnet(dsTrain_without_feature,net_without_feature,"crossentropy",options);

% 在混淆矩阵中可视化预测。
scores = minibatchpredict(net_without_feature,XTest);
YTest = scores2label(scores,classNames);
figure
confusionchart(labelsTest,YTest)

% 评估分类准确性。
accuracy = mean(YTest == labelsTest)

accuracy = 0.9858

原文地址：https://blog.csdn.net/2401_88845856/article/details/143835924

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：vue数据变化但页面不变
下一篇：matlab 反距离插值 IDW

Leetcode 完全二叉树的节点个数
根据完全二叉树和满二叉树的性质做。
阅读更多2024-11-22
Spring Boot核心概念：日志管理
日志记录是软件开发的重要组成部分，它帮助开发人员了解应用程序运行时的状态，以及在故障排查和性能监控时提供关键信息。Spring Boot通过提供默认的日志配置，简化了日志管理。
阅读更多2024-11-22
IDEA：2023版远程服务器debug
很简单，但是很多文档没有写清楚，wocao。六、开放服务器的5005端口，七、启动idea中的调试程序。一、首先新建一个远程jvm。三、把上面的参数复制出来。四、然后把这串代码放到。
阅读更多2024-11-22
【网站推荐】the top trending open-source startups, every quarter
Snapshot of ROSS Index featuring top open-source startups by GitHub stars growth of their repositori
阅读更多2024-11-22
JavaEE 线程安全
什么是线程安全问题？很直观的说，就是一段代码，在单线程的环境下没有问题，但是在多线程的环境下却出现了问题，我们则可称这段代码存在线程安全问题
阅读更多2024-11-22
springboot实战(15)(注解@JsonFormat(pattern=“?“)、@JsonIgnore)
本篇博客是关于springboot实战学习时遇到的一些注解和方法展开简单讨论。其中包括JSON序列化时（Java对象转换成对应JSON格式数据）用到的注解@JsonIgnore（保证重要数据隐私性）、
阅读更多2024-11-22
编程语言的演变与未来趋势：探索技术的无限可能
在21世纪的科技洪流中，编程作为连接数字世界与现实世界的桥梁，正以前所未有的速度推动着社会进步与创新。从最初的机器语言到汇编语言，再到如今的高级编程语言，编程语言的演变不仅见证了计算机科学的飞跃，也深
阅读更多2024-11-22
【Linux】Linux之yum的使用
介绍了yum install/list/remove 知道了yum的整个生态服务器是谁提供的他为什么能提供软件是谁提供的下载的时候yum在哪下载 yum源是什么如何修改yum源的配置文件
阅读更多2024-11-22
常见的端口漏洞及常见网络安全设备默认口令
互联网中的各种服务一般都对应一个默认端口，有的服务可直接匿名访问服务，而有些可通过爆破用户名以及密码来获得管理员权限。4848 GlassFish 弱口令admin/adm
阅读更多2024-11-22
多线程并发造成的数据重复问题解决方案参考(笔记记录)
需要补充的关键点：当NULL值会导致索引失效、查询不命中或者业务规则不一致时，应该补充默认值。无需补充的关键点：如果NULL值在业务中是有效状态，且不会导致功能性问题，可以保留。最佳实践：补充历史数据
阅读更多2024-11-22