使用深度学习集成模型进行乳腺癌组织病理学图像分类

🕗 发布于 2024-04-13 08:37 深度学习 分类 人工智能

基于预训练的VGG16和VGG19架构训练了四种不同的模型（即完全训练的 VGG16、微调的 VGG16、完全训练的 VGG19 和微调的 VGG19 模型）。最初，我们对所有单独的模型进行了5倍交叉验证操作。然后，我们采用集成策略，取预测概率的平均值，发现微调的 VGG16 和微调的 VGG19 的集成表现出有竞争力的分类性能，尤其是在癌症类别上。

交叉验证的基本思想是把在某种意义下将原始数据(dataset)进行分组，一部分做为训练集(train set)，另一部分做为验证集(validation set or test set)，首先用训练集对分类器进行训练，再利用验证集来测试训练得到的模型(model)，以此来做为评价分类器的性能指标。

乳房X线摄影、超声成像和磁共振成像（MRI），这些非侵入性成像方法可能无法有效地确定癌变区域。为此，通常采用活检技术来更全面地分析乳腺癌组织的恶性程度。活检过程包括收集组织样本，将其安装在显微镜载玻片上，并对这些载玻片进行染色，以便更好地观察细胞核和细胞质。然后病理学家对这些载玻片进行显微镜分析，以最终确定乳腺癌的诊断。

传统的计算机诊断方法，从基于规则的系统到机器学习技术，可能无法有效地挑战乳腺癌组织病理学图像中的类内变异和类间一致性。此外，这些方法主要依赖于尺度不变特征变换、速度鲁棒特征和局部二值模式等特征提取方法，这些方法都基于监督信息，并且在分类过程中容易出现有偏差的结果乳腺癌组织病理学图像。

局部二值模式是一种用于描述图像中纹理特征的方法。它可以通过比较像素点与其邻域像素点的灰度值，来判断该像素点所属的纹理类型。通过对图像中所有像素点进行局部二值模式计算，可以生成用于分类和检索的特征向量。

首先，我们创建了乳腺癌患者的整个幻灯片图像（WSI）的私有数据集。从WSI图像中提取由非癌和癌类别组成的图像块。值得注意的是，我们的主要目标是优先对癌症类别进行正确分类，微调的VGG16和VGG19方法的集合在非癌症和癌症组织病理学图像的分类中提供了卓越的性能。

VGG架构

当数据集与自然图像数据集相比相对较小时，预训练模型通常有助于更好的初始化和收敛。

VGG强化的观念：CNN必须具有深层网络才能使视觉数据的分层表示发挥作用。

VGG16模型的完整框架：五个卷积块组成，每个块都有多个卷积层（带有relu激活）以及一个最大池化层。使用的是步幅和填充都为1的3*3卷积核，以及步幅为2的2*2最大池化层。

VGG19模型的基本框架：基本架构与 VGG16 相同，除了三个额外的卷积层。

VGG16和VGG19分别使用256个节点和128个节点的密集层（每个神经元都会接收来自上一层所有神经元的输入，并根据这些输入和自身的权重计算出输出。这些输出然后会被传递到下一层）；最后一层则由二元交叉熵损失函数组成：

$Binary cross entropy = -\frac{1}{m}\sum_{i}^{m}(y_i*log(p(y_i))+(1-y_i)*log(1-p(y_i)))$

集成方法

由微调 VGG16 和微调 VGG19 模型的集成组成，训练图像占全部图像的80%，其中再进行5倍交叉验证，其中的四份用于训练，一份用于模型验证或评估。这些图像都是相互排斥的，而且非癌和癌症的图像百分比相同。

在每个数据子集中，根据损失函数的最小值保存最佳模型的权重。同时为两个模型保存5倍交叉验证的权重。最后，利用测试图像（20%）以概率的形式作出最终预测。两个类别的平均概率是通过取5倍交叉验证的VGG16模型和5倍交叉验证的VGG16模型获得的10个概率值的平均值得出的。考虑两个模型的平均概率，然后将图像分类为非癌或癌。

实验装置

超参数调优

神经网络具有自动学习输入和输出之间复杂连接的强大特性。然而，其中的一些连接可能是采样噪声的结果，它们可以是在训练过程中占主导地位，但不可能存在于真实的测试数据集中。这个问题会导致过拟合问题，从而降低深度学习模型的预测性能。

选择最佳超参数的方法：首先，我们选择二元交叉熵作为二元分类问题的损失函数。然后，在训练过程中使用Adam（自适应矩阵估计）算法，以执行200个epoch的优化。在模型训练期间，我们的主要目标是最小化训练损失和验证损失之间的泛化差距，并发现 32 的批量大小与 0.0001 的学习率配合良好。此外，我们使用 0.3 的 dropout 来防止模型在训练过程中过度拟合。通过使用 5 倍交叉验证方法，根据最小验证损失保存了五个最佳模型的权重。最后，我们使用这些权重对测试数据集进行类别预测。

原文地址：https://blog.csdn.net/qq_47896523/article/details/137688019

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：O2OA开发平台如何查看数据表结构？
下一篇：【ZZULIOJ】1061: 顺序输出各位数字（Java）

Vue使用代理方式解决跨域问题
如果 Vue 前端应用请求后端 API 服务器，出现跨域问题（CORS），这个问题可以通过 vue.config.js 中的 devServer.proxy 选项来配置。通过使用代理方式解决跨域问题。
阅读更多2024-09-21
[网络层]-IP协议相关特性
不同的子网就是把网络号相同的主机放在一起, 如果在子网中新增一台主机, 则这台主机的网络号和这个子网的网络号一致,但是主机号不能和其他主机的主机号重复,通过合理的设置主机号和网络号,就可以保证在相互连
阅读更多2024-09-21
MySQL篇（存储引擎 - InnoDB存储引擎架构）（持续更新迭代）
MySQL5.5 版本开始，默认使用InnoDB存储引擎，它擅长事务处理，具有崩溃恢复特性，在日常开发中使用非常广泛。下面是InnoDB架构图，左侧为内存结构，右侧为磁盘结构。
阅读更多2024-09-21
ElasticSearch-2-核心语法集群高可用实战-Week2
这里多个文档是指，批量操作多个文档，搜索查询文档将在之后的章节讲解批量获取文档数据是通过_mget的API来实现的。
阅读更多2024-09-21
C#自定义曲线绘图面板
1、显示面板绘制。2、拖动面板，X轴、Y轴都可以拖动。3、显示面板缩放，放大或者缩小。4、鼠标在面板中对应的XY轴数值。5、自动生成的数据数组，曲线显示。6、鼠标是否在曲线上检测。
阅读更多2024-09-21
Web开发之Thymeleaf引擎
模板引擎就是一种用于将动态数据与HTML模板结合，生成最终用户界面的工具，它可以帮助开发者以可维护和结构化的方式创建动态Web页面，模板引擎通常支持数据的动态插入、条件渲染、循环等功能Thymele
阅读更多2024-09-21
【C++】探秘二叉搜索树
二叉搜索树的底层实现
阅读更多2024-09-21
【Linux基础IO】深入Linux文件描述符与重定向：解锁高效IO操作的秘密
在Linux操作系统的广阔世界中，文件描述符（File Descriptor，简称fd）和重定向是理解并高效利用Linux IO（输入/输出）机制的关键基石。它们不仅是系统编程中不可或缺的概念，也是日
阅读更多2024-09-21
Css_动态渐变圆圈旋转效果
【代码】Css_渐变圆圈动态旋转效果。
阅读更多2024-09-21
其他比较条件
NULL条件，包括IS NULL条件和IS NOT NULL条件。空值的意思是难以获得的、未指定的、未知的或者不适用的。示例：查询employees表，找出薪水是5000,6000,8000的雇员ID
阅读更多2024-09-21

使用深度学习集成模型进行乳腺癌组织病理学图像分类

相关工作

材料和方法

预处理

训练标准

数据增强

VGG架构

集成方法

实验装置

超参数调优

使用深度学习集成模型进行乳腺癌组织病理学图像分类

相关工作

材料和方法

预处理

训练标准

数据增强

VGG架构

集成方法

实验装置

超参数调优

相关文章