基于segformer的图像分割

🕗 发布于 2024-10-12 21:35 深度学习 keras

segformer是基于transformer的vit模式的分割技术,分为4个transformer encoder块，一个块有几个transformer encoder层,每个层内做的就是一个普通的transformer encoder该做的事，嵌入的话，上一个块的输出就是这个块的嵌入,而且query和key,value是不一样的，我形容是用细节查抽象,最后的输出会把4个不同尺寸的特征图投影到同样的维度,之后在特征轴合并后经过一个点卷积切换通道，就是混合通道特征。整个是类vit结构，但分块，主要是为了获取几个不同尺寸的特征图,用于语义分割任务,还有嵌入采用的是重叠块嵌入，就是每个图像块(token)之间的一些部分是重叠的

用mit0训练结果如下，我把整个模型架构拆了又卸，卸了又装,只加载权重训练,但是权重其实不匹配

原始的logits输出是原始图片大小的1/4倍

用mit3训练之后的情况如下:

原文地址：https://blog.csdn.net/LIjin_1006/article/details/142883707

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：RTSP与ONVIF协议的区别及其在EasyCVR视频汇聚平台中的应用
下一篇：【C语言教程】【常用类库】（四）数学函数库 - ＜math.h＞

Dart的List和Map类型
可以把它看作一个现实世界的字典，其中每个单词(键)都有相应的定义(值)。列表是零索引的，所以你可以使用它们的索引访问单个项目，比如’ shoppingList[0] ‘，它将返回’ Apples '。
阅读更多2024-10-14
finebi的20个面试题
1. 可以用来导出数据库明细的报表是哪个图表？2. FineBI的参数样式是什么？3. 模板单元格中，左侧下方有黄色三角形，表示什么意思？4. 模板页面已经引用数据集ds1的字段内容，后面将ds1名字
阅读更多2024-10-14
C语言 ——— oj题：搜索插入位置
请必须使用时间复杂度为 O(long n)的算法
阅读更多2024-10-14
【ShuQiHere】使用域名代替 IP 地址进行 SSH 连接的完整指南*
在日常的服务器管理中，我们经常需要通过 SSH（Secure Shell）协议连接到远程服务器。通常，我们使用服务器的 IP 地址进行连接，如 `ssh user@123.456.78.90`。然而，
阅读更多2024-10-14
【端到端】CVPR 2023最佳论文：UniAD解读
首先是query position。
阅读更多2024-10-14
RJ45网线T568B接法
常规的网线T568B和T568A，为了保持最佳的兼容性，普遍采用T568B标准来制作。，如两台计算机互连或计算机与交换机/HUB之间的交叉连接)。T568A线序为：白绿、绿、白橙、蓝、白蓝、橙、白棕、
阅读更多2024-10-14
【FFmpeg系列】：图片处理
使用 FFmpeg 进行图片格式转换、编辑、合成。FFmpeg 的强大功能和灵活性使其成为处理多媒体数据的理想工具
阅读更多2024-10-14
从斯坦福大学ImageNet项目走出来的诺贝尔奖得主
基于ImageNet的ILSVRC比赛便应运而生，旨在为全球的AI研究团队提供一个公平竞争的平台，以测试他们的模型在大规模图像数据上的性能。ImageNet大规模视觉识别挑战赛（ILSVRC）作为计算
阅读更多2024-10-14
《深度学习》OpenCV 物体跟踪原理及案例解析
物体跟踪是指在一个视频序列中持续追踪特定的物体。这可以在许多应用程序中很有用，例如目标识别、视频监控和增强现实。
阅读更多2024-10-14
Pytorch快速入门
这将在我们的数据集周围包装一个可迭代对象，并支持自动批处理、采样、洗牌和多进程数据加载。在这里，我们定义了一个大小为 64 的批，即 dataloader 可迭代对象中的每个元素将返回 64 个特征和
阅读更多2024-10-14

基于segformer的图像分割

相关文章