自学内容网 自学内容网

基于segformer的图像分割

segformer是基于transformer的vit模式的分割技术,分为4个transformer encoder块,一个块有几个transformer encoder层,每个层内做的就是一个普通的transformer encoder该做的事,嵌入的话,上一个块的输出就是这个块的嵌入,而且query和key,value是不一样的,我形容是用细节查抽象,最后的输出会把4个不同尺寸的特征图投影到同样的维度,之后在特征轴合并后经过一个点卷积切换通道,就是混合通道特征。整个是类vit结构,但分块,主要是为了获取几个不同尺寸的特征图,用于语义分割任务,还有嵌入采用的是重叠块嵌入,就是每个图像块(token)之间的一些部分是重叠的

用mit0训练结果如下,我把整个模型架构拆了又卸,卸了又装,只加载权重训练,但是权重其实不匹配

原始的logits输出是原始图片大小的1/4倍

用mit3训练之后的情况如下:

 

 

 

 

 

 

 


原文地址:https://blog.csdn.net/LIjin_1006/article/details/142883707

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!