图像融合论文阅读：CrossFuse: 一种基于交叉注意机制的红外与可见光图像融合方法

🕗 发布于 2024-01-08 20:21 论文阅读图像处理论文笔记 深度学习 人工智能

@article{li2024crossfuse,
title={CrossFuse: A novel cross attention mechanism based infrared and visible image fusion approach},
author={Li, Hui and Wu, Xiao-Jun},
journal={Information Fusion},
volume={103},
pages={102147},
year={2024},
publisher={Elsevier}
}

论文级别：SCI A1
影响因子：18.6

📖[论文下载地址]
💽[代码下载地址]

📖论文解读

以往的交叉注意力只考虑相关性，而图像融合任务需要关注互补信息。
为了解决这个问题，作者提出了CrossFuse，使用【交叉注意力机制CAM】增强互补信息，使用了两阶段训练策略。
第一阶段为两种模态训练结构相同的自编码器
第二阶段固定编码器参数，训练CAM和解码器

🔑关键词

Image fusion 图像融合
Transformer
Cross attention 交叉注意力
Infrared image 红外图像
Visible image 可见光图像

💭核心思想

通过【交叉注意力机制CAM】增强互补信息，降低冗余特征的负面影响。

扩展学习
[什么是图像融合？（一看就通，通俗易懂）]

从下图中我们可以看到，相同场景的不同模态图像，有高相关性区域和高度不相关性区域。
在这里插入图片描述

🪅相关背景知识

🪢网络结构

作者提出的网络结构如下所示。
$I_{ir}$ 和 $I_{vi}$ 分别代表红外图像和可见光图像，两个编码器提取多模态信息。
基于Transformer的CAM结构用来融合多模态特征
解码器用来产生融合图像 $F$
在编码器和解码器之间有两个skip connection，用来保留源图的更多深/浅层特征
在这里插入图片描述
为什么使用两个编码器呢？因为作者认为两个模态间信息差距较大，这两个编码器结构是相同的，但是网络内部参数却有所区别。
下面我们一起来看看编码器的详细结构

🪢编码器

在这里插入图片描述
第一个卷积层用来提取浅层特征（保留了丰富的纹理信息），然后经过最大池化，DenseBlock保留多尺度特征中更多有用信息，随着编码器层数越来越深，深层特征开始集中在显著目标上。
为了增强细节信息和显著特征，在编码器和解码器之间加入了两个跳接。就是上图两个蓝紫色箭头，一个在Conv上，还有一个在最后一个最大池化层上。

🪢CAM

Cross-attention mechanism，交叉注意力机制。其结构如下图所示。
在这里插入图片描述
两个分支的参数是不相同的，每个模态的特征首先经过自注意力机制SA以增强内部特征，然后经过shift操作（在水平和垂直方向移动特征位置），然后再经过SA，然后unshift恢复位置，经过交叉注意力机制CA得到融合特征。

🪢SA

在这里插入图片描述
$x^c$ 是SA的输入，也就下图（图4）左边的长条立方体，编码器的输出。
$Q_cK_cV_c$ 是输入的不同表示，涉及Transformer里的知识，不了解的同学可以参考下面的链接。
$U_{qkv}$ 是可以通过全连接层学习参数的变换矩阵
$d$ 是输入向量的维度
$n or m$ 表示线性范数运算
$M L P (\cdot)$ 是多层感知机

扩展学习
史上最小白之Transformer详解

🪢CA

在这里插入图片描述
在2式总， $c$ 和 $\hat c$ 代表不同模态。
这个地方的交叉计算，和SwinFusion有点像，感兴趣的读者可以移步去看我的另外一篇阅读笔记。

扩展学习
SwinFusion阅读笔记

SA和CA最大的区别在于矩阵乘法后的激活函数，即CA用到了反向softmax。
在这里插入图片描述

作者给出这个地方的解释是，对于不同的模态，应该增强互补（不相关）信息而不是冗余（相关）特征。

在经过CAM之后，得到了一个融合特征，接下来我们需要将这个融合特征解码为融合图像。

🪢解码器

解码器的结构如下图所示。

在这里插入图片描述
除了在编码器中刚提到两个skip connection以外，作者还加入了【特征强度感知策略】（the feature intensity aware strategy）用来进行【多级特征融合】，其公式如下：

$(\cdot)$ 表示深层特征中的位置
$\Phi^m_c$ 代表了CAM提取的特征， $\Phi^m_{ir}$ 和 $\Phi^m_{vi}$ 分别代表了红外图像和可见光图像的特征。
$^m$ 分别表示浅层特征和深层特征的细节和基础信息提取器。其计算公式为：
在这里插入图片描述

🎢训练设置

本文采用了两阶段训练。
一阶段：编码器训练。为每种模态构建自编码器网络用于重建输入。
二阶段：针对不同的编码器，训练CAM和解码器。

🎢一阶段

在这里插入图片描述
一阶段训练的损失函数用到了像素损失和结构损失：

系数为1e4

🎢二阶段

在这里插入图片描述
二阶段训练的时候，固化一阶段训练好的编码器。训练CAM和解码器。
该阶段作者提出了一种注意损失函数，CAM损失=强度损失+10*梯度损失

$M_{c}$ 代表单个模态的强度掩码

$loc_c$ 代表单个模态源图像中局部patch的平均值，可以用下式计算：
在这里插入图片描述
$avg_c$ 代表通过11×11核大小的均值滤波器 $_a$ 计算得到的单个模态的值。

在这里插入图片描述
$_g$ 代表了3×3的均值滤波器

训练设置如下所示。

在这里插入图片描述

📉损失函数

上节已介绍。

🔢数据集

训练：KAIST
测试：TNO, VOT-RGBT

图像融合数据集链接
[图像融合常用数据集整理]

🔬实验

📏评价指标

EN
SD
MI
FMI_dct
FMI_pixel
SCD

扩展学习
[图像融合定量指标分析]

🥅Baseline

FusionGAN, IFCNN, U2Fusion, YDTR, DATFuse, IRFS, SemLA, DDFM

✨✨✨扩展学习
✨✨✨强烈推荐必看博客[图像融合论文baseline及其网络模型]✨✨✨

🔬实验结果

在这里插入图片描述

更多实验结果及分析可以查看原文：
📖[论文下载地址]

🚀传送门

🌻【如侵权请私信我删除】

如有疑问可联系：420269520@qq.com;
码字不易，【关注，收藏，点赞】一键三连是我持续更新的动力，祝各位早发paper，顺利毕业~

原文地址：https://blog.csdn.net/jiexiang5396/article/details/135402976

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：大逃杀游戏
下一篇：无人地磅系统|内蒙古中兴首创无人地磅和远程高效管理的突破

MinIo在Ubantu和Java中的整合
方法抛出的各种异常进行了捕获，然后打印了异常信息，目前这种处理逻辑，无论Minio是否发生异常，前端在上传文件时，总是会受到成功的响应信息。会处理所有Controller方法抛出的异常，因此Contr
阅读更多2024-11-15
HTTP基础
当浏览者访问一个网页时，浏览者的浏览器会向网页所在服务器发出请求。当浏览器接收并显示网页前，此网页所在的服务器会返回一个包含HTTP状态码的信息头（server header）用以响应浏览器的请求。H
阅读更多2024-11-15
linux phy mdio 读取工具
【代码】linux phy mdio 读取工具。
阅读更多2024-11-15
sql文件
sql文件通常包含SQL语句，用于数据库的创建、修改和数据操作。根据内容的不同，.sql文件的使用方式也有所不同。
阅读更多2024-11-15
MongoDB创建只读用户并授权指定集合的查询权限
创建一个自定义角色，只允许在。集合上执行查询操作。
阅读更多2024-11-15
#渗透测试#SRC漏洞挖掘#云技术基础03之容器相关
Podman是Docker的替代产品，它无守护进程。在运行容器时，若不加sudo启动可能会报错，因为默认禁止侦听1024以下端口，例如运行httpd容器可以使用命令。Kubernetes，通常简称为K
阅读更多2024-11-15
Linux权限和开发工具(3)
我们在做项目的时候可能会遇到对自己的修改不满意,想要回到上一个版本时候,就需要对自己完成一个阶段,对当前阶段进行备份,就方便我们后续进行版本回退了。后的程序可以执行但是文件也会大一些,让生成的程序带上
阅读更多2024-11-15
C++ 编程基础（5）类与对象 | 5.8、面向对象五大原则
在软件开发领域，面向对象编程（OOP）是一种重要的编程范式，它通过封装、继承和多态等特性，提高了代码的可重用性、灵活性和可维护性。C++作为一种强大的面向对象编程语言，充分体现了这些原则。在面向对象的
阅读更多2024-11-15
Tailwind 安装使用
Tailwind 安装使用
阅读更多2024-11-15
JavaScript中的二叉树排序你了解吗？
在计算机科学中，二叉树是一种常见的数据结构，用于存储和组织数据。二叉树排序（Binary Tree Sort）是一种基于二叉搜索树的排序算法。它的基本思想是将待排序的元素插入到二叉搜索树中，然后通过中
阅读更多2024-11-15

图像融合论文阅读：CrossFuse: 一种基于交叉注意机制的红外与可见光图像融合方法

文章目录

📖论文解读