YOLOv11多模态结合CFT模块融合可见光+红外光双输入

🕗 发布于 2024-11-14 13:58 YOLO 多模态 yolov11

前言

这期是在上期YOLOv10的基础上，使用YOLOv11结合Transformer复现了论文《Cross-Modality Fusion Transformer for Multispectral Object Detection》，v11算是魔改版的v8吧，检测头加了dw卷积，添加了一些新的模块，个人认为亮点不算很多，最终实验结果在LLVIP数据集的MAP为95.4，下期预计会出带界面版的多模态代码，界面预计会支持图像、视频、热力图等功能，大家有啥想法欢迎在评论区留言~

往期博客地址：
地址1：多模态YOLOv8 融合可见光+红外光(RGB+IR)双输入【附代码】

地址2：结合Transformer的YOLOv8多模态融合可见光+红外光(RGB+IR)双输入完美复现论文【附代码】

地址3：YOLOv10多模态结合Transformer与NMS-Free 融合可见光+红外光(RGB+IR)双输入【附代码】

双模态模型结构图：
在这里插入图片描述

视频效果

YOLOv11多模态结合CFT模块融合可见光+红外光双输入

文章概述

本文将详细讲解结合Transformer的YOLOv11多模态训练、验证和推理流程。内容涵盖数据结构的定义、代码运行方法以及关键参数的含义

必要环境

配置v11环境可参考往期博客
地址：搭建YOLOv11环境训练+推理+模型评估+简单的小界面
实现过程中参考的论文
地址：Cross-Modality Fusion Transformer for Multispectral Object Detection

一、模型训练

1、定义数据

1.1、数据集结构

如下图所示，分别定义红外光与可见光的数据，images文件夹下存放图像 labels图像存放标注结果(.txt)
在这里插入图片描述

上图训练案例下载链接：
https://pan.baidu.com/s/1D6CAY1dDfEfa73ezgc_gQg?pwd=pd4y

1.2、定义data.yaml

根据1.1定义的结构依次填写路径
在这里插入图片描述

2、运行方法

python train.py --weights yolo11n.pt --cfg models/yolov11n-transformerx3.yaml --data data.yaml --epoch 200 --batch-size 64 --workers 8

运行效果

正常训练时会打印模型在yaml文件中定义的网络结构以及rgb和ir的数据
在这里插入图片描述

关键参数详解：

–weights: 填写预训练模型路径，不使用预训练模型时这里为空
–cfg:填写网络结构的yaml文件路径，此处为models/yolov8n.yaml
–data: 填写定义数据集的yaml文件路径
–epoch: 模型每轮训练的批次，增加轮数有助于提升模型性能,但同时也会增加训练时间
–batch-size: 模型每轮训练的批次，可根据实际显存大小进行调整
–workers: 设置数据加载进程数 linux系统下一般设置为8或16，windows系统设置为0

二、模型验证

训练结束后会在最后一轮输出模型的完整指标，但如果想要单独评估一下模型，可以通过如下命令来进行

运行方法

python test.py --weights runs\train\exp\weights\best.pt --data data.yaml --batch-size 128

运行效果

运行成功后会输出map0.5、map0.75、map0.5:0.95、P、R以及每个类别的AP等指标
在这里插入图片描述

关键参数详解：

–weights: 填写想要评估模型的路径
–batch-size: 用于评估的批次，一般是训练时的2倍，可根据实际显存大小进行调整

三、模型推理

3.1. 推理图像

1. 参数定义

parser = argparse.ArgumentParser()
# 检测参数
parser.add_argument('--weights', default=r"weights\transformer_LLVIP\weights\best.pt", type=str, help='Path to model weights file.')
parser.add_argument('--image_rgb', default=r"test\rgb", type=str, help='Directory for RGB images.')
parser.add_argument('--image_ir', default=r"test\ir", type=str, help='Directory for IR images.')
parser.add_argument('--conf_thre', type=int, default=0.3, help='Confidence threshold for detections.')
parser.add_argument('--save_image', default=r"./results", type=str, help='Directory to save result images.')
parser.add_argument('--vis', default=True, action='store_true', help='Visualize images with detections.')
parser.add_argument('--device', type=str, default="0", help='Device: "0" for GPU, "cpu" for CPU.')
parser.add_argument('--imgsz', type=int, default=640, help='Input image size for inference.')
opt = parser.parse_args()

关键参数详解：

–weights: 指定用于推理的模型路径，可通过更改此路径来加载不同的权重文件
–image_rgb: 指定包含可见光图像的路径
–image_ir: 指定包含红外光图像的路径
–save_image: 指定推理图像保存的路径
–vis: 可选的标志，启用后将实时显示推理的图像，默认为True
–device: 指定用于处理的设备，默认是“0”表示使用cuda:0，如果设置为“cpu”，则使用CPU处理

2. 运行方法

改好上述参数后直接运行detect_image.py即可

python detect_image.py

运行效果

在这里插入图片描述

3.2. 推理视频

1. 参数定义

parser = argparse.ArgumentParser()
# 检测参数
parser.add_argument('--weights', default=r"weights\transformer_LLVIP\weights\best.pt", type=str,
                    help='Path to model weights file.')
parser.add_argument('--video_rgb', default=r"RGB.mp4", type=str, help='Path to RGB video file.')
parser.add_argument('--video_ir', default=r"IR.mp4", type=str, help='Path to IR video file.')
parser.add_argument('--conf_thre', type=int, default=0.4, help='Confidence threshold for detections.')
parser.add_argument('--save_video', default=r"./results", type=str, help='Directory to save result videos.')
parser.add_argument('--vis', default=True, action='store_true', help='Visualize frames with detections.')
parser.add_argument('--device', type=str, default="0", help='Device: "0" for GPU, "cpu" for CPU.')
parser.add_argument('--imgsz', type=int, default=640, help='Input image size for inference.')
opt = parser.parse_args()

关键参数详解：

–weights: 指定用于推理的模型路径，可通过更改此路径来加载不同的权重文件
–video_rgb: 指定可见光视频的路径
–video_ir: 指定红外光视频的路径
–save_image: 指定推理图像保存的路径
–vis: 可选的标志，启用后将实时显示推理的图像，默认为True
–device: 指定用于处理的设备，默认是“0”表示使用cuda:0，如果设置为“cpu”，则使用CPU处理

2. 运行方法

改好上述参数后直接运行detect_video.py即可

python detect_video.py

运行效果

在这里插入图片描述

四、效果展示

白天

在这里插入图片描述

夜间

在这里插入图片描述

总结

本期博客就到这里啦，喜欢的小伙伴们可以点点关注，感谢！

原文地址：https://blog.csdn.net/Dora_blank/article/details/143756407

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Python从0到100（七十二）：Python OpenCV-OpenCV实现手势音量控制（文末送书）
下一篇：鸿蒙学习生态应用开发能力全景图-三方库（3）

C#调试项目_附加进程调试
c#项目附加进程一级目录二级目录三级目录一级目录二级目录三级目录
阅读更多2024-11-15
线程-2-线程概念与控制
线程概念与控制，局部性原理， POXIS接口，分页式存储结构，页表结构，缺页中断
阅读更多2024-11-15
洛谷 P4011 孤岛营救问题（BFS分层图最短路，状态压缩）
我们考虑对已获得的钥匙进行二进制状态压缩。注意：同一个格子可能有多把钥匙，一开始的。显然，我们直接使用BFS求最短路即可。这个格子，且当前已有钥匙的状态为。
阅读更多2024-11-15
聊天服务器(3)muduo网络库
muduo只能装在linux中，依赖boost库客户端并不需要高并发。
阅读更多2024-11-15
Unity学习---IL2CPP打包时可能遇到的问题
在这种情况下一般我们把Managed Stripping Level设置为High，然后看一下报错的提示，往link.wxl文件中添加要保留的东西即可。IL2CPP打包后会自动对Unity工程的dll
阅读更多2024-11-15
OpenGL C++视频中添加图片及文字水印播放并录制
根据前置储备，该功能的实现流程：创建一个GLThread的OpenGL运行环境；YUV数据绘制到OpenGL纹理中；图片纹理创建绘制到glViewport；文字渲染绘制到glViewport；录制视频
阅读更多2024-11-15
java实现中小企业的erp系统
java实现中小企业的erp系统
阅读更多2024-11-15
智能零售柜商品识别
本项目在智能零售商品识别的背景下，采用了多项技术创新和优化，旨在提高商品检测与识别的效率和准确性。首先，使用了PaddleX作为训练框架，这是一个高效、灵活的深度学习平台，简化了模型训练和部署的复杂性
阅读更多2024-11-15
H.265流媒体播放器EasyPlayer.js网页直播/点播播放器WebGL: CONTEXT_LOST_WEBGL错误引发的原因
EasyPlayer.js播放器不仅支持H.264与H.265视频编码格式，还具备直播、点播、录像、快照截图、MP4播放、多屏播放、倍数播放、全屏播放等功能特性，兼容Windows、Linux、And
阅读更多2024-11-15
ubuntu连接orangepi-zero-2w桌面的几种方法
线连接 Orange Pi 开发板和 HDMI 显示器。然后打开 Nomachine 图形化连接开发板。例如使用finalshell 连接开发板。其中视频采集卡是usb输出，hdmi输入。线 +
阅读更多2024-11-15

YOLOv11多模态 结合CFT模块 融合可见光+红外光双输入

文章目录

前言

视频效果

文章概述

必要环境

一、模型训练

1、 定义数据

1.1、数据集结构

1.2、定义data.yaml

2、 运行方法

运行效果

二、模型验证

运行方法

运行效果

三、模型推理

3.1. 推理图像

1. 参数定义

2. 运行方法

运行效果

3.2. 推理视频

1. 参数定义

2. 运行方法

运行效果

四、效果展示

白天

夜间

总结

相关文章

YOLOv11多模态结合CFT模块融合可见光+红外光双输入

1、定义数据

2、运行方法