YOLOv3 数据组织

🕗 发布于 2024-10-10 05:46 YOLO 目标跟踪 人工智能

一、引言

YOLOv3是一种先进的目标检测算法，其数据组织方式对于模型的性能和训练效果至关重要。本报告将详细阐述YOLOv3的数据组织过程，包括标注格式、数据调用以及数据加载的各个环节。

二、标注格式

（一）文件转换

YOLOv3使用voc_label.py脚本将原始的xml标注文件转换为txt文件格式。这种转换是为了更方便地处理数据，使其符合模型训练的输入要求。

（二）坐标归一化

在转换后的txt文件中，坐标采用归一化的形式。具体的归一化方式通过convert函数实现。该函数以图片的长和宽为基础，对原始的边界框坐标（如xmin、xmax、ymin、ymax）进行处理，得到归一化后的框的中心坐标x、y以及宽w和高h。这种归一化操作使得模型能够更好地处理不同尺寸的图片，提高了模型的泛化能力。

三、数据调用

在train.py文件中，数据的调用过程如下：

首先创建LoadImagesAndLabels类的实例作为数据集对象：

dataset = LoadImagesAndLabels(train_path, img_size, batch_size,
                              augment=True,
                              hyp=hyp,  # augmentation hyperparameters
                              rect=opt.rect,  # rectangular training
                              cache_labels=True,
                              cache_images=opt.cache_images)

这里传入了训练数据路径、图片尺寸、批次大小、是否增强数据、增强超参数、是否矩形训练以及是否缓存标签和图片等参数。
2. 根据数据集的大小确定实际使用的批次大小：

batch_size = min(batch_size, len(dataset))

确定用于加载数据的线程数量：

nw = min([os.cpu_count(), batch_size if batch_size > 1 else 0, 1])

使用DataLoader加载数据集：

dataloader = DataLoader(dataset,
                        batch_size=batch_size,
                        num_workers=nw,
                        shuffle=not opt.rect
                        # Shuffle=True 
                        #unless rectangular training is used
                        pin_memory=True,
                        collate_fn=dataset.collate_fn)

DataLoader负责高效地加载数据，并可以通过设置参数来控制数据的加载方式，如批次大小、是否打乱数据顺序、是否使用多线程加载以及数据在内存中的存储方式等。

四、数据加载

（一）`init`函数

处理数据参数
- LoadImagesAndLabels类的init函数接收多个参数，这些参数决定了数据的加载方式和处理过程。
- 对于路径参数，它确保传入的路径是有效的文件路径，并且支持不同操作系统的路径格式。
- 数据增强相关的参数（如augment和hyp）用于控制数据增强的方式和程度。rect参数用于决定是否进行矩形训练，这会影响数据的排列和处理方式。cache_labels和cache_images参数则控制是否对标签和图片进行缓存，以提高训练速度。
- 对于图片路径和标签路径的处理，img_files列表保存了所有符合要求的图片路径，通过读取文件并筛选出符合img_formats格式的文件路径得到。label_files则是通过将img_files中的images替换为labels，.jpg替换为.txt得到相应的标签文件路径。
获取图片尺寸
- 在矩形训练模式下，需要获取图片的准确尺寸信息。首先尝试从shapefile中读取尺寸信息，如果文件不存在，则使用exif_size函数对图片进行读取。读取到的尺寸信息用于后续的数据处理，如根据长宽比对图片和标签进行排序，以优化训练过程。
预载标签和图片
- 根据cache_labels和image_weights的值决定是否预载标签。如果需要预载标签，初始化一个列表，其中每个元素对应一张图片的标签，初始化为全零的(0, 5)形状的数组。然后遍历label_files，读取每个标签文件的内容，进行格式检查，确保标签数据符合要求（如标签值在0到1之间，维度正确等），同时统计标签的各种情况（如找到的标签数量、丢失的标签数量、空标签数量、重复标签数量等）。
- 对于图片的预载，当cache_images为True时，初始化图片列表和相关尺寸列表。然后遍历图片路径，使用load_image函数加载图片到内存，并计算缓存图片占用的空间大小，同时更新加载进度描述。

（二）`getitem`函数

获取数据
- 在getitem函数中，首先根据image_weights确定实际要获取的图片和标签的索引。如果开启镶嵌增强（由mosaic变量控制），则加载四张图片作为一个镶嵌组合的数据。否则，加载单张图片，并根据矩形训练的设置进行仿射变换，以调整图片的尺寸和比例，使其符合模型输入的要求。
处理标注文件
- 对于标注文件，如果文件存在且对应的标签数据尚未加载，则读取文件内容。将归一化后的坐标从xywh格式转换为左上角、右下角的表达形式，以适应模型训练过程中的计算需求。
- 如果进行数据增强，会对图片和标签进行一系列操作。包括随机放射变换（通过random_affine函数），改变图片的角度、平移、缩放和剪切等；增强hsv空间（通过augment_hsv函数），调整图片的色调、饱和度和明度；随机左右翻转和上下翻转，以增加数据的多样性。最后，将处理后的坐标再次归一化到0 - 1之间，并将标签数据转换为适合模型输入的torch张量格式，同时将图片的维度从BGR转换为RGB，并调整维度顺序为3x416x416。

（三）`collate_fn`函数

collate_fn函数用于对batch数据进行整理和处理。它接收一个包含图片、标签、路径和形状信息的batch数据。在函数内部，首先对数据进行转置操作，然后对标签数据添加目标图像索引，以便在模型训练过程中能够正确识别每个目标所属的图像。最后，将图片数据堆叠成一个批次的张量，将标签数据连接成一个大的张量，并返回处理后的图片、标签、路径和形状信息。

五、总结

YOLOv3的数据组织过程是一个复杂而精细的过程，从标注格式的定义到数据的调用和加载，每个环节都紧密相关，旨在为模型提供高质量、符合要求的数据输入。通过合理的标注格式转换、灵活的数据调用和高效的数据加载机制，YOLOv3能够更好地利用数据进行训练，从而提高目标检测的性能和准确性。

原文地址：https://blog.csdn.net/mozf881/article/details/142799337

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：udp c语言实现组播的例子
下一篇：如何评估统一权限管理平台的效率和安全性？

SpringBoot统一日志框架
在 Spring Boot 的配置文件 application.porperties/yml 中，可以对日志的一些默认配置进行修改，但这种方式只能修改个别的日志配置，想要修改更多的配置或者使用更高级的
阅读更多2024-10-10
头戴式耳机性价比之王有哪些？头戴式耳机性价比推荐！
在挑选耳机时，轻巧设计是提升佩戴舒适度的关键，尤其是对于头戴式耳机，建议选择单耳重量不超过200克的型号，以减轻长时间佩戴带来的压迫感和疲劳。音质表现上，这款硬件上采用了40mm类钻石动圈单元，低频有
阅读更多2024-10-10
成都睿明智科技有限公司怎么样靠谱吗？
内容为王：深知内容在抖音电商中的重要性，公司组建了一支专业的内容创作团队，能够根据客户品牌调性和目标受众，创作出既有趣又有料的高质量短视频和直播内容，有效提升用户粘性和转化率。精准定位：睿明智科技首先
阅读更多2024-10-10
雷池+frp 批量设置proxy_protocol实现真实IP透传
内网部署safeline，通过frp让外网访问内部web网站服务，让safeline记录真实外网攻击IP
阅读更多2024-10-10
Dockerfile搭建环境案例
通过以上步骤，我们成功搭建了一个LNMP环境，包括Nginx、PHP和MySQL。使用Docker和Docker Compose的方式极大地简化了环境的配置和管理，确保了环境的一致性。你可以根据实际需
阅读更多2024-10-10
宝塔docker中如何修改应用配置文件参数
今天在宝塔docker安装了kkfileview，相修改应用里的application.properties，却找不到在哪，如何修改？在这里是找不到对应修改的地方，其实docker就是镜像一个完善的系
阅读更多2024-10-10
Golang | Leetcode Golang题解之第466题统计重复个数
Golang | Leetcode Golang题解之第466题统计重复个数
阅读更多2024-10-10
FLINK SQL&Table API 简介及运行环境
Flink本身是批流统一的处理框架，所以Flink SQL和Table API是批流统一的上层处理API。目前，这两套API仍处于活跃的开发阶段，功能尚未完全完善。
阅读更多2024-10-10
【探索艺术新纪元：Midjourney中文版，让创意无界！】
作为一款前沿的AI绘画工具，它利用深度学习技术，将你的想象转化为触手可及的艺术作品。无需深厚的绘画功底，只需简单的文字描述，就能激发无限创意，让每个人都能成为自己心中的艺术家。从古典油画到现代插画，从
阅读更多2024-10-10
Linux中yum与apt有什么区别
本文介绍了Linux中两种主流的包管理器：Yum和Apt
阅读更多2024-10-10