【目标检测】【Ultralytics-YOLO系列】Windows11下YOLOV5人脸目标检测

🕗 发布于 2024-11-14 07:57 目标检测 YOLO 人工智能

【目标检测】【Ultralytics-YOLO系列】Windows11下YOLOV5人脸目标检测

文章目录

【目标检测】【Ultralytics-YOLO系列】Windows11下YOLOV5人脸目标检测
前言
YOLOV5模型运行环境搭建
YOLOV5模型运行
总结

前言

Ultralytics YOLO 是一系列基于 YOLO（You Only Look Once）算法的检测、分割、分类、跟踪和姿势估计模型，由 Ultralytics 公司开发和维护，YOLO 算法以其快速和准确的目标检测能力而闻名。从最初的YOLOv1到最新的YOLOv11，每一代版本都在特征提取、边界框预测和优化技术等方面引入了重要的创新。这些改进特别是在骨干网络（backbone）、颈部（neck）和头部（head）组件上的进步，使得YOLO成为实时目标检测领域的领先解决方案。
【YOLO的发展历程参考】YOLOv5 旨在实时提供高速、高精度的结果，本博文将通过人脸检测项目简要介绍Ultralytics–YOLOv5的使用。【官方教程】【官方源码】

YOLOV5模型运行环境搭建

在win11环境下装anaconda环境，方便搭建专用于YOLOV5模型的虚拟环境。

查看主机支持的cuda版本(最高)

# 打开cmd,执行下面的指令查看CUDA版本号
nvidia-smi

安装GPU版本的torch【官网】
博主的cuda版本是12.2，博主选的11.8也没问题。

其他cuda版本的torch在【以前版本】找对应的安装命令。

博主安装环境参考

# 创建虚拟环境
conda create -n ultralytics python=3.10
# 查看新环境是否安装成功
conda env list
# 激活环境
activate ultralytics
# cd到合适的位置下载yolov5源码 
git clone https://github.com/ultralytics/yolov5 
cd yolov5
# 切换到一个特定的v7.0版本
git checkout tags/v7.0
# 安装pytorch和torchvision,否则容易自动安装成CPU版本(不知原因)
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
# 安装运行所需的包,修改requirements中Pillow==9.5,删除torch和torchvision部分
pip install -r requirements.txt
# 安装 opencv
# 查看所有安装的包
pip list
conda list

YOLOV5模型运行

数据集准备

数据集下载：人脸目标检测数据集WIDER_FACE_VOC2007.zip【百度云下载，提取码：u2b9 】，以下是下载的数据集格式

 WIDER_VOC2007
   └── Annotations标签
       ├── 000001.xml
       ├── 000002.xml
       ├── ...
   └── ImageSets
           ├── Main
           |   ├── train.txt训练集
           |   ├── val.txt验证集
   └── JPEGImages图片
       ├── 000001.jpg
       ├── 000002.jpg
       ├── ...

数据集格式转化：将原始标签的xml格式转化Ultralytics-YOLO的txt格式。

每幅图像对应一个txt文件，如果图像中没有检测对象则不需要txt文件。
每个对象占一行，每一行中包含的内容为：类别(class )、中心X坐标(x_center)、中心Y坐标(y_center)、图像宽度(width)和图像高度(height)。
中心坐标已经宽高都做了归一化处理，从0到 1；类别编号从0开始。

这里博主提供了转化的python代码。

import os
import xml.etree.ElementTree as ET

def parse_xml(xml_file):
    # 解析XML文件
    tree = ET.parse(xml_file)
    root = tree.getroot()

    # 获取图像尺寸
    size = root.find('size')
    width = int(size.find('width').text)
    height = int(size.find('height').text)

    # 初始化结果列表
    objects = []

    # 遍历所有的object标签
    for obj in root.findall('object'):
        name = obj.find('name').text
        difficult = int(obj.find('difficult').text)

        # 只处理name为'face'且difficult为0的对象
        if name == 'face' and difficult == 0:
            bndbox = obj.find('bndbox')
            xmin = int(bndbox.find('xmin').text)
            ymin = int(bndbox.find('ymin').text)
            xmax = int(bndbox.find('xmax').text)
            ymax = int(bndbox.find('ymax').text)

            # 计算中心点坐标和宽高
            x_center = (xmin + xmax) / 2.0
            y_center = (ymin + ymax) / 2.0
            box_width = xmax - xmin
            box_height = ymax - ymin

            # 归一化处理
            x_center /= width
            y_center /= height
            box_width /= width
            box_height /= height

            # 添加到结果列表
            objects.append((0, x_center, y_center, box_width, box_height))

    return objects

def save_to_txt(objects, txt_file):
    with open(txt_file, 'w') as f:
        for obj in objects:
            line = ' '.join([str(x) for x in obj]) + '\n'
            f.write(line)

def process_directory(input_directory, output_directory):
    # 确保输出目录存在
    if not os.path.exists(output_directory):
        os.makedirs(output_directory)

    # 遍历输入目录下的所有XML文件
    for filename in os.listdir(input_directory):
        if filename.endswith('.xml'):
            xml_file = os.path.join(input_directory, filename)
            txt_file = os.path.join(output_directory, filename.replace('.xml', '.txt'))

            # 解析XML并获取所需信息
            objects = parse_xml(xml_file)

            # 将结果保存到TXT文件
            save_to_txt(objects, txt_file)

if __name__ == "__main__":
    input_directory = r'Annotations'  # 替换为你的XML文件所在目录
    output_directory = r'labels'  # 替换为你的输出目录
    process_directory(input_directory, output_directory)

数据集组织结构：将原始数据划分成训练集和测试集，并在当前yolov5工程下新建路径datasets/facedetection，将train和val数据集放到该路径下。

 facedetection
   └── train
           ├── images
           |   ├── 000001.jpg
           |   ├── 000002.jpg
           |   ├── ...
           ├── labels
           |   ├── 000001.txt
           |   ├── 000002.txt
           |   ├── ...
   └── val
           ├── images
           |   ├── 000007.jpg
           |   ├── 0000010.jpg
           |   ├── ...
           ├── labels
           |   ├── 000007.txt
           |   ├── 0000010.txt
           |   ├── ...

这里博主提供了转化的python代码。

import os
import shutil
import random

# 原始文件路径
image_dir = r'JPEGImages'
label_dir = r'labels'

# 新的文件路径
train_dir = r'train'
val_dir = r'val'

# 创建新的文件夹
os.makedirs(os.path.join(train_dir, 'images'), exist_ok=True)
os.makedirs(os.path.join(train_dir, 'labels'), exist_ok=True)
os.makedirs(os.path.join(val_dir, 'images'), exist_ok=True)
os.makedirs(os.path.join(val_dir, 'labels'), exist_ok=True)

# 获取所有图像文件名
image_files = [f for f in os.listdir(image_dir) if f.endswith('.jpg')]

# 设置随机种子以保证结果可复现
random.seed(42)

# 打乱文件列表
random.shuffle(image_files)

# 计算训练集和验证集的数量
split_index = int(0.8 * len(image_files))
train_files = image_files[:split_index]
val_files = image_files[split_index:]

# 复制训练集文件
for file_name in train_files:
    image_path = os.path.join(image_dir, file_name)
    label_path = os.path.join(label_dir, os.path.splitext(file_name)[0] + '.txt')

    # 复制图像文件
    shutil.copy(image_path, os.path.join(train_dir, 'images', file_name))

    # 复制标签文件
    shutil.copy(label_path, os.path.join(train_dir, 'labels', os.path.splitext(file_name)[0] + '.txt'))

# 复制验证集文件
for file_name in val_files:
    image_path = os.path.join(image_dir, file_name)
    label_path = os.path.join(label_dir, os.path.splitext(file_name)[0] + '.txt')

    # 复制图像文件
    shutil.copy(image_path, os.path.join(val_dir, 'images', file_name))

    # 复制标签文件
    shutil.copy(label_path, os.path.join(val_dir, 'labels', os.path.splitext(file_name)[0] + '.txt'))

print("数据集划分完成")

配置facedetection.yaml：博主根据data/coco128.yaml文件，在data目录下同样配置了人脸目标检测的facedetection.yaml。

path: datasets/facedetection# 数据集路径
train: train/images# 训练集
val: val/images# 验证集
names:# 标签序号
  0: face

YOLOV5运行

模型训练

train.py配置训练参数：在有标注的者训练集进行模型的训练，并在验证集上评估。

常用参数含义
weights：指定预训练模型的权重文件；
cfg：存储模型结构的配置文件；
data：存储训练、测试数据的配置文件;
batch-size：一次训练的图片数量；
img-size：输入图片宽高,根据需求和硬件条件修改;
device：模型运行的设备,cuda 0,1,2,3或者cpu.
其他参数在后续讲解具体代码的过程中再去解释。

训练运行以下命令：

python train.py --img 640 --epochs 300 --data data/facedetection.yaml --batch 16 --weights yolov5s.pt --cfg yolov5s.yaml --device 0

weights 参数和 cfg 参数对应的模型有冲突，以 cfg 指定的模型为基准。

模型验证

val.py参数验证配置：在有标注的者验证集上进行模型效果的评估模型好坏，目标检测中最常使用的评估指标为mAP。

常用参数含义
data：存储训练、测试数据的配置文件;
weights：指定预训练模型的权重文件；
batch-size：一次验证的图片数量；
img-size：输入图片宽高,根据需求和硬件条件修改;
device：模型运行的设备,cuda 0,1,2,3或者cpu;
augment：额外的数据增强.
其他参数在后续讲解具体代码的过程中再去解释。

验证运行以下命令：

python val.py --img 640  --data data/facedetection.yaml --batch 16 --weights runs/train/exp/weights/best.pt  --device 0 --augment

这里博主随便找了一次训练过程中的中间训练权重进行演示，所以精度不是很高。

模型推理

detect.py配置推理参数：没有标注的数据集上进行推理。

常用参数含义
weights：指定预训练模型的权重文件；
img-size：输入图片宽高,根据需求和硬件条件修改;
device：模型运行的设备,cuda 0,1,2,3或者cpu;
–conf-thres：指定置信度阈值;
–iou-thres：非极大值抑制IoU 阈值;
augment：额外的数据增强.
其他参数在后续讲解具体代码的过程中再去解释。

推理运行以下命令：

python detect.py --weights runs/train/exp/weights/best.pt --source data/images --device 0 --conf-thres 0.7 --iou-thres 0.3

总结

尽可能简单、详细的介绍了YOLOV5的安装流程以及YOLOV5的使用方法。后续会根据自己学到的知识结合个人理解讲解YOLOV5的原理和代码。

原文地址：https://blog.csdn.net/yangyu0515/article/details/143644957

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：A029-基于Spring Boot的物流管理系统的设计与实现
下一篇：设计模式（四）装饰器模式

问题（十九）JavaAgent-ByteBuddy与CGLIB字节码增强冲突问题
其他团队在使用作者的性能分析组件时发生了发布阻塞，经过排查是由于bytebuddy和cglib字节码冲突，这里介绍一下排查过程和原理分析
阅读更多2024-11-14
Jsp的内置对象及方法
JSP内置对象提供了一系列预定义的方法和属性，这些方法和属性可以直接在JSP页面中使用，无需额外的Java代码。
阅读更多2024-11-14
labview实现上升沿和下降沿
日常记录
阅读更多2024-11-14
spring boot 请求
对于http请求，无外乎都是get、post、put、delete。常用的也就那么几个。但刚学java的我还是记下他们的写法吧。虽然在工作中经常会用上，但也给初学的兄弟们更快上手吧。put 和 del
阅读更多2024-11-14
重庆不歧视本科的计算机专硕考研的非自命题学校有哪些？
综上所述，虽然重大的考研难度大于重邮，但考虑到其985高校的地位、丰富的科研资源和更高的社会认可度，选择重大无疑是一个更具性价比的选择。特别是对于本科就是211的学子来说，冲刺985无疑是最佳选择。无
阅读更多2024-11-14
vue3 中那些常用靠copy 的内置函数
vue3 中那些常用靠copy 的内置函数
阅读更多2024-11-14
10款PDF合并工具讲解与推荐！！！
在现在的大环境下，PDF文件因其跨平台、格式固定等优势，成为了我们工作和学习中不可或缺的一部分。是最常用的文档格式之一。然而，面对多个PDF文件需要合并成一个的场景，如何选择一款高效、易用的PDF合并
阅读更多2024-11-14
云计算&虚拟化-kvm网络模式介绍
创建虚拟机所需要的资源，包括核心的cpu和内存是由kvm来模拟，但是网络资源并不是kvm来模拟的，而是从软件层面来实现的，比如安装完成libvirt以后就会有一个virbr0的虚拟网卡。
阅读更多2024-11-14
SMA-BP基于黏菌算法优化BP神经网络时间序列预测
项目源码获取方式见文章末尾！600多个深度学习项目资料，快来加入社群一起学习吧。《------往期经典推荐------》项目名称1.【基于CNN-RNN的影像报告生成】2.【卫星图像道路检测DeepL
阅读更多2024-11-14
VScode插件：前端每日一题
VScode插件：前端每日一题即时通讯的实现：短轮询、长轮询、SSE 和 WebSocket 间的区别
阅读更多2024-11-14

【目标检测】【Ultralytics-YOLO系列】Windows11下YOLOV5人脸目标检测