AI 视频管理平台教你使用YOLO—WORLD进行实时开放词汇对象检测

🕗 发布于 2024-11-22 03:40 人工智能 YOLO 安全开源 vue.js

YOLO-World：实时开放词汇对象检测

在计算机视觉领域，传统的对象检测方法，如YOLO系列，尽管在固定词汇检测上取得了显著成果，但它们的能力受限于预定义的对象类别。这种局限性在开放词汇检测（OVD）任务中尤为明显，该任务要求模型能够识别训练阶段未出现过的新对象类别。YOLO-World通过视觉-语言建模和大规模数据集上的预训练，提出了一种创新的方法，以增强YOLO检测器的开放词汇检测能力。

模型简介

YOLO-World模型引入了基于开放词汇检测任务的先进实时方法，同时采用了视觉语言建模和在大量数据集上进行预训练的方法，能够以无与伦比的效率在零样本场景中出色地识别大量物体。这项创新可根据描述性文本检测图像中的任何物体。YOLO-World可大幅降低计算要求，同时保持极具竞争力的性能，是众多视觉应用的多功能工具。

模型结构与创新点

与传统的YOLO检测器相比，YOLO-World作为一个开放词汇表检测器，可采用文本作为输入，文本编码器首先编码输入的文本。然后将输入图像编码成多尺度图像特征，RepVL-PAN算法利用图像和文本特征的多级交叉模态融合。最后，YOLO-World预测了回归边界框和对象编码，以匹配输入文本中出现的类别或名词。

核心创新点

实时解决方案：利用CNN的计算速度，YOLO-World可提供快速的开放词汇检测解决方案，满足各行业对即时结果的需求。
效率和性能：YOLO-World可在不牺牲性能的前提下降低计算和资源需求，提供了一种可替代SAM等模型的强大功能，但计算成本仅为它们的一小部分，从而支持实时应用。
利用离线词汇进行推理：YOLO-World引入了“先提示后检测”的策略，利用离线词汇进一步提高效率。这种方法可以使用预先计算的自定义提示，包括标题或类别，并将其编码和存储为离线词汇嵌入，从而简化检测过程。
由YOLOv8支持：基于Ultralytics YOLOv8的YOLO-World利用实时对象检测方面的最新进展，以无与伦比的准确性和速度促进开放词汇检测。
卓越的基准测试：YOLO在标准基准测试中，World的速度和效率超过了现有的开放词汇检测器，包括MDETR和GLIP系列，展示了YOLOv8在单个NVIDIA V100 GPU上的卓越性能。

使用方法

YOLO-World提供了灵活的使用方式，包括使用模型推理预测、自定义词汇推理以及自定义词汇类别保存模型。以下是使用YOLO-World进行自定义词汇推理预测的一个简单示例：

from ultralytics import YOLO

# Initialize a YOLO-World model
model = YOLO("yolov8s-world.pt")  # or choose yolov8m/l-world.pt

# Define custom classes
model.set_classes(["person", "bus"])

# Execute prediction for specified categories on an image
results = model.predict("path/to/image.jpg")

# Show results
results[0].show()

结论

YOLO-World通过结合视觉和语言信息，为实时开放词汇对象检测提供了一个强大的解决方案。它不仅提高了检测效率，还扩展了检测器的能力，使其能够识别训练阶段未见过的新对象类别。YOLO-World的创新点和卓越性能使其成为实时应用的理想选择。

原文地址：https://blog.csdn.net/tt120326/article/details/143857900

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：基于java+SpringBoot+Vue的房屋租赁管理系统设计与实现
下一篇：利用uniapp开发鸿蒙：运行到鸿蒙模拟器—踩坑合集

【jvm】new对象的过程
如果堆内存中的内存并不是规整的，已被使用的内存和空闲的内存相互交错在一起，JVM就必须维护一个列表，记录上哪些内存块是可用的。：如果堆内存是绝对规整的，所有被使用过的内存都被放在一边，空闲的内存被放在
阅读更多2024-11-25
tcpdump使用方法
是一个强大的命令行工具，用于捕获和分析网络流量。的详细使用说明，包括安装、基本命令、高级用法和过滤示例。保存的数据可用 Wireshark 等工具进行分析。捕获10个数据包后停止。
阅读更多2024-11-25
功能强大的stringstream类
是 C++ 标准库<sstream>中的一个类，它允许我们像操作流一样操作字符串。这意味着我们可以方便地进行字符串与其他数据类型之间的转换、字符串的拼接、分割等一系列操作，极大地提高了字符
阅读更多2024-11-25
住宅IP怎么在指纹浏览器设置运营矩阵账号
然而，随着平台对账号关联的限制越来越严格，如何安全、有效地运营这些矩阵账号成为了一个亟待解决的问题。住宅IP可以提供与用户实际所在地理位置相匹配的IP地址，避免了通过使用非法代理IP等方式所带来的地理
阅读更多2024-11-25
壹肆柒·2025台球展：春季台球行业的璀璨盛会
国内外近三百家行业企业和品牌将齐聚一堂，展示包括台球连锁品牌、各类台球及球桌、精致球杆、舒适观球沙发、实用球杆柜、巧克、台尼、石板、球杆包、摆球框、台球袋、皮头、杆架、延长杆、手套、赛服、先进运营系统
阅读更多2024-11-25
stm32 点亮LED
包含1. 打开LED灯 2. 关闭LED灯 3. 翻转LED灯写入高低电平主要用 GPIO的此函数HAL_GPIO_WritePin（GPIOB, GPIO_PIN_8, GPI
阅读更多2024-11-25
C语言蓝桥杯组题目
C语言蓝桥杯题目
阅读更多2024-11-25
聚水潭与MySQL数据集成案例分享
高吞吐量的数据写入能力：通过批量插入和事务管理，实现高效的数据写入。定制化的数据转换逻辑：灵活应对不同业务需求。实时监控与告警系统：保障整个ETL过程的稳定性和可靠性。异常处理与重试机制：提高系统容错
阅读更多2024-11-25
【Ubuntu24.04】服务部署（虚拟机）
本文主要介绍了如何安装VMware软件，如何在VMware中安装并配置虚拟机，以及部分组件的安装脚本以供参考。
阅读更多2024-11-25
如何在 Ubuntu 22.04 上安装 Metabase 数据可视化分析工具
Metabase提供了一个简单易用的界面，让你能够轻松地对数据进行探索和分析。通过本文的指导，你将能够在 Ubuntu 22.04 系统上安装并配置 Metabase，并通过 Nginx 进行反向代理
阅读更多2024-11-25