开放词汇目标检测

🕗 发布于 2024-09-27 08:20 目标检测 人工智能 计算机视觉

开放词汇目标检测（Open Vocabulary Object Detection, OVOD）是一种计算机视觉技术，它扩展了传统目标检测的概念，能够识别和定位图像中的对象，即使这些对象的类别没有在训练数据集中明确列出。这种技术通过结合大规模预训练的图像-文本对模型，使得目标检测能够覆盖更广泛的词汇和对象类别，实现对新颖或罕见对象的有效识别。

预训练的图像-文本对模型：使用大规模的图像和配对文本数据进行预训练，如使用视觉-语言预训练（VLP）模型。这些模型通过学习图像内容与自然语言描述之间的关系，能够理解和表示广泛的对象和属性。
细粒度属性突出显示：传统的目标检测模型通常关注于识别对象的大类别（如狗、车等）。开放词汇目标检测模型通过显式突出显示细粒度属性（如颜色、形状、动作等），增强了模型对具有特定属性对象的识别能力。这通常通过修改模型的文本编码器部分，使其能够识别和强调输入文本中的细粒度属性词汇。
特征重组和调整：将全局文本特征与属性特定特征结合，通过设计或学习得到的算法对这些特征进行调整和优化，以提高对细粒度属性的检测精度。

开放词汇目标检测不仅提升了目标检测技术的覆盖范围和精确度，也为未来的智能系统提供了更强的视觉理解能力。

泛化能力：开放词汇目标检测能够扩展模型的泛化能力，使其能在没有直接训练数据的情况下识别新的对象类别。
细粒度识别：通过关注对象的细粒度属性，可以更精确地理解和描述场景中的各种元素，这对于自动驾驶、增强现实、内容创建等领域具有重要意义。
适应新环境：这种技术可以帮助模型适应动态变化的环境和持续扩展的对象类别，对于持续学习和适应性系统尤为重要。

论文作者：Yuqi Ma,Mengyin Liu,Chao Zhu,Xu-Cheng Yin

作者单位：University of Science and Technology Beijing

论文链接：http://arxiv.org/abs/2409.16136v1

内容简介：

1）方向：开放词汇目标检测

2）应用：目标检测

3）背景：传统的OVD模型注重对象的粗粒度类别而非细粒度属性，导致无法识别具有特定属性的对象。然而，这些OVD模型是在大规模图像-文本对上进行预训练的，具有丰富的属性词汇，其潜在特征空间可以表示全局文本特征，但未突出显示细粒度属性。

4）方法：本文提出一种通用和显式的方法，通过在显式线性空间中突出显示细粒度属性，增强了冻结主流OVD模型的属性级别检测能力。利用LLM突出显示输入文本中的属性词汇，通过调整令牌掩码，提取OVD模型的文本编码器中的全局文本和属性特定特征，将它们显式组合为新的属性突出显示特征，其中相应的标量被手工设计或学习以重新调整这两个向量。

5）结果：在FG-OVD数据集上的实证评估表明，所提出的方法统一提高了各种主流模型的细粒度属性级别OVD，并取得了新的最先进性能。

原文地址：https://blog.csdn.net/qq_34717531/article/details/142563193

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：图像特征与边缘检测：从Sobel算子到Canny边缘检测【计算机视觉】
下一篇：程序员如何提升核心竞争力以应对技术变革与挑战

PHP 中，将 JSON 数据与二进制数据之间进行相互转化主要涉及两个步骤：
要将 JSON 数据转换为二进制数据，首先需要将 JSON 数据解析成 PHP 数组或对象，然后使用 PHP 的。函数将二进制字符串转换为 PHP 数组或对象，然后将其编码为 JSON 数据。如果你只
阅读更多2024-09-28
JavaEE: 探索网络世界的核心-IP协议
13位分片偏移: 是分片相对于原始IP报文开始处的偏移.其实就是在表示当前分片在原报文中处在哪个位置.实际偏移的字节数是这个值 * 8 得到的.因此,除了最后一个报文之外,其他报文的长度必须是8的整数
阅读更多2024-09-28
数据库常见概念
PostgreSQL 支持联合索引和聚簇索引，联合索引可以加速多列条件的查询，而聚簇索引控制数据在磁盘上的排列。适当地使用这些索引可以提高查询性能。
阅读更多2024-09-28
BEV学习---LSS4-模型训练
LSS训练测试
阅读更多2024-09-28
SpringCloud第六章(服务保护CircuitBreaker) -2024
CircuitBreaker是断路器的意思，由于原来的SpringCoud的hystrix停更，所以springcloud社区推出了的新断路器，用来进行springcloud的服务降级、限流、熔断由于
阅读更多2024-09-28
ubuntu 开启root
【代码】ubuntu 开启root。
阅读更多2024-09-28
MySQL数据查询（基础）
SELECT语句用于从表中查询数据。可以选择特定的列，也可以选择所有列。：使用表示选择所有列。
阅读更多2024-09-28
区块链可投会议CCF C--FC 2025 截止10.8 附录用率
CCF C：2025：2023年 39 full and 2 short papers selected from 182 submissions.
阅读更多2024-09-28
第1章 C语言概述
4.打开项目后，右击"源文件"并选择"添加"的"新建项"6.在"hello_word"文件下编写代码并点击运行。1.打开
阅读更多2024-09-28
Git 与 GUI 工具
当我们对 Git 的提交、分支已经非常熟悉，可以熟练使用命令操作 Git 后，再使用 GUI 工具，就可以更高效。
阅读更多2024-09-28

开放词汇目标检测

相关文章