【CVPR2023】《A2J-Transformer：用于从单个RGB图像估计3D交互手部姿态的锚点到关节变换网络

🕗 发布于 2024-04-21 11:15 transformer 3d 深度学习

这篇论文的标题是《A2J-Transformer: Anchor-to-Joint Transformer Network for 3D Interacting Hand Pose Estimation from a Single RGB Image》，作者是Changlong Jiang, Yang Xiao, Cunlin Wu, Mingyang Zhang, Jinghong Zheng, Zhiguo Cao, 和 Joey Tianyi Zhou。他们来自华中科技大学、阿里巴巴集团、新加坡科学、技术和研究局（A*STAR）的前沿人工智能研究中心（CFAR）以及高性能计算研究所（IHPC）。

摘要

3D交互手部姿态估计（IHPE）是一个挑战性的任务，因为手部存在严重的自遮挡和相互遮挡，两只手的外观模式相似，以及从2D到3D的病态关节位置映射等问题。为了解决这些问题，作者提出了A2J-Transformer，这是一种基于Transformer的非局部编码-解码框架，用于改进A2J（一种最先进的基于深度的单手3D姿态估计方法），以适应交互手部情况的RGB域。A2J-Transformer的主要优势包括：局部锚点通过自注意力机制建立全局空间上下文感知，以更好地捕获关节的全局线索；每个锚点被视为可学习的查询，具有自适应特征学习能力，以提高模式拟合能力；锚点位于3D空间而非2D，以利用3D姿态预测。
在这里插入图片描述

主要贡献

首次将A2J从深度域扩展到RGB域，用于单RGB图像的3D交互手部姿态估计，并取得了有希望的性能。
通过Transformer的非局部自注意力机制和自适应局部特征学习，使A2J的锚点能够同时感知关节的局部细节和全局上下文。
提出了将锚点设置在3D空间而不是2D空间的方法，以便于基于单目RGB信息解决2D到3D的病态姿态提升问题。

方法

A2J-Transformer由三个主要部分组成：特征金字塔提取器、锚点细化模型和锚点偏移权重估计模型。特征金字塔提取器使用ResNet-50作为骨干网络来提取输入RGB图像的金字塔特征。锚点细化模型包含特征增强模块和锚点交互模块，用于增强图像特征并建立锚点之间的交互。锚点偏移权重估计模型用于估计每个锚点相对于每个手部关节的3D偏移和权重。

实验

作者在InterHand2.6M、RHP、NYU和HANDS 2017数据集上进行了实验。结果表明，A2J-Transformer在InterHand2.6M数据集上取得了最先进的无模型（model-free）性能，并且在RHP数据集上展示了良好的泛化能力。此外，作者还对A2J-Transformer的不同组件进行了消融研究，以验证其有效性。

结论

A2J-Transformer是一种有效的3D单目RGB交互手部姿态估计方法，它结合了局部细节和全局上下文信息，并使用3D锚点来更好地拟合深度信息和估计准确的3D坐标。作者计划在未来的工作中尝试表示锚点的运动，并将方法扩展到基于模型的区域。

原文地址：https://blog.csdn.net/weixin_49090702/article/details/137993723

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：项目实战之网络电话本之发送邮件名片和导出word版个人信息
下一篇：怎样将excel的科学计数法设置为指数形式？

管家婆工贸ERP BR039.采购订单关联MRP明细表
ⅲ. 由于以上报表是复制系统原有功能的基础上增加定制功能，所以如果在以后版本升级中复制参考的系统中的原报表增加了新功能，该定制插件虽然可以支持升级到新版本，但是升级后不包含新版本中增加的新功能，如需变
阅读更多2024-11-17
3271.哈希分割字符串
这个问题通过简单的字符串处理和数学运算实现了字符串的哈希转换。算法时间复杂度为 O(n)，其中 n 是字符串的长度。这种方法高效且易于理解，非常适合用来解决类似的字符串处理问题。
阅读更多2024-11-17
Java核心知识体系-线程管理
在Java程序开发中，线程管理是一个至关重要的方面。它涉及到如何有效地创建、调度、同步和销毁线程，以确保程序的性能、响应性和稳定性。以下是对Java线程管理的详细探讨。
阅读更多2024-11-17
WebChromeClient 方法分类及其功能
`WebChromeClient` 是 Android `WebView` 的关键组件，处理网页交互事件。本文介绍了其主要回调方法及注意事项，帮助开发者提升 Web 应用的用户体验。
阅读更多2024-11-17
服务端高并发分布式结构进阶之路
服务端高并发分布式结构演进之路
阅读更多2024-11-17
物理hack
手把手教你黑进你朋友的电脑，然后给他关机，哈哈哈，来玩吧网络安全红队（成长ing）,学习分享
阅读更多2024-11-17
R 语言科研配色 --- 第 15 期
在使用 R 语言进行科研绘图时，颜色的选择是一件让人特别纠结的事情。本系列文章介绍了 R 语言科研绘图时常用的一些配色。本账号内所有原创内容，未经允许禁止转载和用于商业用途，违者必究。为了解决 R 语
阅读更多2024-11-17
【Android、IOS、Flutter、鸿蒙、ReactNative 】静态数组
Android Java 静态数组、Android Kotlin 静态数组、IOS Object-c 静态数组、IOS Swift 静态数组、鸿蒙静态数组、React Native 静态数组。
阅读更多2024-11-17
蓝牙 HFP 协议详解及 Android 实现
蓝牙免提协议（HFP，Hands-Free Profile）是用于支持免提通话的标准协议，广泛应用于车载蓝牙系统、蓝牙耳机等设备。HFP提供了拨号接听电话挂断电话以及语音拨号等功能，同时支持同步手机电
阅读更多2024-11-17
lua实现雪花算法
雪花算法（Snowflake Algorithm）是一种用于生成唯一ID的分布式生成算法，最初由Twitter开发。它的主要目的是在分布式系统中生成唯一的、时间有序的ID，这些ID通常用于数据库的主键
阅读更多2024-11-17

【CVPR2023】《A2J-Transformer：用于从单个RGB图像估计3D交互手部姿态的锚点到关节变换网络

摘要

主要贡献

相关工作

方法

实验

结论

相关文章