GHuNeRF: Generalizable Human NeRF from a Monocular Video

🕗 发布于 2024-11-04 18:29 算法

研究背景

研究问题：这篇文章要解决的问题是学习一个从单目视频中泛化的人类NeRF模型。尽管现有的泛化人类NeRF已经取得了令人印象深刻的成果，但它们需要多视图图像或视频，这在某些情况下可能不可用。此外，一些基于单目视频的人类自由视点渲染工作无法泛化到未见过的身份。
研究难点：该问题的研究难点包括：如何在大规模人体运动中建模、如何在单目视频中有效地聚合跨帧信息、如何在训练和推理过程中提高效率。
相关工作：该问题的研究相关工作有：传统的3D人体重建方法、神经场景表示与渲染、神经辐射场（NeRF）及其在人体建模中的应用、以及现有的泛化人类NeRF方法。这些方法在多视图设置下取得了显著成果，但在单目视频设置下仍存在泛化问题。

研究方法

这篇论文提出了GHuNeRF，用于从单目视频中学习泛化的人类NeRF模型。具体来说，

1、可见性感知特征聚合：首先，提出了一种可见性感知特征聚合方案，以计算顶点级别的特征。由于遮挡问题，一个顶点在视频的某些帧中可能是可见的。通过考虑可见性信息，能够跨不同时间步收集有用的信息，从而补偿多视图信息的缺失。公式如下：

其中，vgvg 表示目标SMPL上的一个顶点，{v1,v2,...,vT}{v1,v2,...,vT} 表示观测帧中对应的SMPL顶点，bibi 表示顶点vivi的可见性。

2、基于注意力机制的时间对齐特征增强：由于SMPL顶点的稀疏性和体积分辨率的限制，基于SMPL顶点的特征体积只能表示人体的整体几何形状，但精度不足。为了解决这个问题，提出了一种基于注意力机制的时间对齐点特征增强方法。通过学习从目标帧到观测帧的变换映射，将目标空间中的3D采样点映射到观测帧中。公式如下：

其中，popo 是目标空间中的3D采样点，TT 是基于SMPL的姿态参数和关节位置的变换矩阵，wgwg 是混合权重。

3、表面引导的点采样：为了提高训练和推理的效率，采用了一种表面引导的点采样策略。与原始NeRF中的随机采样不同，表面引导采样只在SMPL表面区域附近采样点，从而减少空空间中的不必要点数，并隐式地规范3D几何形状。

4、体积渲染：使用体积渲染技术为每个像素渲染RGB值。公式如下：

其中，NkNk 表示沿每条光线上的采样点数量，δkδk 是相邻采样点之间的距离。

实验设计

数据集：在ZJU-MoCap数据集和People-Snapshot数据集上进行了评估。ZJU-MoCap数据集包含9个动态人体视频，每个主体由21个同步相机捕获的多摄像机系统拍摄。People-Snapshot数据集包含单目视频，捕捉表演者在保持A姿势时旋转。
评估指标：采用峰值信噪比（PSNR）和结构相似性指数（SSIM）作为评估指标。
训练细节：使用Adam优化器进行训练，学习率为1e−41e−4，批量大小为1。训练和推理均使用512×512512×512的图像大小。在每个RTX 3090Ti GPU上进行训练，共训练500个epoch，每个epoch迭代500次。

结果与分析

1、ZJU-MoCap数据集：在ZJU-MoCap数据集上的定量结果显示，GHuNeRF在单目视频输入下达到了与多视图输入方法相当的性能。对于已见身份，GHuNeRF的PSNR为27.32，SSIM为0.936；对于未见身份，GHuNeRF的PSNR为24.55，SSIM为0.911。

2、People-Snapshot数据集：在People-Snapshot数据集上的定量结果显示，GHuNeRF在单目视频输入下显著优于NHP。对于未见身份，GHuNeRF的PSNR为23.20，SSIM为0.889。

3、交叉数据集泛化：将People-Snapshot数据集上训练的模型直接应用于ZJU-MoCap数据集，交叉数据集泛化的PSNR为23.20，与在ZJU-MoCap数据集上训练的模型相当。

4、定性结果：定性结果显示，GHuNeRF能够生成高保真度的图像，并且在某些情况下比NHP生成更多细节。3D重建结果也显示，GHuNeRF能够预测更真实的3D人体形状。

总体结论

本文提出了GHuNeRF，用于从单目视频中学习泛化的人类NeRF模型。通过引入可见性感知特征聚合、时间对齐特征增强和表面引导的点采样策略，GHuNeRF在单目视频输入下实现了与多视图输入方法相当的性能。实验结果表明，GHuNeRF在ZJU-MoCap和People-Snapshot数据集上均表现出色，具有较高的泛化能力和高质量的渲染结果。

优点与创新

首次尝试：本文首次提出了从单目视频中学习通用人类NeRF模型的任务。
GHuNeRF方法：提出了GHuNeRF方法，包括可见性感知体积特征聚合和时间对齐的特征增强，以跨视频帧聚合信息，用于自由视点图像合成。
性能表现：在ZJU-MoCap数据集上实现了与现有多视图视频方法相当的性能，并且在仅使用单目视频的情况下，性能优于现有工作。
表面引导采样策略：引入了表面引导采样策略，提高了训练和推理的效率，并通过假设远处区域为空空间来隐式规范3D几何形状。
多视角和单目训练：在多视角（MVT）和单目（MoT）设置下均进行了实验，验证了方法的有效性。

不足与反思

泛化能力有限：当训练和测试数据显著不同时，泛化能力仍然有限。
失败案例：在补充材料中展示了一些失败案例，例如在People-Snapshot数据集上训练的模型在ZJU-MoCap数据集上的预测颜色不正确。主要原因是两个数据集的光照条件差异显著，且People-Snapshot数据集中从未见过黄色衬衫。

创新点

1、GHuNeRF利用SMPL模型来构建特征体积，从而处理大规模人体运动。具体来说，GHuNeRF首先使用SMPL模型将每个顶点的特征表示从2D图像空间投影到目标空间的3D空间。然后，通过SparseConvNet将顶点级别的特征扩散到附近的3D空间，形成一个特征体积。这个特征体积虽然能够表示人体的整体几何形状，但由于SMPL顶点的稀疏性和体积分辨率的限制，其精度不足。为了提高精度，GHuNeRF进一步通过注意力机制将时间对齐的点特征与体积特征融合，从而增强特征体积的表示能力。

2、GHuNeRF中的可见性感知特征聚合方案通过考虑顶点的可见性信息来计算顶点级别的特征。具体来说，对于目标SMPL上的每个顶点vgvg，其特征表示是通过聚合观测帧中对应顶点的特征F(vi)F(vi)得到的，其中bibi表示顶点vivi的可见性。

3、GHuNeRF采用了表面引导的点采样策略来提高训练和推理的效率。具体来说，与原始NeRF中的随机采样不同，表面引导采样只在SMPL表面区域附近采样点，从而减少空空间中的不必要点数，并隐式地规范3D几何形状。此外，GHuNeRF还通过使用ResNet18提取图像特征，并使用SparseConvNet进行特征扩散和注意力机制增强，进一步优化了网络结构和计算效率。实验结果表明，这些策略显著提高了GHuNeRF的训练和推理效率，同时在合成图像和3D人体重建的质量上也表现出色。

原文地址：https://blog.csdn.net/lijiaweitt/article/details/143468003

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Kaggle “Reducing Commercial Aviation Fatalities” 比赛生理数据分析
下一篇：OpenCV

上海市计算机学会竞赛平台2022年8月月赛丙组屏幕比例
现实生活中，我们一般把屏幕的宽度和高度的比例，称为屏幕比例，或称为屏幕长宽比。其中第一个数字为屏幕分辨率的水平像素，第二个数字为屏幕分辨率的竖直像素。的形式输入，请你按给定格式输出该屏幕的长宽比。(我
阅读更多2024-11-22
Linux环境基础开发工具的使用（yum、vim、gcc、g++、gdb、make/Makefile）
本文介绍了yum 包管理工具、Vim 编辑器、gcc/g++ 编译器、gdb 调试器、编译原理及 Makefile 的使用，同时还配备了如何使用，以及图解。旨在帮助读者更好地理解和应用这些工具与技术。
阅读更多2024-11-22
H.264/H.265播放器EasyPlayer.js网页全终端安防视频流媒体播放器关于iOS不能系统全屏
EasyPlayer.js播放器不仅支持H.264与H.265视频编码格式，也能支持WebSocket-FLV、HTTP-FLV、HLS（m3u8）、WebRTC、ws-fmp4、http-fmp4等
阅读更多2024-11-22
xiaolin coding 图解网络笔记——基础篇
协议栈的内部分为几个部分，分别承担不同的工作。上下关系有一定的规则，上面的部分会向下面的部分委托工作，下面的部分收到委托的工作并执行。应用程序（浏览器）通过调用 Socket 库。来委托协议栈工作。协
阅读更多2024-11-22
OpenHarmony-2.DeviceInfo适配
ohos.boot.sn参数值的获取方式：首先从cmdline（由uboot生成）获取，如果获取到的是sn值则直接读取，若获取的是文件路径，则从文件中读取；当获取不到时从默认的Sn文件读取，默认文件为
阅读更多2024-11-22
C语言-指针作为函数返回值及二级指针
对于上面的两个例子，func() 运行结束后 n 的内存依然保持原样，值还是 100，如果使用及时也能够得到正确的数据，如果有其它函数被调用就会覆盖这块内存，得到的数据就失去了意义。第一个例子在调用其
阅读更多2024-11-22
【C语言】遗传算法matlab程序
适应度函数通常是根据所求解的问题定义的，其目的是评价每个解决方案（个体）的好坏。例如，如果你是在寻找一个函数的最大值，适应度可能是负值，因为MATLAB的排序函数默认会按升序排列，所以较小的数值会被认
阅读更多2024-11-22
【Vue3新工具】Pinia.js：提升开发效率，更轻量、更高效的状态管理方案！
Pinia.js是Vue3官方推荐的轻量级状态管理库，旨在替代Vuex。它提供了响应式状态管理，支持TypeScript，简化了模块化和插件系统。Pinia优化了开发体验，减少了样板代码，提高了性能。
阅读更多2024-11-22
python中的OS模块的基本使用
🎉🎉🎉欢迎来到我的博客,我是一名自学了2年半前端的大一学生,熟悉的技术是JavaScript与Vue.目前正在往全栈方向前进, 如果我的博客给您带来了帮助欢迎您关注我,我将会持续不断的更新文章!!!🙏
阅读更多2024-11-22
Parker派克防爆电机在实际应用中的安全性能如何保证？
Parker防爆电机通过防爆外壳、国际安全标准、专用防爆认证、低火花设计、定制化绕组、应用案例验证及温度管理，确保实际应用中的安全性能，防止爆炸风险，保障安全。
阅读更多2024-11-22