图像超补全（Outpainting）技术的前沿模型与数据集资源汇总

🕗 发布于 2024-09-25 18:12 人工智能 gpu算力 GPU AI算力资源池化 AI

“lmage outpainting”这一概念是由斯坦福大学 CS230 课程的 Mark Sabini 等人提出，相较于图像修复技术，lmage outpainting 更进一步，能够从给定的图像片段中“补全”出缺失的外延部分，以精妙的方式补全画面，从而构建出一个完整且连贯的视觉世界。

另外，所提出的论文Painting Outside the Box: Image Outpainting with GANs在吴恩达的斯坦福大学 CS230 课程中获得了期末 Poster 的第一名。

论文地址：https://arxiv.org/pdf/1808.08483
代码地址：https://github.com/bendangnuksung/Image-OutPainting

本文精心汇总了 Outpainting 技术的前沿开源模型与算法资源，旨在加速开发人员的研究进程，轻松获取所需算法与数据。

PQDiff

PQDiff 方法，用于图像超补全，具有以下创新点：

Continuous multiples for image outpainting：PQDiff 能够同时学习图像的位置信息和像素信息。在训练阶段，PQDiff 首先随机裁剪给定图像两次，生成两个视图。然后，PQDiff 通过预先计算的相对位置嵌入（RPE）从一个视图学习另一个视图的内容。由于 RPE 能够表示两个视图之间的连续关系，PQDiff可以实现连续倍数的图像超补全（例如1x、2.25x、3.6x、21.8x）。作者称 PQDiff 是首个实现连续倍数图像超补全的方法，而现有的 SOTA 方法 QueryOTR（Yao等，2022）只能进行离散倍数的超补全。
One-step image outpainting：提出一种基于相对位置嵌入与输入子图像块之间的跨注意力机制，帮助 PQDiff 在任意倍数设置下仅通过一步操作即可完成图像超补全。作者称 PQDiff 是首个实现此功能的方法，而现有的（Yao等，2022；Yang等，2019）只能逐步进行图像超补全，极大地限制了采样效率，即生成效率。在2.25x、5x和11.7x的超补全设置下，PQDiff 仅耗费了QueryOTR（Yao等，2022）所需时间的40.6%、20.3%和10.2%。
New SOTA performance：在图像超补全的基准测试中（Gao et al., 2023; Yang et al., 2019），实验结果显示，PQDiff 显著超越了QueryOTR（Yao et al., 2022），在Scenery、Building Facades和WikiArts数据集上，PQDiff在11.7倍扩展设置下分别取得了新的最先进FID分数21.512、25.310和36.212。此外，PQDiff在大多数设置下（包括2.25倍、5倍和11.7倍扩展）也取得了新的最先进结果。

参考论文：Continuous-Multiple Image Outpainting in One-Step via Positional Query and A Diffusion-based Approach(ICLR 2024)
论文地址：https://arxiv.org/pdf/2401.15652
开源地址：https://github.com/Sherrylone/PQDiff

QueryOTR

基于 vision-transformer 的图像超补全方法，具有以下创新点：

将 Outpainting 问题重新表述为一个基于补丁的序列到序列自回归问题，并开发了一种新的混合 transformer 编码器-解码器框架——QueryOTR，用于基于查询的图像外推预测，同时最小化来自 CNN 结构的归纳偏差所导致的退化。
提出 Query Expansion 和 Patch Smoothing 模块，解决纯 Transformer 模型中的慢收敛问题，并生成平滑且无缝的逼真外推图像。
与当时及已有的 image outpainting 方法相比，QueryOTR 在one-step 和 multi-step outpainting任务上均达到了SOTA。

参考论文：Outpainting by Queries(ECCV2022)
论文地址：https://arxiv.org/abs/2207.05312
开源地址：https://github.com/Kaiseem/QueryOTR

U-Transformer

此工作是研究一种通用图像超补全问题，旨在全方位地扩展图像中的视觉内容，突破传统方法仅局限于水平方向扩展的局限，实现图像在全方位的无缝延伸与丰富，为图像处理领域带来前所未有的灵活性和广阔的应用前景。

具体创新如下：

U-Transformer 是首个基于Transformer的图像超补全框架。Swin transformer 模块能够获取全局特征并保持高分辨率。U 形结构和 TSP 模块能够平滑而真实地增强图像的自我重建能力以及对未知部分的预测，从而提升网络的能力。
TSP 模块连接了编码器和解码器，通过多视角 LSTM 网络和自注意力块，传递考虑潜在时间关系和空间关联的不完整潜在特征。此外，TSP 块可调整被遮掩特征图的预测步骤，从而支持生成任意输出分辨率。
创建了三个数据集，
- Scenery：包含约6,000张图像
- Building：包含不同风格的复杂建筑结构。训练集中约有16,000张图像，测试集中有1,500张图像。
- Wikiart：包含45,503张训练图像和19,492张测试图像

参考论文：Generalised Image Outpainting with U-Transformer
论文地址：https://arxiv.org/abs/2201.11403
开源地址：https://github.com/PengleiGao/UTransformer

In&Out

In&Out 是通过 inverting(逆转)GAN 的方式来解决 Outpainting 问题。首先训练一个生成器来合成以其位置为条件的 micro-patches 。在此基础上，提出一个 inversion(逆映射)过程，寻找多个 latent codes(隐藏码)恢复可用区域以及预测 outpainting(补全)区域。

参考论文：In&Out : Diverse Image Outpainting via GAN Inversion
论文地址：https://arxiv.org/abs/2104.00675
开源地址：https://github.com/yccyenchicheng/InOut
项目地址：https://yccyenchicheng.github.io/InOut/
数据集：https://drive.google.com/file/d/1kYd0qHaMRoqFCsZA50uvNpsyWXya0eOj/view

Wide-Context Semantic Image Extrapolation

网络结构

Wide-Context Semantic Image Extrapolation 是一个基于 PyTorch 的开源项目，旨在通过深度学习技术实现图像的补全（outpainting），可以在图像边界之外扩展语义敏感的物体（如面部、身体）或场景。

参考论文：Wide-Context Semantic Image Extrapolation(CVPR 2019)
论文地址：https://openaccess.thecvf.com/content_CVPR_2019/papers/Wang_Wide-Context_Semantic_Image_Extrapolation_CVPR_2019_paper.pdf
开源地址：https://github.com/dvlab-research/outpainting_srn

✎往期推荐

图像修复（Inpainting）技术的前沿模型与数据集资源汇总

趋动云是面向企业、科研机构和个人 AI 开发者构建的开发和推理训练服务，也是全球首个基于 GPU 算力池化云的服务。

趋动云的使命是连接算力 · 连接人：

📍通过连接全球算力，趋动云可以为用户提供便宜、好用的 AI 算力。
📍通过为AI算法开发全流程提供优化服务、构建全球开发者项目和数据社区，趋动云可以帮助AI开发者接入丰富的生态，快速实现最佳实践。

原文地址：https://blog.csdn.net/m0_49711991/article/details/142528008

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：出国留学：如何选对专业，匹配你的职业目标？
下一篇：多网站域名共享微信网页授权：PHP实现微信授权代理转发

新版本Android Studio如何新建Java code工程
新版本Android Studio主推Kotlin，很多同学以为无法新建Java工程了，其实是可以的，如果要新建Java代码的Android工程，在New Project的时候需要选择Empty Vi
阅读更多2024-09-28
Brave编译指南2024 MacOS篇-拉取源码前的准备工作(二)
本文详细探讨了如何在MacOS环境下为Brave浏览器的编译搭建有效的开发环境。我们介绍了系统要求、必要工具以及关键的依赖项配置，为整个编译过程奠定了坚实的基础。在下一篇文章中，我们将获取源码，准备对
阅读更多2024-09-28
如何使用 Go 获取你的 IP 地址
一个 **IP 地址**（互联网协议地址）是分配给连接到网络的设备的唯一标识符，允许它们通过互联网或局域网与其他设备通信。如何使用 Go 获取你的 IP 地址呢？
阅读更多2024-09-28
【Linux服务器】git和github交互使用
有时候pycharm连接不上github，还是得命令行操作。
阅读更多2024-09-28
golang fmt.Sprintf 引用前述变量
golang fmt.Sprintf 引用前述变量
阅读更多2024-09-28
云计算Openstack Swift
定义：Ring是Swift中用于确定数据在集群中存储位置的核心组件。它通过一致性哈希算法将分区（partition）映射到不同的节点（node）上，从而实现数据的分布式存储。功能数据映射：Ring记录
阅读更多2024-09-28
Study--Oracle-09--部署Openfiler存储服务器
一、安装Oracle RAC需要存储，为此搭建安装openfiler用于模拟存储。GUI的账号/密码，默认：openfiler/password。输入入账号/密码：root/123456，即可进入系
阅读更多2024-09-28
190号资源-源程序：论文+程序基于在线优化的快速模型预测控制-----已提供下载资源
总之，基于在线优化的快速模型预测控制通过其预测能力和在线调整特性，实现了对复杂系统的高效控制，能够有效应对动态变化和外部扰动，提升系统的稳定性和性能。电网论文源程序擅长文章解读,论文与完整源程序,等方
阅读更多2024-09-28
小程序兼容问题
当一个scroll-view占据全屏高度(100vh)并包含input表单时，输入框聚焦会导致光标上移但输入框本身位置不变。解决方案包括避免给scroll-view设定整屏高度或使用height: c
阅读更多2024-09-28
STM32 HAL库的基本定时器配置步骤
STM32 HAL库基本定时器
阅读更多2024-09-28