ScribbleDiff：使用涂鸦引导扩散，实现无需训练的文本到图像生成

🕗 发布于 2024-10-11 00:52 人工智能 AIGC 计算机视觉 stable diffusion 图像生成

ScribbleDiff可以通过简单的涂鸦帮助计算机生成图像。比如你在纸上随意画了一些线条，表示你想要的图像的轮廓。ScribbleDiff会利用这些线条来指导图像生成的过程。

首先，它会分析这些涂鸦，确保生成的图像中的对象朝着你画的方向。比如，如果你画了一条向右的线，生成的猫就会朝右看，而不是朝左。其次，这个方法会将你的涂鸦进行扩展，使得生成的图像更加完整和细致。

这样，即使你的涂鸦很简单，计算机也能理解并生成出你想要的图像。通过这种方式，ScribbleDiff让我们与计算机的互动变得更加直观和有效。

论文阅读

涂鸦引导扩散：实现无需训练的文本到图像生成

摘要

文本到图像扩散模型的最新进展已显示出显著的成功，但它们往往难以完全捕捉用户的意图。现有的使用文本输入结合边界框或区域蒙版的方法无法提供精确的空间引导，常常导致对象方向错位或非预期。为了解决这些限制，我们提出了涂鸦引导扩散(ScribbleDiff)，这是一种无需训练的方法，它利用用户提供的简单涂鸦作为视觉提示来指导图像生成。然而，将涂鸦纳入扩散模型会带来挑战，因为它们具有稀疏和薄弱的性质，很难确保准确的方向对齐。为了克服这些挑战，我们引入了矩对齐和涂鸦传播，这使得生成的图像和涂鸦输入之间可以更有效、更灵活地对齐。在 PASCAL-Scribble 数据集上的实验结果显示空间控制和一致性有了显著改善，展示了基于涂鸦的引导在扩散模型中的有效性。

方法

整体架构。 无需训练的 Scribble-Guided Diffusion (ScribbleDiff) 由两个主要组件组成：矩对齐和涂鸦传播。红色箭头表示分布的主要方向。相似度较高的锚点（红色矩形）是根据涂鸦的锚点（黄色矩形）收集的。（文字提示：云朵在天空中飘浮，在平静的河流上投下柔和、变幻的阴影。一座中世纪的桥梁横跨水道的宽度。）

力矩损失对物体方向的影响。力矩损失可改善物体方向与涂鸦方向之间的对齐。如果没有力矩损失，猫会面向涂鸦方向的反方向。

涂鸦传播的效果。通过稳定扩散中的涂鸦传播，涂鸦会随时间显著扩大，从而改善物体形状并增强视觉连贯性。

实验

使用涂鸦提示对文本到图像生成方法进行定性比较。ScribbleDiff 产生的结果与涂鸦输入更加一致，特别是在对象的方向和抽象形状方面。

PASCAL-Scribble 数据集的定性结果。各种文本到图像生成方法的比较，包括在训练数据集上微调的 ControlNet。ScribbleDiff 表现出与输入涂鸦的出色对齐效果，特别是在处理抽象形状和对象方向时。

PASCAL-Scribble数据集的消融研究。同一随机种子加关键成分与不加关键成分定性结果的比较。

结论

ScribbleDiff方法克服了传统边界框和区域蒙版的局限性，这些局限性通常无法有效捕捉抽象形状和物体方向。然而，涂鸦的稀疏和稀疏性质可能会妨碍精确控制，通过引入两个关键组件来缓解这种情况：

矩损失以使物体方向与涂鸦方向对齐
涂鸦传播以增强稀疏涂鸦输入到完整蒙版中。

实验结果表明，ScribbleDiffurpass 在各种指标（包括新的涂鸦比率）中都通过了无训练和微调方法。我们的方法在保持对文本提示的保真度的同时，持续改进了物体方向和空间对齐

原文地址：https://blog.csdn.net/xs1997/article/details/142833747

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：开源模型应用落地-模型微调-模型研制-模型测试（三）
下一篇：VScode连接服务器配置c、c++编程环境

银发产业资讯丨蚂蚁集团、金城药业、百联集团、京东健康布局业务
据悉，金融监管总局将出台配套政策，科学界定商保年金的内涵和外延，鼓励保险公司发挥精算技术、长期产品开发、长期资金管理等优势，为人民群众提供丰富多样的养老保障和跨期财务规划服务。近日，四川省发放“蜀里安
阅读更多2024-10-11
【JavaScript】万字整理 JS 内置对象和 DOM 对象操作节点【全！】
DOM 是针对 HTML 文档的一个 API (应用程序编程接口 Application Programming Interface)，描绘了一个层次化的节点树，允许开发人员添加、移除和修改页面元素。
阅读更多2024-10-11
分治算法(3)_快速选择_数组中的第K个最大元素
分治算法(3)_快速选择_数组中的第K个最大元素,top k问题,除了堆排序,快速选择同样不赖!
阅读更多2024-10-11
力扣（leetcode）每日一题 871 最低加油次数 | 贪心
和滑动窗口的写法是一样的，但是这是属于贪心算法。滑动窗口也属于贪心这一类问题。这个题目还是比较简单的，如果因为看到hard而没有做出来就太可惜了官方题解用了一个while解决问题，本质是一样的，是多引
阅读更多2024-10-11
JEDEC规定的多种IO电平标准
Joint Electron Device Engineering Council (JEDEC) 是电子行业的重要标准组织之一，它为半导体器件和电子元器件制定了一系列标准。JEDEC 的标准涵盖了存
阅读更多2024-10-11
【GO】Go语言初探
C语言相对而言比较原始，C++语言又过于复杂，对于一部分人而言学习Go语言似乎变成了一件很有性价比的事情。而对于有C/C++基础的同学来说，学习Go语言就变得非常容易。Go语言，Go Language
阅读更多2024-10-11
客户端无法访问到S7-1500的OPC UA服务
客户端无法访问到S7-1500的OPC UA服务器的问题，可能由多种原因造成。
阅读更多2024-10-11
10.10总结
总思路就是设dp[i][j],i为节点编号，j为以n为起点的余3的边的数量，那么剩下的就是排列组合的问题了，这个转移方程也蛮巧妙的，刚开始算重复了，后来把子树上的三种边分开算就a了。还有一种常见的用法
阅读更多2024-10-11
C++ 游戏开发流程和设计概述
C++ 游戏开发是一个综合性的过程，涉及多种技能和知识。下面将详细描述游戏开发的各个方面，包括设计、编程、引擎选择、开发流程以及工具和资源。
阅读更多2024-10-11
Gitxray：一款基于GitHub REST API的网络安全工具
Gitxray是一款基于GitHub REST API的网络安全工具，支持利用公共 GitHub REST API 进行OSINT、信息安全取证和安全检测等任务。
阅读更多2024-10-11

ScribbleDiff：使用涂鸦引导扩散，实现无需训练的文本到图像生成

相关链接

论文阅读

摘要

方法

实验

结论

相关文章