浅析扩散模型与图像生成【应用篇】(七)——Prompt-to-Prpmpt

🕗 发布于 2024-03-07 10:51 扩散模型图像编辑论文阅读

7. Prompt-to-Prompt Image Editing with Cross Attention Control

本文提出一种利用交叉注意力机制实现文本驱动的图像编辑方法，可以对生成图像中的对象进行替换，整体改变图像的风格，或改变某个词对生成图像的影响程度，如下图所示。
在这里插入图片描述
之前的文本驱动的图像生成方法很难对图像的内容进行精细地编辑，哪怕只改变了一点文本提示的内容都可能让生成的结果发生非常大的改变，而无法保留原有的内容和结构。为了保留图像整体的结构，只对特定目标进行修改，有些方法通过让使用者给出要修改对象的掩码，引导算法只针对掩码的内容进行修改。但这种方式不仅非常麻烦，而且无法对整体风格进行编辑。因此作者希望提出一种只需修改文本提示内容，就可以直接编辑生成图像，且保持原本生成结果的内容和结构特征。
作者发现在交叉注意力层建立了文本提示和图像像素之间的联系，通过在生成过程中插入或者修改交叉注意力层就可以实现对对应像素点的修改。实现的过程如下
在这里插入图片描述

首先，我们先回顾一下文本驱动的图像生成过程中，交叉注意力层是如何工作的。包含噪声的图像 $z_t$ 其对应的特征图 $\phi(z_t)$ ，经过一个线性层映射为一个query矩阵 $Q=\ell_{Q}(\phi(z_t))$ ，而文本提示 $\mathcal{P}$ 的特征向量 $\psi(\mathcal{P})$ 被分别映射为key和value矩阵， $=\ell_K(\psi(\mathcal{P}))$ 和 $=\ell_V(\psi(\mathcal{P}))$ 。则注意力图为 $M=\operatorname{Softmax}\left(\frac{Q K^{T}}{\sqrt{d}}\right)$ 其中的元素 $M_{ij}$ 表示第 $j$ 个token对于第 $i$ 个像素的权重值。交叉注意力层的输出为 $\hat{\phi}(z_t)=MV$ ，其被用于更新 $\phi(z_t)$ 。注意力层中每个单词和图像像素之间的对应关系如下图所示，可见即便在生成过程的早期阶段，单词和对应的像素之间已经具备较为明确的匹配关系。因此通过修改交叉注意力层就能够针对性的改变生成图像的内容。
在这里插入图片描述

假设原本的文本提示 $\mathcal{P}$ 生成的图像为 $\mathcal{I}$ ，其对应的注意力图 $M$ 中包含着生成结果的主要内容信息。在根据修改后的文本提示 $\mathcal{P}^*$ 对图像进行编辑时，通过将 $M$ 插入到生成过程中，则可以保证修改后的生成结果 $\mathcal{I}^*$ 能够保留原有结果的主要内容。整个算法流程如下图所示
在这里插入图片描述
其中 $DM\left(z_{t}, \mathcal{P}, t, s\right)$ 表示根据噪声图 $z_t$ ，文本提示 $\mathcal{P}$ ，时刻 $t$ 和随机数种子 $s$ 进行单步反向去噪生成 $x_{t-1}$ 的过程。 $M_t$ 和 $M_t^*$ 分别表示原始文本和修改后文本对应的注意力图，对二者进行编辑可以得到 $\hat{M_t}$ ，使用其取代 $M_t^*$ 再进行反向去噪即可生成编辑后的图像。不同的修改方式对应了不同的编辑方法，下面将详细的介绍对注意力层进行编辑的方法 $Edit(M_t,M_t^*,t)$ 。

1. 更换单词（Word Swap）

对于更改生成文本中某个单词的修改方式，如把“dog”换成“cat”。可以在某个生成步骤 $\tau$ 之后，直接用 $M_t^*$ 取代 $M_t$ ，如下式所示 $\operatorname{Edit}\left(M_{t}, M_{t}^{*}, t\right):=\left\{\begin{array}{ll} M_{t}^{*} & \text { if } t<\tau \\ M_{t} & \text { otherwise. } \end{array}\right.$ 正如我们前面所提到的，在生成过程的前几步就已经确定了生成对象的主要内容，因此可以先用原本的注意力图 $M_t$ 进行一定次数的迭代， $t=T\rightarrow\tau$ 。然后再用修改后的注意力图 $M_t^*$ 取代 $M_t$ ，从而对在保留原本生成结果主体内容不变的基础上，根据更改的单词进行具体内容的修改。如下图所示，随着 $\tau$ 取值的不断变大，也就是越早使用 $M_t^*$ 替换 $M_t$ （图中越靠近右边的部分），则生成的对象就越能更多的保留原本生成的内容，而如果完全不加入原本的注意力图 $M_t$ ，则修改后的生成结果和原本生成结果之间基本没有任何联系。
在这里插入图片描述

2. 添加新的短语（Adding a New Phrase）

这也是一个非常常见的修改方式，就在原本文字提示的基础上增加一些描述性的或限制性的短语。为了保留原本的生成对象，作者采用一种匹配的方式来计算修改后的文字提示 $\mathcal{P}^*$ 所生成的token和原本的文字提示 $\mathcal{P}$ 所生成的token之间的对应关系。 $A (j) = k$ ，就表示 $\mathcal{P}^*$ 的第 $j$ 个token与 $\mathcal{P}$ 的第 $k$ 个token相对应。若 $A (j) = N o n e$ ，则表示这个token是新添加的，在 $\mathcal{P}$ 中没有与之对应的token。在生成过程中，对于新添加的token就使用修改后的 $M_t^*)_{i,j}$ 来引导生成；否则，使用原本注意力图 $M_t$ 中匹配的token $A (j)$ 所对应的元素 $M_t)_{i,A(j)}$ 来引导生成， $\left(\operatorname{Edit}\left(M_{t}, M_{t}^{*}, t\right)\right)_{i, j}:=\left\{\begin{array}{ll} \left(M_{t}^{*}\right)_{i, j} & \text { if } A(j)=\text { None } \\ \left(M_{t}\right)_{i, A(j)} & \text { otherwise. } \end{array}\right.$ 简单来说，就是如果某个token在原本的描述中是存在的就直接用它对应的注意力值，如果是新添加的token那么则使用修改后的注意力值。这种修改方式既可以对图像中局部的某个对象做修改，也可以对整幅图像的整体风格做编辑，如下图所示
在这里插入图片描述

3. 对注意力重新加权（Attention Re–weighting）

这也是一个常用的编辑方式，就是加强或减弱文字提示中的某个描述词的程度，比如说让雪变更大一些或更小一些。作者通过引入一个权重值 $c\in[-2,2]$ 来对注意力图中某个描述词对应的token进行重新加权，从而修改其影响程度，如下式 $\left(\operatorname{Edit}\left(M_{t}, M_{t}^{*}, t\right)\right)_{i, j}:=\left\{\begin{array}{ll} c \cdot\left(M_{t}\right)_{i, j} & \text { if } j=j^{*} \\ \left(M_{t}\right)_{i, j} & \text { otherwise. } \end{array}\right.$ 这个方式也是非常的直观和简单，权重值 $c$ 为正数时则加强其效果，且数值越大加强的越多；反之，权重为负数时则减弱其效果，数值越小减弱的越明显，如下图所示。
在这里插入图片描述
通过上述的介绍，我们看到虽然作者提出的方法都非常简单，但其实现的效果确实非常显著。但是值得注意的是这里的编辑对象都是通过文本生成的图像，也就是对生成结果的“二次创作”，那么这个方法能不能对真实拍摄的图像进行编辑呢？答案是可以的，实现的方法就是作者先用DDIM对真实拍摄的图像进行一次重建，也就是先不断地添加噪声使其变成一个随机噪声图，然后再逐步去噪使其恢复原图。在去噪的过程中就可以使用上述的方法进行编辑了，如下图所示

这里有个问题如果真是图像没有对应的文字描述怎么办呢？大概可以用一些图像描述算法来生成对应的文本

在这里插入图片描述

原文地址：https://blog.csdn.net/qq_36104364/article/details/136515373

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

【青牛科技】GC4931P替代A4931/Allegro在水泵、筋膜枪、吸尘器和电动工具中的应用
随着电动设备技术的不断发展，对电机驱动控制器的需求也在不断增加。GC4931P作为一种新型的电机驱动控制器，逐渐被视为A4931/Allegro的替代品。本文将探讨GC4931P在水泵、筋膜枪、吸尘器
阅读更多2024-11-06
软件测试：测试用例详解
一般是数字和字符组合成的字符串，可以包括（下划线、单词缩写、数字等等），但是需要注意的是，尽量不要写汉语拼音，因为拼音的意义可能有好几种，有可能会导致乱码；
阅读更多2024-11-06
通过自然语言表达你的想法。GitHub Spark让任何人都能使用人工智能，为自己创建软件...
我们能否让任何人都能使用人工智能，为自己创建软件？尽管开发者喜欢定制自己的开发环境以提高效率和趣味性，但创建个性化应用程序的复杂性常常阻止他们这样做。如何使个性化软件的创建变得像定制开发环境一样简单?
阅读更多2024-11-06
好看的超清4K视频素材去哪儿找？下载素材资源网站推荐
这个网站的视频素材有详细介绍，包括4K和1080P的标识，且许多素材都可以通过网盘直接下载，特别适合新手创作者。在这个高清、4K视频盛行的时代，要制作出让人眼前一亮的视频内容，超清4K视频素材必不可少
阅读更多2024-11-06
QML项目实战：自定义TextField
1.activeFocusOnPress ：当用户点击 TextField 时，自动将焦点设置到该控件上。2.antialiasing：启用抗锯齿功能，使文本显示更加平滑。3.readOnly：将
阅读更多2024-11-06
架构学习第四周--高可用与NoSQL数据库
负载均衡（），简称LB，是一种服务或基于硬件设备等实现的高可用反向代理技术，负载均衡将特定的业务(web服务、网络流量等分担给指定的一个或多个后端特定的服务器或设备，从而提高了公司业务的并发处理能力、
阅读更多2024-11-06
函数对象笔记
将函数指针传入compare时，编译器并不知道函数是什么。代码中使用C++中的模板，调用使用函数指针调用函数。指向一个函数的指针，可以动态调用不同的函数。，可以如同函数一样被调用。
阅读更多2024-11-06
【Unity基础】粒子系统与VFX Graph的区别
本文介绍了Unity中粒子系统与VFX Graph之间的区别
阅读更多2024-11-06
动态ip如何自动更换ip
在探讨如何自动更换动态IP地址时，我们首先需要理解动态IP的基本概念。IP地址，即互联网协议地址，分配给每台连接到互联网的设备的唯一标识符。与传统静态IP地址不同，动态IP地址是由网络服务提供商（IS
阅读更多2024-11-06
知识课堂——高匿ip在不同业务中的重要作用
高匿IP在网络数据采集、网络营销与推广、在线游戏以及隐私保护与安全等业务中都有着重要的作用。
阅读更多2024-11-06

浅析扩散模型与图像生成【应用篇】(七)——Prompt-to-Prpmpt

7. Prompt-to-Prompt Image Editing with Cross Attention Control

1. 更换单词（Word Swap）

2. 添加新的短语（Adding a New Phrase）

3. 对注意力重新加权（Attention Re–weighting）

相关文章