【扩散模型（四）】IP-Adapter 源码详解2-训练核心（cross-attention）

🕗 发布于 2024-07-18 15:26 人工智能 计算机视觉 aigc python transformers

系列文章目录

【扩散模型（一）】中介绍了 Stable Diffusion 可以被理解为重建分支（reconstruction branch）和条件分支（condition branch）
【扩散模型（二）】IP-Adapter 从条件分支的视角，快速理解相关的可控生成研究
【可控图像生成系列论文（一）】简要介绍了 MimicBrush 的整体流程和方法；
【可控图像生成系列论文（二）】就MimicBrush 的具体模型结构、训练数据和纹理迁移进行了更详细的介绍。
【可控图像生成系列论文（三）】介绍了一篇相对早期（2018年）的可控字体艺术化工作。
【可控图像生成系列论文（四）】介绍了 IP-Adapter 具体是如何训练的？
【可控图像生成系列论文（五）】ControlNet 和 IP-Adapter 之间的区别有哪些？
【扩散模型（三）】IP-Adapter 源码详解1-训练输入篇介绍了训练代码中的 image prompt 的输入部分，即 img projection 模块。
本文则详细介绍 IP-Adapter 训练代码的核心部分，即插入 Unet 中的、针对 Image prompt 的 cross-attention 模块。

文章目录

系列文章目录
整体结构图+代码中的变量名
一、IP-Adapter 做了什么？
二、SD1.5 的 Unet 架构
三、IPAttnProcessor2_0 与 AttnProcessor2_0 的不同
总结

整体结构图+代码中的变量名

IP-Adapter 源码：https://github.com/tencent-ailab/IP-Adapter
本文就基于 SD1.5 的 IP-Adapter 训练代码 tutorial_train.py 为例，进行代码和结构图的解释。

在这里插入图片描述

一、IP-Adapter 做了什么？

如上篇所说，本质就是插入了一条针对图像提示词的输入条件分支：

蓝色的（无需训练的） Image Encoder
红色的（需训练的）Linear + LN（LayerNorm）
红色的（需训练的）、针对图像（Image Prompt）的 Cross Attention。

其中 1、2 在上篇介绍，本篇则介绍 3 的部分。
又由于在 IP-Adapter 的训练过程中， Unet 本身是冻结的，所以 IP-Adapter 训练过程中排除掉“针对图像（Image Prompt）的 Cross Attention”之外、和 SD1.5 的推理过程是完全一致的。
也就是上图所示，关键点是在于 Unet 中 Cross-Attention 的 processor (AttnProcessor2_0) 被换成了 IPAttnProcessor2_0。

二、SD1.5 的 Unet 架构

SD1.5 架构细节强烈推荐这篇博客：Stable Diffusion1.5网络结构-超详细原创-CSDN博客，细节不展开，直接上结论：

SD1.5 中一共有 16 个 Cross-Attention（CA），其中：
down_block 中每个有2个 CA，一共有 3 个down_block (2x3=6)
mid_blobk 只有1个 CA (1x1=1)
up_block 中每个有3个 CA，一共 3 个 up_block（3x3=9）

在这里插入图片描述
我们可以通过对开源项目里给出的预训练权重 ip-adapter_sd15.bin 进行查看其中的权重内容。

ckpt_bin_dict = torch.load('path/to/ip-adapter_sd15.bin', map_location="cpu")

for k, v in ckpt_bin_dict.items():
    print(f"Key: {k}, Value type: {type(v)}")

可以得到的以下输出，这些就是训练好的、针对 Image prompt 的 CA 模块，一共 16 个（16 对 to_k_ip 和 to_v_ip）。

<class 'dict'>
Dictionary content:
Key: proj.weight, Shape of value: torch.Size([3072, 1024])
Key: proj.bias, Shape of value: torch.Size([3072])
Key: norm.weight, Shape of value: torch.Size([768])
Key: norm.bias, Shape of value: torch.Size([768])
Dictionary content:
Key: 1.to_k_ip.weight, Shape of value: torch.Size([320, 768])
Key: 1.to_v_ip.weight, Shape of value: torch.Size([320, 768])
Key: 3.to_k_ip.weight, Shape of value: torch.Size([320, 768])
Key: 3.to_v_ip.weight, Shape of value: torch.Size([320, 768])
Key: 5.to_k_ip.weight, Shape of value: torch.Size([640, 768])
Key: 5.to_v_ip.weight, Shape of value: torch.Size([640, 768])
Key: 7.to_k_ip.weight, Shape of value: torch.Size([640, 768])
Key: 7.to_v_ip.weight, Shape of value: torch.Size([640, 768])
Key: 9.to_k_ip.weight, Shape of value: torch.Size([1280, 768])
Key: 9.to_v_ip.weight, Shape of value: torch.Size([1280, 768])
Key: 11.to_k_ip.weight, Shape of value: torch.Size([1280, 768])
Key: 11.to_v_ip.weight, Shape of value: torch.Size([1280, 768])
Key: 13.to_k_ip.weight, Shape of value: torch.Size([1280, 768])
Key: 13.to_v_ip.weight, Shape of value: torch.Size([1280, 768])
Key: 15.to_k_ip.weight, Shape of value: torch.Size([1280, 768])
Key: 15.to_v_ip.weight, Shape of value: torch.Size([1280, 768])
Key: 17.to_k_ip.weight, Shape of value: torch.Size([1280, 768])
Key: 17.to_v_ip.weight, Shape of value: torch.Size([1280, 768])
Key: 19.to_k_ip.weight, Shape of value: torch.Size([640, 768])
Key: 19.to_v_ip.weight, Shape of value: torch.Size([640, 768])
Key: 21.to_k_ip.weight, Shape of value: torch.Size([640, 768])
Key: 21.to_v_ip.weight, Shape of value: torch.Size([640, 768])
Key: 23.to_k_ip.weight, Shape of value: torch.Size([640, 768])
Key: 23.to_v_ip.weight, Shape of value: torch.Size([640, 768])
Key: 25.to_k_ip.weight, Shape of value: torch.Size([320, 768])
Key: 25.to_v_ip.weight, Shape of value: torch.Size([320, 768])
Key: 27.to_k_ip.weight, Shape of value: torch.Size([320, 768])
Key: 27.to_v_ip.weight, Shape of value: torch.Size([320, 768])
Key: 29.to_k_ip.weight, Shape of value: torch.Size([320, 768])
Key: 29.to_v_ip.weight, Shape of value: torch.Size([320, 768])
Key: 31.to_k_ip.weight, Shape of value: torch.Size([1280, 768])
Key: 31.to_v_ip.weight, Shape of value: torch.Size([1280, 768])

三、IPAttnProcessor2_0 与 AttnProcessor2_0 的不同

通过对比 /path/to/IP-Adapter/ip_adapter/attention_processor.py 中两个类的不同，可以知道本质就是在原来 CA 的基础上，为 image prompt 增加了一个 k 和 v，同时并且共享原有的 q。

在这里插入图片描述
与原文《IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models》中的公式(5)完全一致。

其中 IPAttnProcessor2_0 关键代码有两个部分

拆出 img prompt （ip_hidden_states）和原来 txt prompt（encoder_hidden_states）

 # get encoder_hidden_states, ip_hidden_states
 end_pos = encoder_hidden_states.shape[1] - self.num_tokens
 encoder_hidden_states, ip_hidden_states = (
     encoder_hidden_states[:, :end_pos, :],
     encoder_hidden_states[:, end_pos:, :],
 )
 if attn.norm_cross:
     encoder_hidden_states = attn.norm_encoder_hidden_states(encoder_hidden_states)

针对 img prompt （ip_hidden_states）增加 k （to_k_ip）和 v （to_v_ip），与前文打印出来的权重文件一致。

 # for ip-adapter
 ip_key = self.to_k_ip(ip_hidden_states)
 ip_value = self.to_v_ip(ip_hidden_states)

 ip_key = ip_key.view(batch_size, -1, attn.heads, head_dim).transpose(1, 2)
 ip_value = ip_value.view(batch_size, -1, attn.heads, head_dim).transpose(1, 2)

 # the output of sdp = (batch, num_heads, seq_len, head_dim)
 # TODO: add support for attn.scale when we move to Torch 2.1
 ip_hidden_states = F.scaled_dot_product_attention(
     query, ip_key, ip_value, attn_mask=None, dropout_p=0.0, is_causal=False
 )
 with torch.no_grad():
     self.attn_map = query @ ip_key.transpose(-2, -1).softmax(dim=-1)
     #print(self.attn_map.shape)

 ip_hidden_states = ip_hidden_states.transpose(1, 2).reshape(batch_size, -1, attn.heads * head_dim)
 ip_hidden_states = ip_hidden_states.to(query.dtype)

最后再按照一个比例 self.scale 来控制 img prompt （ip_hidden_states）的影响

 hidden_states = hidden_states + self.scale * ip_hidden_states

总结

以上就是本篇全部内容，本文通过结构图和相关代码片段介绍了 IP-Adapter 训练代码的核心部分，下篇则介绍其推理代码。

原文地址：https://blog.csdn.net/weixin_44212848/article/details/140497217

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Scala学习笔记18: Either 类型
下一篇：Xcode进行真机测试时总是断连，如何解决？

Android 源码编译资料集
1、window环境下载Android系统源代码的方法。
阅读更多2024-11-18
Forge Reasoning API推理能力
Forge Reasoning API结合了多种研究突破，包括Hermes模型系列、混合代理（Mixture of Agents）、代码链（Chain of Code）和蒙特卡洛树搜索（Monte C
阅读更多2024-11-18
Git Bash + VS Code + Windows11 Git命令报错莫名奇妙的问题
怀疑是某个环境变量（比如HOME 或者 GIT_CONFIG_GLOBAL ）存储了路径，没有被git bash正确处理转义字符。1. vscode settings 设置环境变量 GIT_CONF
阅读更多2024-11-18
小程序23-页面的跳转：navigation 组件详解
小程序中，如果需要进行跳转，需要使用navigation 组件，常用属性：
阅读更多2024-11-18
elasticsearch的倒排索引是什么？
elasticsearch的倒排索引是什么？
阅读更多2024-11-18
信息安全设计实验3 1-3学时
这个段错误可能是由于动态库 libgm3000.1.0.so 中的内存访问错误引起的。据推测，可能需要检查库文件的完整性和兼容性，以及代码中的指针和内存操作。这进一步确认了上述错误，指出地址 0x30
阅读更多2024-11-18
悬浮窗，ViewPager2内嵌套RecyclerView，RecyclerView高度异常的问题分析
在一个Adnroid项目中，使用到了悬浮窗，其中有一个需求是以分页的显示显示媒体item，每一页中展示的媒体item是一个网格列表的形式显示的。
阅读更多2024-11-18
手写模拟Spring Boot自动配置功能
首先，我们定义一个自动配置属性类，用于存储配置信息。这个类将使用@ConfigurationProperties注解进行标记，以便Spring Boot能够将其属性与配置文件中的值进行绑定。java复
阅读更多2024-11-18
学了Arcgis的水文分析——捕捉倾泻点，河流提取与河网分级，3D图层转要素失败的解决方法，测量学综合实习网站存着
ArcGIS水文分析实战教程（7）细说流域提取_汇流域栅格-CSDN博客ArcGIS水文分析实战教程（6）河流提取与河网分级_arcgis的dem河流分级-CSDN博客ArcGIS水文分析实战教程（5
阅读更多2024-11-18
TensorFlow 2.0 windows11 GPU 训练环境配置
在一切开始之前，请确保你的cmd命令行和powershell命令行可以正常打开。如果不能，建议重装系统。我不确定这是否会影响你最终的结果，毕竟windows的坑太多了。安装顺序：visual stud
阅读更多2024-11-18