CogView3:更精细、更快速的文本到图像生成技术
人工智能咨询培训老师叶梓 转载标明出处
单阶段文本到图像扩散模型在计算效率和图像细节精细化方面仍有很大上升空间。为此清华大学的研究团队提出了CogView3,这是首个在文本到图像生成领域实现中继扩散(relay diffusion)的模型。中继扩散是一种新的级联扩散框架,它将生成高分辨率图像的过程分解为多个阶段。首先生成低分辨率图像,然后通过中继超分辨率生成进行细化。与传统的级联扩散框架不同,中继超分辨率在低分辨率图像上添加高斯噪声,并从这些带噪声的图像开始扩散。这种方法不仅能够生成具有竞争力的文本到图像输出,而且大幅降低了训练和推理成本。图1为CogView3生成的高分辨率图像示例,包括2048×2048和1024×1024两种分辨率。
方法
CogView3模型在文本预处理方面,借鉴了DALL-E-3的方法,开发了一个自动流程来重新描述训练数据集中的图像。与DALL-E-3不同,CogView3通过自动提示GPT-4V模型来提取由“图像、旧描述、新描述”组成的三元组(triples)。如图2所示,GPT-4V被引导提出关于上传图像内容的多个问题,其中第一个问题被强制要求提供简要描述。然后模型被指示将问题的答案与原始描述结合,构建新的描述。
通过这种方法,研究者们收集了大约70,000个重新描述的三元组,并使用这些例子微调CogVLM-17B模型,以获得重新描述模型。微调过程中,设置了批量大小为256,迭代1,500步,以避免模型严重过拟合。最终,该模型被用来重新描述整个训练数据集,生成的描述比原始数据集中的描述更加全面、优雅和详细。
CogView3模型的核心是一个具有30亿参数的文本到图像扩散模型,采用3阶段UNet架构。该模型在潜在图像空间中操作,该空间是通过变分KL正则化的自编码器从像素空间压缩得到的,压缩比为8倍。研究者们采用了预训练的T5-XXL编码器作为文本编码器,以提高模型对文本的理解和指令跟随能力。在训练扩散模型期间,该编码器是固定的。
为了确保训练和推理之间的一致性,用户提示首先由语言模型重写。研究者们将文本编码器的输入标记长度设置为225,以便于扩展提示的实施。如图3(左)所示,CogView3实现了一个两阶段的中继扩散过程。基础阶段的模型生成512×512分辨率的图像,第二阶段模型执行2倍超分辨率,从512×512的输入生成1024×1024的图像。值得注意的是超分辨率阶段可以直接转移到更高分辨率,并迭代应用,以实现如2048×2048的最终输出。
研究者们使用Laion-2B作为训练数据集的基本来源,并移除了包含政治敏感、色情或暴力内容的图像,以确保训练数据的适当性和质量。过滤过程通过预定义的子字符串列表执行,以阻止与不想要的图像相关的源链接。与Betker等人的工作相对应,研究者们替换了95%的原始数据描述为新生成的描述。
同样研究者们采用SDXL中使用的训练方法,逐步训练CogView3,以发展多个阶段的模型,这大大降低了整体训练成本。由于这样的训练设置,CogView3的不同阶段共享相同的模型架构。基础阶段的CogView3在256×256分辨率上训练了600,000步,批量大小为2048,然后继续在512×512上训练200,000步,批量大小同样为2048。之后研究者们在高度美学化的内部数据集上微调预训练的512×512模型10,000步,批量大小为1024,以实现基础阶段模型的发布版本。为了训练CogView3的超分辨率阶段,研究者们在预训练的512×512模型基础上,在1024×1024分辨率上训练了100,000步,批量大小为1024,随后进行了20,000步的微调,以中继超分辨率的损失目标实现最终版本。
CogView3的第二阶段通过中继扩散实现超分辨率,这一过程从基础阶段生成的结果开始。与原始的像素级图像生成不同,研究者们在潜在空间中实现中继扩散,并采用简单的线性变换替代了原来的逐块模糊处理。
图3(右) 展示了潜在中继扩散的公式化过程。给定原始图像 和其低分辨率版本 ,它们首先通过自编码器转换到潜在空间,表示为和。然后定义线性模糊变换,如公式(4)所示:其中表示中继超分辨率的起始点,与 完全匹配。
前向过程定义为公式(5),表示从潜在表示 通过高斯分布生成 的过程:
训练目标通过最小化重噪声图像和原始潜在表示之间的差异来定义,如公式(6)所示。这里D 表示UNet去噪函数,表示输入文本条件。
研究者们为中继超分辨率设计了一个采样器。基础阶段生成的样本 通过双线性上采样转换为 。中继扩散的起始点定义为,其中 ϵ 表示单位各向同性高斯噪声,是双线性上采样基础阶段生成的潜在表示。
后向过程按照DDIM范式定义,如公式(7)所示: 其中,, 是根据每一步的时间 t 计算的系数,表示采样器的随机度。在实践中,将设置为0,作为ODE采样器。
算法1 展示了潜在中继采样器的详细过程,从给定的开始,将潜在表示添加噪声并进行中继,然后通过预测 并进行线性模糊转换,完成单次采样步骤。
研究者们结合了逐步蒸馏方法和中继扩散框架,以实现CogView3的蒸馏版本。在超分辨率阶段,通过将教师模型的两个步骤与学生模型的一个步骤相匹配,逐步减半采样步骤。
教师步骤 如公式(8)所示,涉及系数,,,这些系数在算法1中定义。
学生模型的一步如公式(9)所示,通过结合教师模型的信息和学生模型的预测来更新潜在表示。
训练目标定义为 和 之间的均方误差。研究者们还引入了分类器自由引导(CFG)的属性,通过将可学习的投影嵌入添加到时间步嵌入中,将CFG的强度纳入扩散模型。
推理成本的降低是通过在低分辨率基础阶段和高分辨率超分辨率阶段之间适当分配采样步骤来实现的。这种策略不仅显著减少了推理成本,而且还保留了大部分生成质量。
通过这些方法,CogView3不仅能够以显著降低的推理成本生成高质量的图像,而且还能够处理高达2048×2048分辨率的图像,展示了其在文本到图像生成领域的显著优势。
实验
研究者设定了一个1000时间步的总扩散计划,并基于消融研究,将中继超分辨率的起始点设定在500。在生成用于比较的图像时,CogView3的基础阶段采样了50步,超分辨率阶段采样了10步,两者都使用了7.5的无分类器引导。所有的比较都在1024×1024的图像分辨率下进行。
研究者们选择了多种图像-文本对数据集和提示集合进行比较分析,包括广泛用于评估文本到图像生成质量的MS-COCO数据集的5000个图像-文本对(称为COCO5k),以及DrawBench和PartiPrompts这两个知名的文本到图像评估提示集合。
在评估中,研究者们使用了最先进的开源文本到图像模型SDXL和Stable Cascade作为基线。SDXL是一个单阶段潜在扩散模型,能够生成接近1024×1024分辨率的图像。Stable Cascade实现了一个级联管道,首先生成16×24×24的先验,然后基于这些先验生成1024×1024分辨率的图像。
研究者们使用了多种评估指标,包括美学评分(Aesthetic Score, Aes)来评估生成样本的图像质量,以及人类偏好评分v2(Human Preference Score v2, HPS v2)和ImageReward来评估文本-图像对齐和人类偏好。除了机器评估外,研究者们还进行了人类评估,以进一步评估模型的性能,涵盖图像质量和语义准确性。
表1和表2展示了在DrawBench、PartiPrompts和COCO-5k数据集上的机器评估结果。CogView3在保持最低推理成本的同时,在大多数比较中超越了SDXL和Stable Cascade。CogView3的蒸馏版本在推理时间极低(1.47秒)的情况下,仍然实现了可比的性能,并且在与SDXL的潜在一致性模型(LCM-SDXL)的蒸馏版本比较中表现显著更好。
研究者们通过让注释者进行成对比较来进行CogView3的人类评估。注释者根据生成的提示对齐和美学质量来提供胜出、失败或平局的结果。使用DrawBench作为评估标准,CogView3的提示首先从DrawBench扩展到详细描述。为了全面评估,研究者们比较了CogView3生成的图像与SDXL和Stable Cascade使用原始提示和扩展提示的结果。
图4 展示了DrawBench生成的人类评估结果,左侧是关于提示对齐的比较结果,右侧是关于美学质量的比较结果。标注为“(expanded)”表示用于生成的提示是扩展后的文本。
CogView3在提示对齐和美学质量方面显著优于SDXL和Stable Cascade,平均胜率分别为77.0%和78.1%。在使用扩展提示的情况下,CogView3在与SDXL和Stable Cascade的比较中,平均胜率分别为74.8%和82.1%。
图5 展示了对蒸馏模型DrawBench生成的人类评估结果,左侧是关于提示对齐的比较结果,右侧是关于美学质量的比较结果。研究者们将CogView3的蒸馏版本与SDXL在潜在一致性模型框架下蒸馏的版本进行了比较。CogView3蒸馏版的表现显著优于LCM蒸馏版SDXL。
研究者们对中继超分辨率的起始点选择进行了消融研究,结果如表3所示。发现中间点能取得最佳结果。图6展示了不同中继起始点的超分辨率阶段结果的比较。
图7 展示了CogView3在DrawBench上使用扩展提示前后的人类评估结果。扩展提示显著增强了CogView3遵循提示指令的能力。
图8 展示了扩展提示对CogView3和SDXL生成效果的影响。扩展提示为模型生成提供了更全面和分布性的描述,大幅提高了CogView3遵循指令的准确性。
虽然直接在更高图像分辨率上实现超分辨率阶段模型可以取得理想的输出,但这对CUDA内存的要求过高,尤其是在4096×4096分辨率下。
图9 展示了直接高分辨率超分辨率和分块扩散(tiled diffusion)在2048×2048分辨率上的比较。研究者们选择了混合扩散器(Mixture of Diffusers),因为它在整合质量上表现优越。所有区块的推理都使用原始提示。
实验结果显示,CogView3在人类评估中胜过SDXL,胜率达到77.0%,同时其蒸馏变体在保持相当性能的同时,仅使用了SDXL 1/10的推理时间。这些结果证明了CogView3在生成质量和效率上的优势。
论文链接:https://arxiv.org/abs/2403.05121
原文地址:https://blog.csdn.net/yetzi1975/article/details/142355725
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!