自学内容网 自学内容网

FreeU: Free Lunch in Diffusion U-Net

FreeU:扩散 U-Net 模型的免费午餐

在这里插入图片描述

论文链接:https://arxiv.org/abs/2309.11497

代码链接:https://github.com/ChenyangSi/FreeU

项目链接:https://chenyangsi.top/FreeU/(CVPR2024)

Abstract

在本文中,我们揭示了扩散U-Net尚未开发的潜力,它可以作为“免费午餐”,在运行中大幅提高生成质量。我们首先研究了U-Net架构对去噪过程的关键贡献,并确定其主要backbone主要有助于去噪,而其跳跃连接主要将高频特征引入解码器模块,导致网络忽略backbone语义。利用这一发现,我们提出了一种简单而有效的方法-称为“FreeU”-无需额外的培训或微调即可提高生成质量。我们的关键见解是战略性地重新权衡来自U-Net的跳跃连接和backbone特征映射的贡献,以利用U-Net架构的两个组件的优势。在图像和视频生成任务上的良好结果表明,我们的FreeU可以很容易地集成到现有的扩散模型中,例如,Stable diffusion, DreamBooth, ModelScope, Renderer和ReVersion,只需要几行代码就可以提高生成质量。您所需要的只是在推理过程中调整两个比例因子。

1. Introduction

扩散概率模型是生成模型的一个前沿类别,已经成为研究领域的焦点,特别是与计算机视觉相关的任务[5,6,8,10,12,20,22,26,28,29,32]。不同于其他类型的生成模型[3,7,9,16 - 19,21,25,34,35],如变分自编码器(VAE)[21]、生成对抗网络(GAN)[3,9,16 - 19,25]和矢量量化方法[7,34],扩散模型引入了一种新的生成范式。这些模型采用固定的马尔可夫链来映射潜在空间,促进了复杂的映射,从而捕获数据集中潜在的结构复杂性。最近,其令人印象深刻的生成能力,从高水平的细节到生成示例的多样性,推动了各种计算机视觉应用的突破性进展,如图像合成[12,29,32],图像编辑[1,4,14,24],图像到图像翻译[4,31,36]和文本到视频生成[2,11,13,23,33,37,38,40]。

扩散模型由扩散过程和去噪过程组成。在扩散过程中,高斯噪声逐渐加入到输入数据中,最终将其分解为近似纯高斯噪声。在去噪过程中,原始输入数据通过学习一系列逆扩散操作从噪声状态中恢复。通常,U-Net被训练来迭代地预测每个去噪步骤中要去除的噪声。现有的工作重点是将预训练的扩散U-Net用于下游应用,而扩散U-Net的内部特性在很大程度上仍未得到充分探索。

除了扩散模型的应用之外,本文还对扩散U-Net在去噪过程中的有效性进行了研究。为了更好地理解去噪过程,我们首先提出了一种范式转移到傅里叶域,以透视扩散模型的生成过程,这是一个研究领域,之前的研究有限。如图2所示,最上面一行提供了渐进去噪过程,展示了在连续迭代中生成的图像。随后的两行显示了傅里叶反变换后相关的低频和高频空间域信息,与每个步骤对齐。

在这里插入图片描述

从图2中可以明显看出,低频分量的逐渐调制表现出较低的变化率,而高频分量在整个去噪过程中表现出更明显的动态。这些发现在图3中得到进一步证实。这可以直观地解释为:1)低频分量固有地体现了图像的全局结构和特征,包括全局布局和平滑的颜色。这些组件封装了构成图像本质和表现形式的基本全局元素。它的快速变化通常在去噪过程中是不合理的。这些成分的剧烈变化可能会从根本上重塑图像的本质,这一结果通常与去噪过程的目标不相容。2)相反,高频分量包含图像的快速变化,如边缘和纹理。这些更精细的细节对噪声非常敏感,当噪声被引入图像时,它们通常表现为随机的高频信息。因此,去噪过程需要在去除噪声的同时保留必要的复杂细节。

在这里插入图片描述

鉴于在去噪过程中低频和高频分量之间的这些观察结果,我们扩展了我们的研究,以确定U-Net架构在扩散框架中的具体贡献。在U-Net解码器的每一阶段,跳跃连接得到的跳跃特征和backbone特征被连接在一起。我们的研究表明,U-Net的backbone网主要有助于去噪。相反,可以观察到跳跃连接将高频特征引入解码器模块。这些连接传播细粒度的语义信息,以便更容易地恢复输入数据。然而,这种传播的一个意想不到的后果是在推理阶段backbone网络固有的去噪能力的潜在削弱。这可能导致生成异常的图像细节,如图1第一行所示。

在这里插入图片描述

在这一启示的基础上,我们推进了一种新策略的引入,称为“FreeU”,它具有提高采样质量的潜力,而不需要额外的训练或微调的计算开销。在推理阶段,我们实例化了两个专门的调制因子,旨在平衡U-Net架构的backbone网和跳跃连接的特征贡献。第一种,称为backbone特征因子,旨在放大backbone的特征映射,从而增强去噪过程。然而,我们发现,虽然backbone特征缩放因子的包含产生了显著的改进,但它偶尔会导致不希望的纹理过度平滑。为了缓解这个问题,我们引入了第二个因素,跳跃特征缩放因子,旨在缓解纹理过度平滑的问题。

我们的FreeU框架在与现有扩散模型集成时表现出无缝的适应性,包括文本到图像生成和文本到视频生成等应用。我们对我们的方法进行了全面的实验评估,采用Stable Diffusion[29]、DreamBooth[30]、ReVersion[15]、ModelScope[23]和Rerender[39]作为基准比较的基础模型。通过在推理阶段使用FreeU,这些模型表明生成输出的质量有明显的提高。图1所示的可视化证实了FreeU在显著增强生成图像中的复杂细节和整体视觉保真度方面的功效。我们的贡献总结如下:

  • 我们调查并揭示了U-Net架构在扩散模型中去噪的潜力,并确定其主要backbone主要有助于去噪,而其跳跃连接将高频特征引入解码器模块。
  • 我们进一步介绍了一种简单而有效的方法,称为“FreeU”,它通过利用U-Net架构的两个组件的优势来增强U-Net的去噪能力。它大大提高了生成质量,而不需要额外的训练或微调。
  • 提议的FreeU框架是通用的,与现有的扩散模型无缝集成。我们通过各种基于扩散的方法证明了样品质量的显著改善,显示了FreeU在不增加额外成本的情况下的有效性。

2. Methodology

2.1 初期

扩散模型,如去噪扩散概率模型(Denoising Diffusion probistic models, DDPM)[12],包含了数据建模的两个基本过程:扩散过程和去噪过程。扩散过程的特征是一系列的 T T T步。在每一步 t t t,高斯噪声通过马尔可夫链逐渐引入数据分布 x 0   q ( x 0 ) x_0 ~ q(x_0) x0 q(x0),遵循规定的方差表,表示为 β 1 , … , β t β_1, …, β_t β1,,βt
q ( x t ∣ x t − 1 ) = N ( x t ; 1 − β t x t − 1 , β t I ) (1) q(\boldsymbol{x}_{t}|\boldsymbol{x}_{t-1})=\mathcal{N}(\boldsymbol{x}_{t};\sqrt{1-\beta_{t}}\boldsymbol{x}_{t-1},\beta_{t}\mathcal{I}) \tag{1} q(xtxt1)=N(xt;1βt xt1,βtI)(1)
在给定噪声输入 x t x_t xt的情况下,去噪过程将上述扩散过程逆转为实际的干净数据 x t − 1 x_{t−1} xt1:
p θ ( x t − 1 ∣ x t ) = N ( x t − 1 ; μ θ ( x t , t ) , Σ θ ( x t , t ) ) (2) p_\theta(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t)=\mathcal{N}(\boldsymbol{x}_{t-1};\boldsymbol{\mu}_\theta(\boldsymbol{x}_t,t),\boldsymbol{\Sigma}_\theta(\boldsymbol{x}_t,t)) \tag{2} pθ(xt1xt)=N(xt1;μθ(xt,t),Σθ(xt,t))(2)
μ θ \mu_\theta μθ Σ θ {\Sigma}_\theta Σθ通过估计过程确定,其中包括一个去噪模型,表示为 ϵ θ \epsilon_{\theta} ϵθ。通常,这种去噪模型是使用时间条件U-Net架构实现的。它被训练来消除数据采样中的噪声,同时增强生成采样的整体保真度。

2.2. 扩散U-Net如何进行去噪?

在图2和图3所示的整个去噪过程中观察到的低频和高频成分之间的显着差异的基础上,我们扩展了我们的研究,以描述U-Net架构在去噪过程中的具体贡献,以探索去噪网络的内部属性。如图4所示,U-Net架构包括一个backbone网,包括一个编码器和一个解码器,以及促进编码器和解码器相应层之间信息传输的跳跃连接。

在这里插入图片描述

U-Net的backbone 。为了评估backbone 和横向跳跃连接在去噪过程中的显著特征,我们进行了一个对照实验,其中我们引入两个乘法缩放因子------表示为b和s ------来调制backbone 和跳跃连接在连接之前分别生成的特征映射。如图5所示,可以明显看出,提高backbone 的比例因子b可以明显提高生成图像的质量。相反,调节横向跳跃连接影响的比例因子s的变化似乎对生成图像的质量产生可忽略不计的影响。

在这里插入图片描述

在这些观察的基础上,我们随后探讨了当与backbone 特征映射相关的比例因子b增加时,图像生成质量增强的潜在机制。我们的分析表明,这种质量的提高从根本上与U-Net架构backbone 所赋予的放大去噪能力有关。如图6所示,b的相应增加导致扩散模型生成的图像中的高频成分受到抑制。这意味着增强backbone 特征有效地增强了U-Net体系结构的去噪能力,从而有助于在保真度和细节保存方面获得更好的输出。

U-Net的跳跃连接。相反,跳跃连接用于将编码器块的较早层的特征直接加到解码器。有趣的是,如图7所示,这些特征主要构成高频信息。基于这一观察,我们推测,在U-Net架构的训练过程中,这些高频特征的存在可能会无意中加速解码器模块内对噪声预测的收敛。此外,图5中调制跳跃特征的有限影响也表明,跳跃特征主要贡献解码器的信息。反过来,这种现象可能会导致backbone在推理过程中固有去噪能力的有效性的意外衰减。因此,这一观察结果提出了有关backbone和跳跃连接在U-Net框架的复合去噪性能中所起的平衡作用的相关问题。

在这里插入图片描述

2.3. 扩散U-Net的免费午餐

基于上述发现,我们引入了一种简单而有效的方法,称为“FreeU”,通过利用U-Net架构两个组件的优势,有效地增强了U-Net架构的去噪能力。它大大提高了生成质量,而不需要额外的训练或微调。

从技术上讲,对于U-Net解码器的第 l l l块,设 x l x_l xl表示来自前一个块的backbone网的backbone特征映射,设 h l h_l hl表示通过相应的跳跃连接传播的特征映射。为了调制这些特征映射,我们引入了两个标量因子:用于 x l x_l xl的backbone特征缩放因子 b l b_l bl和用于 h l h_l hl的尚未定义的跳跃特征缩放因子 s l s_l sl。其中,因子 b l b_l bl用于放大backbone特征图 x l x_l xl,因子 s l s_l sl用于衰减跳跃特征图 h l h_l hl

对于backbone特征,我们引入了一种新的结构相关缩放方法,它可以动态地调整每个采样的backbone特征的缩放。不同于将固定比例因子均匀地应用于同一通道内的所有采样或位置,我们的方法根据采样特征的特定特征自适应地调整比例因子。我们首先计算出沿通道维度的平均特征图:
x ˉ l = 1 C ∑ i = 1 C x l , i , (3) \bar{\boldsymbol{x}}_l=\frac{1}{C}\sum_{i=1}^C\boldsymbol{x}_{l,i}, \tag{3} xˉl=C1i=1Cxl,i,(3)
式中 x l , i x_{l,i} xl,i表示特征映射 x l x_l xl的第 i i i个通道。 C C C表示 x l x_l xl中的通道总数。随后,确定backbone因子图如下:
α l = ( b l − 1 ) ⋅ x ˉ l − M i n ( x ˉ l ) M a x ( x ˉ l ) − M i n ( x ˉ l ) + 1 , (4) \alpha_l=(b_l-1)\cdot\frac{\bar{\boldsymbol{x}}_l-Min(\bar{\boldsymbol{x}}_l)}{Max(\boldsymbol{\bar{x}}_l)-Min(\boldsymbol{\bar{x}}_l)}+1, \tag{4} αl=(bl1)Max(xˉl)Min(xˉl)xˉlMin(xˉl)+1,(4)
式中 α l α_l αl表示backbone因子图。 b l b_l bl是一个标量常数。然后,经过实验研究,我们发现,通过与 α l α_l αl相乘,不加选择地放大 x l x_l xl的所有通道会在合成图像中产生过度平滑的纹理。原因是增强的U-Net在去噪时损害了图像的高频细节。因此,我们将缩放操作限制为 x l x_l xl的一半通道,如下所示:
x l , i ′ = { x l , i ⊙ α l , if i < C / 2 x l , i , otherwise (5) x_{l,i}^{'}=\begin{cases}x_{l,i}\odot\alpha_l,&\text{if} i<C/2\\x_{l,i},&\text{otherwise}\end{cases} \tag{5} xl,i={xl,iαl,xl,i,ifi<C/2otherwise(5)
的确,如图8所示,平均特征图 x ˉ l \bar{\boldsymbol{x}}_l xˉl固有地包含有价值的结构信息。因此,backbone因子图 α l α_l αl有助于以与其结构特征相一致的方式放大backbone特征图 x l x_l xl。这种策略方法有助于缓解过度平滑的问题。重要的是,这种策略提供了双重好处。首先,增强了backbone特征映射的去噪能力,使其能够更有效地滤除噪声;其次,它避免了在整个特征图上不加选择地应用缩放所带来的不利影响,从而在降噪和纹理保存之间实现了更微妙的平衡。

在这里插入图片描述

为了进一步缓解由于增强去噪而导致的纹理过平滑问题,我们进一步在傅里叶域中采用频谱调制来选择性地减少跳跃特征的低频成分。数学上,该操作执行如下:
F ( h l , i ) = F F T ( h l , i ) F ′ ( h l , i ) = F ( h l , i ) ⊙ β l , i h l , i ′ = I F F T ( F ′ ( h l , i ) ) \begin{align} \mathcal{F}(h_{l,i})& =\mathrm{FFT}(\boldsymbol{h}_{l,i}) \tag{6}\\ \mathcal{F}^{\prime}(\boldsymbol{h}_{l,i})& =\mathcal{F}(h_{l,i})\odot\beta_{l,i} \tag{7}\\ h_{l,i}^{\prime}& =\mathrm{IFFT}(\mathcal{F}^{\prime}(\boldsymbol{h}_{l,i})) \tag{8} \end{align} F(hl,i)F(hl,i)hl,i=FFT(hl,i)=F(hl,i)βl,i=IFFT(F(hl,i))(6)(7)(8)
其中 F F T ( ⋅ ) FFT(·) FFT() I F F T ( ⋅ ) IFFT(·) IFFT()分别为傅里叶变换和逆傅里叶变换。 ⊙ ⊙ 表示元素element-wise的乘法, β l , i β_{l,i} βl,i是一个傅立叶掩模,设计为傅立叶系数大小的函数,用于实现频率相关的比例因子 s l s_l sl
β l , i ( r ) = { s l if  r < r thresh , 1 otherwise. (9) \beta_{l,i}(r)=\begin{cases}s_l&\text{if }r<r_\text{thresh},\\1&\text{otherwise.}\end{cases} \tag{9} βl,i(r)={sl1if r<rthresh,otherwise.(9)
r r r是半径。 r t h r e s h r_{thresh} rthresh是阈值频率。然后,将增强的跳跃特征图 h l ′ h^{'}_l hl与U-Net架构中后续层修改的backbone特征图 x l ′ x^{'}_l xl连接起来,如图4所示。

值得注意的是,拟议的FreeU框架不需要任何特定任务的训练或微调。只需几行代码就可以轻松地添加backbone和跳过缩放因子。本质上,架构的参数可以在推理阶段自适应地重新加权,这允许更灵活和有效的去噪操作,而不增加任何计算负担。这使得FreeU成为一个非常实用的解决方案,可以无缝地集成到现有的扩散模型中,以提高它们的性能。

3. Experiments

3.1. 实现细节

为了评估所提出的FreeU的有效性,我们系统地进行了一系列实验,将我们的基准与最先进的方法(如Stable Diffusion[29]、DreamBooth[30]、ModelScope[23]和render[39])相一致。重要的是,我们的方法与这些已建立的方法无缝集成,而不会强加任何与补充训练或微调相关的额外计算开销。我们一丝不苟地遵循这些方法的规定设置,在推理过程中专门引入backbone特征因子和跳跃特征因子。

3.2. Text-to-image

稳定扩散[29]是一种潜在的文本到图像扩散模型,以其基于文本输入生成逼真图像的能力而闻名。它在各种图像合成任务中一直表现出优异的性能。通过将FreeU增强集成到Stable Diffusion中,结果如图9所示,模型的生成能力得到了显著增强。

在这里插入图片描述

更详细地说,将FreeU整合到Stable Diffusion[29]中可以改善实体描述和细粒度细节。例如,当提示“a blue car is being filmed”时,FreeU对图像进行了细化,消除了屋顶的不规则性,增强了周围结构的纹理复杂性。在“Mother rabbit is raising baby rabbits”的案例中,FreeU确保生成的图像描绘了一只正常外观的兔妈妈照顾小兔子。此外,在““a attacks an upset cat and is then chased off”和“A teddy bear walking in the snowstorm”等场景中,FreeU可以帮助生成更逼真的猫和泰迪熊。令人印象深刻的是,在回应“A cat riding a motorcycle”的复杂提示时,FreeU不仅准确地呈现了各个实体,还熟练地捕捉了它们之间的微妙关系,确保猫积极参与骑行。在图10中,我们展示了基于SDXL框架生成的图像[27]。很明显,我们提出的FreeU始终擅长生成逼真的图像,特别是在细节生成方面。这些令人信服的结果证明了FreeU与SD[29]或SDXL[27]框架的协同作用所产生的实质性质的增强。

在这里插入图片描述

定量评价。我们对35名参与者进行了一项研究,以评估图像质量和图像-文本对齐。每个参与者收到一个文本提示和两个相应的合成图像,一个来自SD,另一个来自SD+FreeU。为了保证公平性,我们使用相同的随机抽样随机种子来生成两个图像。图像序列被随机化以消除任何偏差。然后,参与者分别选择他们认为图像-文本对齐和图像质量较好的图像。我们将SD和SD+FreeU在每个类别中的投票情况列在表1中。我们的分析显示,大多数人投票给SD+FreeU,这表明FreeU在两个评估方面都显著增强了Stable Diffusion text-to-image模型。

在这里插入图片描述

3.3. Text-to-video

前卫的文本到视频扩散模型ModelScope[23]站在了文本描述生成视频的前沿。如图11所示,将我们的FreeU增强功能注入ModelScope[23]有助于进一步磨练其视频合成能力。例如,当提示“A movie view of the ocean, from A cave”时,FreeU使ModelScope[23]能够生成“from A cave”的视角,丰富了视觉叙事。在“A cartoon of an elephant walking”中,ModelScope[23]最初生成的是一个有两条鼻子的大象,但在FreeU的加入下,它纠正了这一异常,并生成了一个运动中的大象的正确描述。此外,针对“An astronaut flying in space”的提示,ModelScope[23]在FreeU的辅助下,可以生成一个清晰、生动的宇航员漂浮在外太空的画面。

在这里插入图片描述

这些结果强调了FreeU与ModelScope的协同应用所取得的重大改进[23],从而产生了高质量的生成内容,其特点是运动清晰、细节丰富、语义一致。

定量评价。我们以类似于文本到图像的方式对FreeU的文本到视频任务进行定量评估。从表2的结果可以看出,大多数参与者更喜欢使用FreeU生成的视频。

在这里插入图片描述

3.4. 下游任务

FreeU在各种扩散模型应用中提供了合成样品质量的实质性增强。我们的评估从基础图像和视频合成模型扩展到更专业的下游应用。

我们将FreeU纳入Dreambooth[30],这是一种专门用于个性化文本到图像任务的扩散模型。增强是明显的,如图12所示,合成图像在真实感方面有明显的改进。例如,DreamBooth的基础模型[30]很难从“a photo of action figure riding a motorcycle”的提示中综合出人物腿的样子,而FreeU-augmented版则巧妙地克服了这一障碍。同样,对于提示“A toy on a beach”,最初的输出显示了身体形状的异常。FreeU的集成改进了这些缺陷,提供了更准确的表现和提高色彩保真度。

在这里插入图片描述

我们还将FreeU集成到基于稳定扩散的关系反演方法ReVersion[15]中,增强了其质量,如图13所示。例如,当两个孩子之间要表达“back to back”关系时,FreeU增强了ReVersion准确表示这种关系的能力。对于“inside”关系,当一只狗被放在一个篮子里时,ReVersion有时会生成一只带有伪影的狗,而引入FreeU有助于消除这些工件。虽然ReVersion有效地捕获了关系概念,但由于U-Net跳跃特征中过多的高频噪声,稳定扩散有时可能难以合成关系概念。添加FreeU后,通过使用与ReVersion完全相同的关系提示符,可以获得更好的实体和关系合成质量。

在这里插入图片描述

此外,我们评估了FreeU对renderer的影响[39],renderer是一种为zero-shot文本引导视频到视频翻译量身定制的扩散模型。结果如图14所示:合成视频的细节和真实感都有明显改善。例如,当提供提示“A dog wearing sunglasses”和输入视频时,Rerender[39]最初会产生一个带有与“sunglasses”相关伪影的狗视频。然而,FreeU的结合成功地消除了这些工件,从而产生了精确的输出。

在这里插入图片描述

总之,这些结果证实,FreeU的结合导致实体表征和合成质量的增强,使用完全相同的学习提示。

3.5. 消融实验

FreeU的效果。FreeU的引入主要目的是增强扩散模型中U-Net体系结构的去噪能力。为了评估FreeU的影响,我们使用Stable Diffusion[29]作为基础框架进行了分析实验。在图15中,我们展示了稳定扩散的傅里叶变换的相对对数幅值的可视化[29],比较了加入和不加入FreeU的情况。这些可视化结果表明,FreeU在去噪过程的每一步都对减少高频信息产生了明显的影响,这表明FreeU有能力有效地去噪。此外,我们通过可视化U-Net架构的特征图来扩展我们的分析。

在这里插入图片描述

如图16所示,我们观察到FreeU生成的特征图包含更明显的结构信息。这一观察结果与FreeU的预期效果一致,因为它在有效去除噪声的同时保留了复杂的细节,与模型的去噪目标相协调。

FreeU中各组件的作用。我们评估了所提出的FreeU策略的效果,即引入backbone特征缩放因子和跳过特征缩放因子,以复杂地平衡UNet架构的主backbone和跳跃连接的特征贡献。在图17中,我们给出了我们的评估结果。在SD+FreeU(b)的情况下,在推理过程中集成了backbone比例因子,我们观察到与单独SD[29]相比,在生成生动细节方面有显着改善。例如,当提示“A fat rabbit wearing a purple robe walking through a fantasy landscape”时,SD+FreeU(b)生成了一只具有正常手臂和耳朵的更真实的兔子,而SD[29]则相反。

在这里插入图片描述

然而,必须注意的是,虽然包含特征缩放因子会产生显着的改进,但它偶尔会导致不受欢迎的纹理过度平滑。为了缓解这一问题,我们引入了跳跃特征缩放因子,旨在减少低频信息并缓解纹理过平滑问题。如图17所示,在SD+FreeU(b & s)中,backbone网和跳跃特征比例因子的结合可以生成更逼真的图像。例如,在提示A synthwave style sunset above the reflecting water of the sea, digital art”中,与SD+FreeU(b & s)相比,SD+FreeU(b)生成的日落天空更具真实感。这突出了综合FreeU策略在平衡特征和减轻与纹理平滑相关的问题方面的功效,最终导致更忠实和逼真的图像生成。

backbone结构相关因素的影响。我们评估了所提出的backbone缩放策略(结构相关缩放)在降噪和纹理保存之间的微妙平衡方面的效果。如图18所示,与SD生成的结果相比[29],我们观察到当使用恒定的比例因子时,FreeU生成的图像质量有了很大的提高。

在这里插入图片描述

然而,需要强调的是,固定比例因子的使用可能会产生不良后果,表现为纹理的明显过度平滑和不希望的颜色过饱和度。相反,FreeU与结构相关的缩放因子图采用自适应缩放方法,利用结构信息来指导backbone因子图的分配。我们的观察表明,FreeU与结构相关的比例因子图有效地缓解了这些问题,并在生成生动和复杂的细节方面取得了显著的进步。

4. Conclusion

在这项研究中,我们介绍了一种优雅简单但高效的方法,称为FreeU,它大大提高了扩散模型的采样质量,而不会产生任何额外的计算成本。由于跳跃连接和backbone特征在U-Net架构中所起的基本作用,我们深入分析了它们在扩散U-Net中的影响。我们的研究表明,backbone网主要用于去噪,而跳跃连接主要将高频特征引入解码器,可能导致忽略基本的backbone网语义。为了解决这个问题,我们策略性地重新加权了来自U-Net的跳跃连接和backbone特征图的贡献。这种重新加权过程利用了U-Net组件的独特优势,从而在广泛的文本提示和随机种子中大幅提高了采样质量。我们提出的FreeU可以无缝集成到各种扩散基础模型及其下游任务中,提供了一种提高样品质量的通用方法。


原文地址:https://blog.csdn.net/weixin_43790925/article/details/140617271

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!