图文检索(26):StyleMeUp: Towards Style-Agnostic Sketch-Based Image Retrieval
StyleMeUp: Towards Style-Agnostic Sketch-Based Image Retrieval
发布时间(cvpr 2021)
标题:StyleMeUp:面向风格无关的基于素描的图像检索
摘要
本文创新
传统:联合嵌入空间,保留两者共享语义内容
本文:考虑到 sketch 不同绘制者之间风格的多样性。
1)跨模态变分自动编码器(VAE)将sketch 解耦为两部分:photo 共享语义 + sketch 绘制者独有风格
2)如何推广到看不见的风格?使用元学习:编码器特征转换层 + 正则化器解耦语义内容
补充知识
AE:普通的将输入数据压缩到一个潜在空间表示,然后再将其解码回原始数据空间
VAE:除了AE的这部分。还将这个潜在表示看作从高斯分布采样而来,额外再加一个损失用于衡量两个分布之间的差异(数据符合高斯分布这是一种合理的先验假设,符合数据分布的一般性假设)
元学习:从多个不同的学习任务中学习共性知识
3 方法
overview
模态分为两种语义:
适合跨模态匹配的语义
模态特定语义:干扰SBIR
类别用 C 表示
类别里面的 sketch-photo pair 用 d 表示
3.1 跨模态翻译解耦
解耦模型:VAE模型
1)模态内重建
2)模态间翻译
VAE模型
1)原理:原始 VAE 模型通过优化数据对数似然的变分下限来产生潜在表示
2)结构:
编码器:q(z|x)
潜在空间的先验分布p(z)是正态分布均值0
编码器返回正态分布均值μ
解码器:p(x|z)
流形manifold:流形是一种几何对象,它在局部上具有简单的结构。例如,一张苹果的素描和一张苹果的照片,在这个流形上它们的位置是比较接近的,因为它们在语义上都和 “苹果” 这个对象有关。模型就可以利用这个流形的结构来更好地理解和关联不同模态的数据,比如根据素描来找到语义相关的照片。
模型运行流程
1)输入 I 经过 encoder 得到两部分
2)在潜在空间解耦,modal-invariant component (zinv) 和 variable (modal-specific) component (zvar)
最终的潜在分量 zf = zvar 加和 zinv
3)zf 进入 decoder 重构,得到 ˆI
损失函数四部分:
VAE两部分
1)输入 I 的重构损失。原始是一个 zf 重构 ˆI 的期望,现实简化为 ˆI 与 I 之间的欧式距离
(不同风格的重建损失)
2)潜在表示的 KL 散度损失
传统检索两部分:
1)不变分量的三元组损失
2)潜在表示的三元组损失
3.2 自适应解耦的元学习
overview
元学习:动态适应变化的 sketch 风格
任务采样
1)多个任务中随机采样一个任务
2)M个类别中随机采样一个类别
3)类别中 ri 个样本对用来验证,Ni 个样本对用来训练
4)从其余 M-1 类别中选择硬负例,以确保实例完全不同。
为了元学习,引入两个新组件:
元增强特征编码器
编码器加入特征转换层:减小 sketch 中的风格差异
表示采样仿射变换参数的高斯分布标准差的超参数
因此,激活变为:ˆF = η × F + ω
内循环和外循环损失更新
元正则化解耦
不变特征优化
元优化
损失
结论
在本文中,我们解决了基于素描的图像检索的一个关键挑战——每个人对同一物体的素描方式都不同。提出了一种新颖的风格无关的 SBIR 模型,以明确考虑风格多样性,以便可以推广到看不见的素描风格。该模型基于跨模态 VAE,用于将学习到的照片/素描潜在表示分解为模态不变部分和模态特定部分。为了使这种分解适应看不见的素描风格,该模型进行了元学习,并引入了两个新组件以实现更好的泛化。大量实验表明,我们的方法明显优于现有的替代方法。
原文地址:https://blog.csdn.net/zhuzaiyebol/article/details/143799157
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!