图文检索（26）：StyleMeUp: Towards Style-Agnostic Sketch-Based Image Retrieval

🕗 发布于 2024-11-22 14:47 sketch 人工智能 算法

StyleMeUp: Towards Style-Agnostic Sketch-Based Image Retrieval

摘要
3 方法
- 3.1 跨模态翻译解耦
- 3.2 自适应解耦的元学习
结论

发布时间（cvpr 2021）

标题：StyleMeUp：面向风格无关的基于素描的图像检索

摘要

本文创新
传统：联合嵌入空间，保留两者共享语义内容
本文：考虑到 sketch 不同绘制者之间风格的多样性。
1）跨模态变分自动编码器（VAE）将sketch 解耦为两部分：photo 共享语义 + sketch 绘制者独有风格
2）如何推广到看不见的风格？使用元学习：编码器特征转换层 + 正则化器解耦语义内容

补充知识
AE：普通的将输入数据压缩到一个潜在空间表示，然后再将其解码回原始数据空间
VAE：除了AE的这部分。还将这个潜在表示看作从高斯分布采样而来，额外再加一个损失用于衡量两个分布之间的差异（数据符合高斯分布这是一种合理的先验假设，符合数据分布的一般性假设）
元学习：从多个不同的学习任务中学习共性知识

3 方法

overview
模态分为两种语义：
适合跨模态匹配的语义
模态特定语义：干扰SBIR

类别用 C 表示
类别里面的 sketch-photo pair 用 d 表示

3.1 跨模态翻译解耦

解耦模型：VAE模型
1）模态内重建
2）模态间翻译

VAE模型
1）原理：原始 VAE 模型通过优化数据对数似然的变分下限来产生潜在表示
2）结构：
编码器：q（z|x）
潜在空间的先验分布p（z）是正态分布均值0
编码器返回正态分布均值μ
解码器：p（x|z）

流形manifold：流形是一种几何对象，它在局部上具有简单的结构。例如，一张苹果的素描和一张苹果的照片，在这个流形上它们的位置是比较接近的，因为它们在语义上都和 “苹果” 这个对象有关。模型就可以利用这个流形的结构来更好地理解和关联不同模态的数据，比如根据素描来找到语义相关的照片。

模型运行流程
1）输入 I 经过 encoder 得到两部分
2）在潜在空间解耦，modal-invariant component (zinv) 和 variable (modal-specific) component (zvar)
最终的潜在分量 zf = zvar 加和 zinv
3）zf 进入 decoder 重构，得到 ˆI

损失函数四部分：
VAE两部分
1）输入 I 的重构损失。原始是一个 zf 重构 ˆI 的期望，现实简化为 ˆI 与 I 之间的欧式距离
（不同风格的重建损失）
2）潜在表示的 KL 散度损失

传统检索两部分：
1）不变分量的三元组损失
2）潜在表示的三元组损失

3.2 自适应解耦的元学习

overview
元学习：动态适应变化的 sketch 风格

任务采样
1）多个任务中随机采样一个任务
2）M个类别中随机采样一个类别
3）类别中 ri 个样本对用来验证，Ni 个样本对用来训练
4）从其余 M-1 类别中选择硬负例，以确保实例完全不同。

为了元学习，引入两个新组件：

元增强特征编码器
编码器加入特征转换层：减小 sketch 中的风格差异
表示采样仿射变换参数的高斯分布标准差的超参数
因此，激活变为：ˆF = η × F + ω
内循环和外循环损失更新

元正则化解耦
不变特征优化

元优化
损失

结论

在本文中，我们解决了基于素描的图像检索的一个关键挑战——每个人对同一物体的素描方式都不同。提出了一种新颖的风格无关的 SBIR 模型，以明确考虑风格多样性，以便可以推广到看不见的素描风格。该模型基于跨模态 VAE，用于将学习到的照片/素描潜在表示分解为模态不变部分和模态特定部分。为了使这种分解适应看不见的素描风格，该模型进行了元学习，并引入了两个新组件以实现更好的泛化。大量实验表明，我们的方法明显优于现有的替代方法。

原文地址：https://blog.csdn.net/zhuzaiyebol/article/details/143799157

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：图文检索（27）：Generalising Fine-Grained Sketch-Based Image Retrieval
下一篇：linux 下排查 CPU 占用过高问题

JavaWeb开发深度解析与实践案例
本文详细介绍了JavaWeb开发的基础知识、现代框架的使用，并通过一个简单的用户管理系统实战案例，展示了从Model到Controller的完整开发流程。JavaWeb开发不仅仅是技术栈的选择，更是一
阅读更多2024-11-23
【读点论文】Text Detection Forgot About Document OCR，很实用的一个实验对比案例，将科研成果与商业产品进行碰撞
表 3 所选文本检测方法与 MMOCR 的 SAR 和 MASTER 默认模型、微调 SAR 以及 docTR 的 CRNN 默认模型相结合，在 FUNSD 和 CORD 上的识别性能比较，以 C
阅读更多2024-11-23
网络无人值守批量装机-cobbler
上一节中的pxe+kickstart已经可以解决网络批量装机的问题了，但是环境配置过于复杂，而且仅针对某一个版本的操作系统进批量安装则无法满足目前复杂环境的部署需求。本小节所讲的cobbler
阅读更多2024-11-23
期权懂|期权中的行权和平仓的区别在于哪里？
期权小懂每日分享期权知识，帮助期权新手及时有效地掌握即市趋势与新资讯！
阅读更多2024-11-23
golang面试题
Go面试真题，⚡根据真实面试经历，筛选收集各公司岗位面试过程中涉及的《GOLANG高频面试真题》
阅读更多2024-11-23
CompressAI安装！！！
注意：加载的时候会有一点慢，但是没关系，等等就可以啦！我就不说废话了，直接给教程，还是非常简单的。如果你是windows 就........也是刚开始加载的时候有点慢，需要等一等。注意：一定要有这个点
阅读更多2024-11-23
【YOLOv8】安卓端部署-2-项目实战
【YOLOv8】安卓端部署-2-项目实战
阅读更多2024-11-23
【华为云函数工作流】python的函数中如何获取请求链接中带的参数
【华为云函数工作流】python的函数中如何获取请求链接中带的参数
阅读更多2024-11-23
华为云容器监控平台
首先搜索CCE,点击云容器引擎CCE。工作负载--直接查询服务名看监控。有不同的测试，生产，正式环境。
阅读更多2024-11-23
一场开源视角的AI会议即将在南京举办
一场开源视角的AI会议，将于2024年11月30日在南京举办。此次活动，知名开源导师-庄表伟老师将为大家介绍自己搭建的AI框架，同时被誉为2024年度的“开源之星”、[开源之道]主创·适兕老师也将亲临
阅读更多2024-11-23

图文检索（26）：StyleMeUp: Towards Style-Agnostic Sketch-Based Image Retrieval

StyleMeUp: Towards Style-Agnostic Sketch-Based Image Retrieval

摘要

3 方法

3.1 跨模态翻译解耦

3.2 自适应解耦的元学习

结论

相关文章