EI-CLIP 深度理解 PPT

🕗 发布于 2024-10-17 22:57 人工智能 机器学习 深度学习 论文笔记 transformer

系列文章目录

文章目录

在这里插入图片描述
在电子商务产品的跨模态检索中，电子商务图像和电子商务语言都有许多独特的特点。如图所示，一个电子商务产品图片通常只包含一个简单的场景，有一个或两个前景物体和一个普通的背景。同时，电子商务语言通常由一组元数据（标签实体)组成，包括产品名称/描述、品牌、类别、成分等。之前的工作,如FashionBERT 表明，时尚领域的跨模态检索需要更细粒度的特征,比如如短袖和圆领。
在这里插入图片描述
在电子商务中，单词标记经常会产生特殊的含义，而[10，38，72]中的预训练语言模型部分尽管有大规模的预训练语料库，但仍有偏见。例如，在预训练的CLIP模型中，实体“diesel”与概念“fuel”紧密相关，而在电子商务时尚领域中，“diesel”被标记为品牌实体。其他例子包括“canada goose（品牌）“、“golden goose（品牌）”、“top（类别）"等
在这里插入图片描述
介绍一下因果学习，和分布外的问题，根据应用场景的不同Causal learning 的最终目的是不同的，其中一个比较重要的目的就是想解决Machine learning的Out-of-Distribution Generalization（OODG）的问题。假设我们想分类骆驼和奶牛的图片, ，我们获得的图片中大概率是下图的情形。
。比如我们的训练数据中，骆驼大多数出现在沙化的土地（背景偏黄），奶牛大多数出现在长有植被的土地（背景偏绿）。这样一来，由于背景往往占据图片的主要内容，我们的模型学到的很可能是背景相关的特征，比如背景颜色，然后使用背景颜色对图片进行分类。即使我们在训练集上得到比较好的效果，但是如果测试集的分布和训练集不一样，那就出问题了。也就是说，如果新的测试集也是骆驼大多数背景偏黄，奶牛大多数背景偏绿，那么我们的模型可能还是会有比较好的表现。但如果不是这种情形，而是下图中的情形，那么模型很可能表现很糟糕

在这里插入图片描述
上图中，我们可以看到骆驼出现在了绿化草地，而奶牛出现在了沙化草地，这种情形在现实生活中还是可能存在的。如果我们新的数据中这种类型的图片较多（数据分布和之前的不同），而我们之前的模型又是根据背景色进行预测，可想而知预测结果肯定不好。更有甚者，我们可以随意的进行PS，把背景换成任意的形式，比如下图中的情形。
在这里插入图片描述介绍一下混杂因素，或者叫干扰因子。多模态微调中存在分布外问题,Zhang等人将图像和语言之间的这种不受欢迎的虚假相关性表述为从预训练数据集学习的“混杂因素”。Zhang等人通过使用结构因果模型（SCM）图建模，通过后门干预进行硬干预以消除数据集偏倚。在SCM图中，每个节点代表一个变量，有向边表示因果影响。例如，如果变量 AA 影响变量 BB，则会有一条从 AA 到 BB 的有向边。也就是说他们通过硬干预：也就是主动改变模型中某个变量的值，以观察其对其他变量的影响，来得出结论这个变量是不是真正的因，然后消除数据集偏倚，使得模型泛化能力强，数据集偏差就指训练数据未能准确代表目标人群或模型应用时的条件。这可能导致模型的泛化能力差和预测偏差。

在这里插入图片描述
Zhang等人的缺点：遵循传统的BERT令牌词汇表，将每个实体视为一组（子）单词令牌。这忽略了电子商务中大量的特殊含义实体，不可避免地使不同的实体与共享的混淆（子）单词令牌（诸如“Canada Goose”和“Golden Goose”）相互干扰。假设我们有两个品牌：Canada Goose：一个知名的冬季服装品牌，以其高质量的羽绒服著称。Golden Goose：一个意大利品牌，以其独特设计的运动鞋而闻名。在BERT模型中，这两个品牌名可能被拆分成以下（子）词令牌：“Canada Goose” 可能被拆分为 “Canada” 和 “Goose”。“Golden Goose” 可能被拆分为 “Golden” 和 “Goose”。这两个品牌都包含“Goose”这个子词令牌。这意味着在模型的词汇中，“Goose”可能被视为一个普通的词汇，而不是特定于某个品牌的标识。
共享的子词令牌：这两个品牌都包含“Goose”这个子词令牌。这意味着在模型的词汇中，“Goose”可能被视为一个普通的词汇，而不是特定于某个品牌的标识。
当模型处理与“Canada Goose”相关的图像或文本时，它可能会错误地将某些特征与“Golden Goose”关联起来，因为它们共享“Goose”这个子词令牌。

在这里插入图片描述
Meta数据的多样性导致了动机2：Meta数据对跨模态检索的贡献是不均匀的。具体来说，以前的方法通常将所有元数据连接在一起以形成长句。然而，这种简单的解决方案平等地对待每个Meta信息是不对的，有些元数据甚至可能对检索有害
在这里插入图片描述

这是文章的整体框架，相比CLIP他多了两个模块，EA-学习者，CE选择者。

首先我们把CLIP放到因果观中。最后分类分类就变成了第二个公式。

首先这个CE选择者就是根据动机2设计，首先把品牌，季节，类别等这些标签分别作为一个实体，我们选择一部分实体放入模型中进行训练。让模型自己选择哪些标签也就是说实体是有助于分类的。
在这里插入图片描述
EA学习者模块旨在明确捕获每个个体实体信息，而无需担心通用和电子商务领域之间的模糊实体语义或由于共享（子）单词标记而交织的实体表示。也就是针对之前的动机-1，也就是将之前的那个公式，给参数化了。EjI就是图像的特征，EiD就是文本的特征，然后EiA就是元数据、标签的特征，这里比如加拿大鹅两个单词不会再拆分而是一体的。
在这里插入图片描述

原文地址：https://blog.csdn.net/buyaotutou/article/details/142992105

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：曝iPhone 18 Pro Max首发2nm芯片：内存升级12GB
下一篇：TCP/IP协议栈

【linux】进程状态与优先级
🔥个人主页Quitecoder🔥linux笔记仓。
阅读更多2024-10-18
一款快速搭建AI知识库的系统，快速建立AI知识库、帮助中心、FAQs、SOPs、说明书、企业博客（附源码）
一款快速搭建AI知识库的系统，拥有强大的功能，包括快速精准的知识检索、灵活定制的文档系统以及AI智-能搜索。
阅读更多2024-10-18
开发中众多框架的个人理解,Unity设计模式，MVC,MVVM框架
在软件开发中，架构模式是设计和组织代码的重要方法。本文将详细介绍三种流行的架构模式：ECS（Entity-Component-System）、MVC（Model-View-Controller）和MV
阅读更多2024-10-18
【vivado】vivado联合modelsim仿真
vivado联合modelsim仿真配置方法
阅读更多2024-10-18
基于深度学习的设备异常检测与预测性维护
基于深度学习的设备异常检测与预测性维护利用智能算法帮助工业企业提升设备的可靠性，降低停机时间和维护成本。随着深度学习技术的不断发展，其在工业自动化中的应用潜力将进一步得到挖掘。
阅读更多2024-10-18
linux grep 问题： Binary file (standard input) matches
在 Linux 中使用grep命令搜索文件时，如果遇到二进制文件（如可执行文件、图片、压缩文件等），grep默认会输出一条警告信息，比如 “Binary file (standard input) m
阅读更多2024-10-18
思迅商云8四级分类
-请确认在系统未正式使用前执行，否则商品类别可能存在关联性问题，正常情况下商品类别是3级2位，超过3级类别，只支持每级1位编码。--以下语句是将商云8转换成6级1位编码。--修改为6级类别，每位编码1
阅读更多2024-10-18
十月编程语言排行榜~
编程语言排行榜分析及未来展望！
阅读更多2024-10-18
【Java 并发编程】阻塞队列与仿真餐厅
生产者和消费者彼此之间不直接通讯，而通过阻塞队列来进行通讯，所以生产者生产完数据之后不用等待消费者处理，直接扔给阻塞队列，消费者不找生产者要数据，而是直接从阻塞队列里取，阻塞队列就相当于一个缓冲区，平
阅读更多2024-10-18
嵌入式开发选硬件还是软件？
然而，单纯的数字硬件工作，如原理图绘制、PCB设计等，，这类工作主要涉及熟悉各种接口和芯片使用，通常在1-3年内就能基本掌握，后续发展可能面临瓶颈，相对来说成长空间较小，也更容易被替代。硬件项目的开发
阅读更多2024-10-18

EI-CLIP 深度理解 PPT

系列文章目录

文章目录

相关文章