ER论文阅读-Decoupled Multimodal Distilling for Emotion Recognition

🕗 发布于 2024-09-23 05:34 论文阅读

基本介绍：CVPR, 2023, CCF-A

原文链接：https://openaccess.thecvf.com/content/CVPR2023/papers/Li_Decoupled_Multimodal_Distilling_for_Emotion_Recognition_CVPR_2023_paper.pdf

Abstract

多模态情感识别（MER）旨在通过语言、视觉和听觉模态感知人类情感。尽管先前的MER方法表现出色，但多模态固有的异质性仍然是一个挑战，不同模态的贡献差异显著。在本研究中，我们通过提出解耦的多模态蒸馏（DMD）方法来缓解这一问题，促进灵活且自适应的跨模态知识蒸馏，旨在增强每个模态的判别性特征。具体来说，每个模态的表示被解耦为两部分，即模态无关和模态专属空间，以一种自回归的方式进行解耦。DMD使用了一个图蒸馏单元（GD-Unit）来处理每个解耦的部分，从而使每个GD能够以更加专业和有效的方式执行。GD-Unit由一个动态图组成，其中每个节点表示一个模态，每条边表示一个动态的知识蒸馏过程。这种GD范式提供了一种灵活的知识传递方式，蒸馏权重可以自动学习，从而实现多样化的跨模态知识传递模式。实验结果表明，DMD在性能上持续优于最先进的MER方法。可视化结果显示，DMD中的图边在模态无关-专属特征空间上展现了有意义的分布模式。

Introduction

多模态情感识别（MER）旨在通过视频片段感知人类的情感态度。视频流包含来自多种模态的时间序列数据，例如语言、声音和视觉。这种丰富的多模态性使我们能够从协同的角度理解人类行为和意图。近年来，MER已成为情感计算领域最活跃的研究课题之一，拥有诸多吸引人的应用，如智能辅导系统、产品反馈评估和机器人技术。

对于MER，同一视频片段中的不同模态通常是互补的，能够提供额外的线索，用于语义和情感的消歧。MER的核心部分是多模态表示学习和融合，即模型旨在编码和整合来自多种模态的表示，以理解原始数据背后的情感。尽管主流MER方法取得了显著成果，但不同模态之间的固有异质性仍然困扰我们，增加了稳健多模态表示学习的难度。不同的模态（如图像、语言和声音）在传递语义信息时采用不同的方式。通常，语言模态由有限的转录文本组成，其语义比非语言行为更为抽象。如图1（a）所示，语言在MER中发挥着最重要的作用，而模态之间的固有异质性导致了不同模态在性能上的显著差异。

减轻显著模态异质性的一种方法是将强模态中的可靠且可推广的知识蒸馏到弱模态中。如图1（b）所示，然而，手动分配蒸馏方向或权重可能非常繁琐，因为存在多种潜在的组合方式。因此，模型应根据不同的示例自动学习调整蒸馏方向，例如，许多情感更容易通过语言识别，而有些情感则更容易通过视觉识别。此外，不同模态间的显著特征分布不匹配，使得直接的跨模态蒸馏效果不佳。

为此，我们提出了一种解耦的多模态蒸馏（DMD）方法，用于学习模态间的动态蒸馏，如图1（c）所示。通常，每个模态的特征通过共享编码器和私有编码器分别解耦为模态无关/专属空间。为了实现特征解耦，我们设计了一种自回归机制，预测解耦后的模态特征，并对其进行自监督回归。为了巩固特征解耦，我们引入了一种边界损失，用于规范模态和情感之间表示关系的接近度。因此，解耦的图蒸馏（GD）范式减少了从异质数据中吸收知识的负担，并使每个GD能够以更专业和有效的方式执行。

基于解耦的多模态特征空间，DMD在每个空间中使用一个图蒸馏单元（GD-Unit），以便跨模态知识蒸馏可以以更加专业和有效的方式进行。GD-Unit由一个图组成，其中（1）节点代表模态中的表示或分类结果，（2）边表示知识蒸馏的方向和权重。由于模态无关（同质）特征之间的分布差距被充分缩小，GD可以直接应用于捕捉模态间的语义关联。对于模态专属（异质）特征，我们利用多模态Transformer构建语义对齐并弥合分布差距。多模态Transformer中的跨模态注意机制强化了多模态表示，并减少了不同模态中存在的高级语义概念之间的差异。为了简化，我们分别将解耦多模态特征上的蒸馏命名为同质图知识蒸馏（HomoGD）和异质图知识蒸馏（HeteroGD）。这一重新定义使我们能够明确探索每个解耦空间中不同模态之间的相互作用。

本研究的贡献可以总结为以下几点：

我们提出了一种解耦的多模态蒸馏框架，即解耦的多模态蒸馏（DMD），用于学习模态间的动态蒸馏，以实现稳健的多模态情感识别。在DMD中，我们明确将多模态表示解耦为模态无关/专属空间，以便在这两个解耦空间上进行知识蒸馏。DMD提供了一种灵活的知识传递方式，蒸馏的方向和权重可以自动学习，从而实现灵活的知识传递模式。
我们在公开的MER数据集上进行了全面的实验，取得了优于或与最先进方法相当的结果。可视化结果验证了DMD的可行性，且图边展示了与HomoGD和HeteroGD相关的有意义的分布模式。

原文地址：https://blog.csdn.net/m0_49940316/article/details/142391603

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【Kotlin 与 Java 互操作】Java中调用带有默认值的Kotlin函数(十四)
下一篇：【解密 Kotlin 扩展函数】命名参数和默认值(十三)

防火墙----iptables
防火墙会从以上至下的顺序来读取配置的策略规则，在找到匹配项后就立即结束匹配工作并去执行匹配项中定义的行为（即放行或阻止）。如果在读取完所有的策略规则之后没有匹配项，就去执行默认的策略。iptables
阅读更多2024-11-18
Python代码热流系统进行建模分析
从指定的Excel文件中读取与热流相关的数据，包括管径、长度、压力、流量、入口过冷焓等参数。根据读取的数据，利用库计算多种水的物性参数，如饱和焓值、密度、比热容、粘度等。通过一系列复杂的物理公式和迭代
阅读更多2024-11-18
二、vue指令
点击展开或收起时，把内容区域显⽰或者隐藏。v-bind:属性名="vue变量"指代事件对象传给事件处理函数。⽅便通过变量控制⼀套标签出现。修饰符给事件扩展额外功能。修饰符名即可使⽤
阅读更多2024-11-18
信奥学习规划（CSP-J/S)
CSP - J/S（非专业级软件能力认证 - 入门级 / 提高级）的信奥学习规划
阅读更多2024-11-18
ctfshow DSBCTF web部分wp
需要值不同而 md5 相同，有长度限制不能进行强碰撞，尝试数组绕过也不行，这里注意到可以让其类型不同而值相同进行绕过，构造 pop 链最后得到 flag。
阅读更多2024-11-18
【Linux】进程的优先级
cpu资源分配的先后顺序，就是指进程的优先权（priority）。优先权高的进程有优先执行权利。配置进程优先权对多任务环境的linux很有用，可以改善系统性能。还可以把进程运行到指定的CP
阅读更多2024-11-18
Linux—进程学习-02
进程相关的概念的学习【利用系统调用fork创建子进程】【利用fork实现多进程】【操作系统层面上进程状态运行、阻塞、挂起的理解和学习】【Linux操作系统具体的进程状态的理解和学习（R、S、T、t、D
阅读更多2024-11-18
HMI FUXA测试
FUXA是基于Web的，过程（SCADA、HMI、看板等）可视化软件。可创建现代的过程可视化，使用独立的设计器，显示机器和实时数据。。
阅读更多2024-11-18
基于Java Springboot城市交通管理系统
城市交通管理系统的目的是让使用者可以更方便的将人、设备和场景更立体的连接在一起。能让用户以更科幻的方式使用产品，体验高科技时代带给人们的方便，同时也能让用户体会到与以往常规产品不同的体验风格。这就意味
阅读更多2024-11-18
pytorch中的ImageFolder 用法
是 PyTorch 中模块提供的一个常用类，用于从文件夹中加载图像数据。它是一种非常方便的方式来加载按文件夹结构组织的图像数据集。这个类能够自动将文件夹中的子目录作为标签，并且将其中的图像文件加载为
阅读更多2024-11-18

ER论文阅读-Decoupled Multimodal Distilling for Emotion Recognition

Abstract

Introduction

相关文章