【大语言模型】ACL2024论文-17 VIDEO-CSR：面向视觉-语言模型的复杂视频摘要创建

🕗 发布于 2024-11-21 08:49 语言模型音视频 人工智能 机器学习 深度学习

【大语言模型】ACL2024论文-17 VIDEO-CSR：面向视觉-语言模型的复杂视频摘要创建

VIDEO-CSR：面向视觉-语言模型的复杂视频摘要创建
在这里插入图片描述

本文介绍了一个新的任务和人类标注的数据集Video-CSR（Captioning, Summarization and Retrieval，即标题生成、摘要和检索），旨在评估视觉-语言模型生成真实世界视频剪辑的字幕和摘要的能力。数据集包含4.8K个YouTube视频剪辑，每个视频剪辑时长在20-60秒之间，覆盖广泛的主题和兴趣点。每个视频剪辑对应5个独立标注的字幕（1句话）和摘要（3-10句话）。给定数据集中的任何视频及其对应的自动语音识别（ASR）信息，评估视觉-语言模型在视频的视觉和听觉内容基础上的标题或摘要生成能力。此外，模型还根据标题和摘要进行检索任务的评估，其中基于摘要的检索任务需要在给定摘要的摘录下识别目标视频。鉴于段落长度视频摘要任务的新颖性，我们对不同的现有评估指标及其与人类偏好的一致性进行了广泛的比较分析。最后，我们提出了一个基础模型，具有竞争性的生成和检索能力，作为Video-CSR任务的基线。我们希望Video-CSR能成为大型语言模型时代和复杂多模态任务中的一个有用的评估集。

研究背景

随着YouTube和TikTok等视频内容平台上数十亿活跃用户的需求不断增长，自动化复杂视频理解变得前所未有地重要。传统的视频理解主要集中在对短视频进行标题和/或检索任务上，这些视频和标签都是简短的句子。这种简洁性部分是由于模型限制，即详细的、多句子的视频描述在轻量级文本解码器下无法实现。然而，随着大型语言模型（LLMs）的飞速发展，视觉-语言模型（VLMs）现在有机会利用LLaMA和ChatGPT等模型的庞大自然语言能力。这些LLMs拥有数十亿到数百亿的参数，能够以前所未有的程度模仿人类的细节和优雅的写作。随着视频对话模型如Video-LLaMA、Video-ChatGPT和VideoChat声称能够生成详细和细粒度的视频输入描述，我们认为现在是时候为现代由LLMs驱动的VLMs的能力匹配一个评估基准了。
在这里插入图片描述

问题与挑战

当前工作集中在包含多个信息流（如对话、背景音乐和复杂视觉序列）的多镜头组成视频上。研究者们开发了Video-CSR，这是一个新颖的任务和数据集，用于长形式的视频标题生成、摘要和检索。这个新的多模态数据集包含了4.8K个视频剪辑，这些视频剪辑精心选自先前发布的基于YouTube的视频数据集，并整合了视觉和听觉信息。在几个月的时间里，一个由24名人类标注者（大学生和研究生）组成的团队为每个视频剪辑创建了5个简短的标题（每个1句话）和5个长摘要（3-10句话），形成了一个丰富和全面的人类标注数据集，作为后续模型训练和评估的强大真实基础。

如何解决

为了解决长形式视频摘要任务的评估问题，研究者们进行了广泛的比较分析，比较了基于N-gram的指标和基于模型的指标（例如BLEURT和BERTScore）与人类偏好的一致性。研究发现，基于模型的指标更适合长形式的摘要任务。最后，研究者们评估了不同类型的VLM架构在测试集上的表现，旨在提供当前可行和有效的全面概况。

创新点

提出了一个新的数据集，包含人类标注的视频标题（1句话）和摘要（3-10句话），以衡量VLMs执行长形式视频内容摘要的能力。据研究者们所知，Video-CSR是第一个全面的人类标注评估数据集，用于长形式视频摘要。
比较了长形式视频摘要任务的不同评估指标，并发现基于模型的指标更符合人类偏好。
开发了一个基础模型（SimCSR），它整合了视觉、听觉和文本模态，用于生成和检索任务。

算法模型

SimCSR模型是基于VideoCoCa架构开发的，包括视觉编码器和ASR编码器。该模型是端到端可训练的，没有冻结的模块。SimCSR模型的训练目标是生成损失和对比损失的组合。所有参数都是从OpenCLIP实现的CoCa初始化的，除了ASR编码器是从BERT-base初始化的。

实验效果（包含重要数据与结论）

在Video-CSR评估数据集上，SimCSR模型在视频到文本生成和文本到视频检索任务上的表现如下：

视频摘要：Video-LLaMA的BLEURT得分为39.3，而SimCSR的得分为31.4。
视频标题：SimCSR在不同指标下的表现均优于没有ASR的SimCSR模型。
文本到视频检索：SimCSR在不同指标下的表现均优于没有ASR的SimCSR模型。

研究者们还对模型生成的视频标题和摘要的幻觉程度进行了评估。结果显示，Video-LLaMA的幻觉程度显著高于SimCSR。
在这里插入图片描述

后记

如果您对我的博客内容感兴趣，欢迎三连击 (***点赞、收藏和关注 ***）和留下您的评论，我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型，深度学习和计算机视觉相关方向)最新学术论文及工程实践方面的内容分享，助力您更快更准更系统地了解 AI前沿技术。

原文地址：https://blog.csdn.net/fyf2007/article/details/143925383

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：SpringBoot（8）-任务
下一篇：Redis Search系列 - 第七讲 Windows（CygWin）编译Friso

从壹开始解读Yolov11【源码研读系列】——Data.build.py：YOLO用于训练Train + 验证Val的无限数据集加载器DataLoader搭建
本文记录YOLO搭建其训练和验证使用的数据集加载器的Build.py文件
阅读更多2024-11-21
o1的风又吹到多模态，直接吹翻了GPT-4o-mini
的顺序阶段。LLaVA-o1超过了一些更大甚至是闭源模型的性能，例如。
阅读更多2024-11-21
实现两个表格的数据传递（类似于穿梭框）
类似于element的穿梭框
阅读更多2024-11-21
NVR录像机汇聚管理EasyNVR多品牌NVR管理工具/设备如何使用Docker运行？
随着技术的不断进步和应用场景的持续拓展，EasyNVR将继续优化升级，为更多行业提供优质的解决方案，推动安防行业的创新与发展。同时，EasyNVR平台能够对接入的视频流进行转码处理，对外分发多种格式的
阅读更多2024-11-21
鸿蒙NEXT开发案例：随机数生成
本项目是一个简单的随机数生成器应用，用户可以通过设置随机数的范围和个数，并选择是否允许生成重复的随机数，来生成所需的随机数列表。当用户选择不允许生成重复的随机数时，程序使用一个 Set 来存储生成的随
阅读更多2024-11-21
短视频矩阵系统：智能批量剪辑、账号管理新纪元！
短视频矩阵系统以其高效的内容管理、批量视频编辑、多平台同步发布和个性化内容定制等功能，帮助创作者和企业在短视频领域中更加高效地运营。然而，对于创作者和企业来说，如何高效地管理多个短视频账号并保持内容的
阅读更多2024-11-21
Spring Boot 3.x + OAuth 2.0：构建认证授权服务与资源服务器
在开始之前，我们需要准备三个服务，分别对应认证授权服务、OAuth客户端以及资源服务。服务端口认证授权服务8080OAuth客户端服务8081资源服务8082。
阅读更多2024-11-21
Spring 框架中哪些接口可以创建对象
在 Spring 框架中，向 IOC 容器中添加 Bean 主要有以下几种接口和方式。Spring 提供了不同的手段来实现对象的创建和管理，涵盖了不同的需求和场景。
阅读更多2024-11-21
Spring Cloud Consul实现选举机制
是 Spring Cloud 提供的对的支持。它是一种基于服务网格的工具，用于实现服务注册、发现、配置管理和健康检查。服务注册与发现：通过 Consul 的服务注册功能，Spring Cloud Co
阅读更多2024-11-21
基于yolov8、yolov5的电塔缺陷检测识别系统（含UI界面、训练好的模型、Python代码、数据集）
项目中所用到的算法模型和数据集等信息如下：算法模型：yolov8yolov8 + SE注意力机制或yolov5yolov5 + SE注意力机制直接提供最少两个训练好的模型。模型十分重要，因为有些同学的
阅读更多2024-11-21

【大语言模型】ACL2024论文-17 VIDEO-CSR：面向视觉-语言模型的复杂视频摘要创建