大模型日报｜今日必读的 6 篇大模型论文

🕗 发布于 2024-05-15 22:39 人工智能 语言模型 深度学习 机器学习 计算机视觉

在这里插入图片描述

大家好，今日必读的大模型论文来啦！

1.微软推出首个大规模网络数据集 MS MARCO Web Search

最近在大模型方面取得的突破凸显了数据规模、标签和模态的重要意义。

在这项工作中，来自微软的研究团队及其合作者，提出了首个大规模的、信息丰富的网络数据集 MS MARCO Web Search，其具有数百万真实点击查询文档标签。该数据集密切模拟真实世界的网络文档和查询分布，为各种下游任务提供了丰富的信息，并促进了各个领域的研究，如通用端到端神经索引器模型、通用嵌入模型和具有大型语言模型的下一代信息访问系统。

此外，MS MARCO 网络搜索提供了一个检索基准，包含三个网络检索挑战任务，要求在机器学习和信息检索系统研究领域进行创新。

论文链接：
https://arxiv.org/abs/2405.07526
GitHub 地址：
https://github.com/microsoft/MS-MARCO-Web-Search

2.Hugging Face 推出视觉语言模型 Idefics2

随着大型语言模型（LLMs）和视觉 transformers 的改进，人们对视觉语言模型（VLM）的兴趣与日俱增。尽管有关这一主题的文献很多，但有关视觉语言模型设计的关键决策往往缺乏依据。

在这项工作中，来自 Hugging Face 和索邦大学的研究团队认为，这些没有依据的决定阻碍了该领域的进步，因为人们很难确定哪些选择能提高模型性能。

为了解决这个问题，他们围绕预训练模型、架构选择、数据和训练方法进行了大量实验，并开发了一个拥有 80 亿个参数的高效基础 VLM——Idefics2。

在各种多模态基准测试中，Idefics2 的性能在同类规模模型中处于领先水平，通常可与 4 倍于其规模的模型相媲美。此外，他们也发布了该模型（基础模型、指导模型和聊天模型）以及为训练该模型而创建的数据集。

论文链接：
https://arxiv.org/abs/2405.02246

3.通用领域提示学习框架 GDPL：助力学术界 VLM 研究

大规模视觉语言模型（VLM）在自然视觉任务中表现出了卓越的性能，激励着各个领域的研究人员探索特定领域的 VLM。然而，构建功能强大的特定领域 VLMs 需要大量的标注数据、大量的电能和计算资源，阻碍了学术界的 VLM 研究。

为了应对这一挑战，促进可持续和公平的 VLM 研究，来自宁波东方理工大学和上海交通大学的研究团队及其合作者，提出了通用领域提示学习（GDPL）框架。GDPL 有助于将 VLM 的强大识别能力从自然视觉转移到专业领域，而无需大量数据或资源。

通过利用小规模的特定领域基础模型和最少的提示样本，GDPL 通过四元数网络为语言分支提供领域知识，揭示特定领域视觉特征与基于自然视觉的上下文嵌入之间的跨模态关系。同时，GDPL 通过分层传播生成的视觉提示特征，引导视觉分支进入特定领域，并以匹配良好的视觉语言关系为基础。

此外，为了充分利用 VLM 的领域适应潜力，他们提出了一种新颖的低阶适应方法。在遥感、医学成像、地质学、合成孔径雷达和流体动力学等不同领域进行的广泛实验，验证了 GDPL 的有效性，证明它有能力在提示学习范式中实现最先进的领域识别性能。

论文链接：
https://arxiv.org/abs/2405.08668

4.Hearing Touch：首个大规模多感官预训练方法

虽然对大量数据进行预训练有利于机器人学习，但目前的范例只对视觉表征进行大规模预训练，而对其他模态的表征则要从头开始训练。与丰富的视觉数据相比，目前还不清楚有哪些相关的互联网规模数据可用于预训练触觉等其他模态。在机器人应用中常见的低数据环境下，这种预训练变得越来越重要。

在这项工作中，来自卡内基梅隆大学、奥林工程学院和 Meta 的研究团队通过使用接触式麦克风作为替代触觉传感器来弥补这一不足。他们的主要见解是，接触式麦克风能捕捉到固有的音频信息，能够利用大规模的视听预训练来获得表征，从而提高机器人操纵的性能。据介绍，这是第一种利用大规模多感官预训练进行机器人操纵的方法。

论文链接：
https://arxiv.org/abs/2405.08576
项目地址：
https://sites.google.com/view/hearing-touch

5.FastSAG：实现快速非自回归歌唱伴奏生成

歌唱伴奏生成（SAG）可生成器乐伴奏输入的人声，对于开发人与人工智能共生艺术创作系统至关重要。最先进的方法——SingSong——利用多阶段自回归模型来生成 SAG，但这种方法生成语义和声音 token 的速度极慢，因此无法用于实时应用。

为了创建高质量和连贯的伴奏，来自香港科技大学、微软亚洲研究院的研究团队，开发了一种基于非自回归、扩散的框架，通过精心设计从人声信号中推断出的条件，直接生成目标伴奏的梅尔频谱图。通过扩散和梅尔频谱图建模，所提出的方法大大简化了基于自回归 token 的 SingSong 框架，并在很大程度上加快了生成速度。

为了确保生成的伴奏与人声信号在语义和节奏上保持一致，他们还设计了语义投影、先验投影块以及一组损失函数。通过深入的实验研究，他们证明了所提出的方法能生成比 SingSong 更好的样本，并能将生成速度至少提高 30 倍。

论文链接：
https://arxiv.org/abs/2405.07682
项目地址：
https://fastsag.github.io/

6.Word2World：通过大型语言模型生成故事和世界

大型语言模型（LLM）已经在程序内容生成（PCG）领域显示出了巨大的潜力，但通过预先训练好的大型语言模型直接生成关卡仍然具有挑战性。

在这项工作中，来自威特沃特斯兰德大学和纽约大学的研究团队，提出了一个能让 LLM 通过故事程序设计可玩游戏、无需任何特定任务微调的系统——Word2World。

Word2World 充分利用了 LLM 创造多样化内容和提取信息的能力。结合这些能力，LLMs 可以为游戏创建故事、设计叙事，并将瓷砖放置在适当的位置，从而创建连贯的世界和可玩的游戏。

论文链接：
https://arxiv.org/abs/2405.06686
GitHub 地址：
https://github.com/umair-nasir14/Word2World

原文地址：https://blog.csdn.net/AMiner2006/article/details/138909491

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：k8s 理论知识基本介绍
下一篇：管仲故乡是颍川，何分颍上或颍下

格式串详解
不同语言格式串五花八门，究其本质，无非是如何处理格式串和变量对应关系。
阅读更多2024-09-25
如何恢复被删除的 GitLab 项目？
本文分享如何使用极狐GitLab 的项目延迟删除功能来避免仓库被用户误操作。该功能设置了删除延时时间，在延时期间内，用户还可以对项目进行恢复。极狐GitLab 群组、项目的删除保护功能，主要是为了防止
阅读更多2024-09-25
AI学习指南深度学习篇-Adagrad的基本原理
深度学习作为人工智能领域的重要分支，已经在各个领域取得了显著成就。在深度学习的模型训练过程中，参数优化是一个关键的环节，而学习率的选择对于训练结果有着至关重要的影响。Adagrad是一种自适应学习率算
阅读更多2024-09-25
Java:继承和多态（1）
在 Java SE 中，和是面向对象编程（OOP）的两个核心概念。通过继承，子类可以复用父类的代码；而通过多态，子类可以在不修改父类的前提下定义自己的行为。这两者结合起来使得代码更具扩展性、灵活性和可
阅读更多2024-09-25
Spring Boot集成PageHelper分页插件详解
PageHelper是一个强大的MyBatis分页插件，它简化了分页逻辑的实现，使得开发者可以更专注于业务逻辑。通过在Spring Boot项目中集成PageHelper，我们可以轻松地实现分页功能，
阅读更多2024-09-25
springboot体会BIO（阻塞式IO）
我们一样还是先启动服务端，再启动客户端1和客户端2，使用客户端1和客户端2向服务端写入消息，通过上述的例子我们得知，服务端会先处理客户端1的请求，客户端2的请求会阻塞。我们使用客户端1写入数据，再观察
阅读更多2024-09-25
Spring Boot之Actuator介绍
Spring Boot Actuator 是一个强大的工具，用于监控和管理 Spring Boot 应用。通过提供一系列内置的端点，它使得你可以轻松地获取应用程序的运行时信息，并进行必要的调整。此外，
阅读更多2024-09-25
编程的奥秘
1. **人工智能与机器学习**：随着算法和计算能力的提升，人工智能和机器学习将在更多领域得到应用，编程将成为连接现实世界与智能系统的关键。3. **编程范式**：包括面向过程、面向对象、函数式等多种
阅读更多2024-09-25
设计师一定要收藏好这6个网站，设计必备
新手设计师找免费素材，找灵感就上这6个网站，赶紧收藏好
阅读更多2024-09-25
Dockerfile的详解与案例
Dockerfile 是一个用来构建 Docker 镜像的文本文件，它包含了一系列指令，用于描述如何创建一个 Docker 镜像。通过 Dockerfile，你可以定义镜像的基础环境、安装软件包、设置
阅读更多2024-09-25

大模型日报｜今日必读的 6 篇大模型论文

相关文章