自学内容网 自学内容网

大模型日报|今日必读的 6 篇大模型论文

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.微软推出首个大规模网络数据集 MS MARCO Web Search

最近在大模型方面取得的突破凸显了数据规模、标签和模态的重要意义。

在这项工作中,来自微软的研究团队及其合作者,提出了首个大规模的、信息丰富的网络数据集 MS MARCO Web Search,其具有数百万真实点击查询文档标签。该数据集密切模拟真实世界的网络文档和查询分布,为各种下游任务提供了丰富的信息,并促进了各个领域的研究,如通用端到端神经索引器模型、通用嵌入模型和具有大型语言模型的下一代信息访问系统。

此外,MS MARCO 网络搜索提供了一个检索基准,包含三个网络检索挑战任务,要求在机器学习和信息检索系统研究领域进行创新。

论文链接:
https://arxiv.org/abs/2405.07526
GitHub 地址:
https://github.com/microsoft/MS-MARCO-Web-Search

2.Hugging Face 推出视觉语言模型 Idefics2

随着大型语言模型(LLMs)和视觉 transformers 的改进,人们对视觉语言模型(VLM)的兴趣与日俱增。尽管有关这一主题的文献很多,但有关视觉语言模型设计的关键决策往往缺乏依据。

在这项工作中,来自 Hugging Face 和索邦大学的研究团队认为,这些没有依据的决定阻碍了该领域的进步,因为人们很难确定哪些选择能提高模型性能。

为了解决这个问题,他们围绕预训练模型、架构选择、数据和训练方法进行了大量实验,并开发了一个拥有 80 亿个参数的高效基础 VLM——Idefics2。

在各种多模态基准测试中,Idefics2 的性能在同类规模模型中处于领先水平,通常可与 4 倍于其规模的模型相媲美。此外,他们也发布了该模型(基础模型、指导模型和聊天模型)以及为训练该模型而创建的数据集。

论文链接:
https://arxiv.org/abs/2405.02246

3.通用领域提示学习框架 GDPL:助力学术界 VLM 研究

大规模视觉语言模型(VLM)在自然视觉任务中表现出了卓越的性能,激励着各个领域的研究人员探索特定领域的 VLM。然而,构建功能强大的特定领域 VLMs 需要大量的标注数据、大量的电能和计算资源,阻碍了学术界的 VLM 研究。

为了应对这一挑战,促进可持续和公平的 VLM 研究,来自宁波东方理工大学和上海交通大学的研究团队及其合作者,提出了通用领域提示学习(GDPL)框架。GDPL 有助于将 VLM 的强大识别能力从自然视觉转移到专业领域,而无需大量数据或资源。

通过利用小规模的特定领域基础模型和最少的提示样本,GDPL 通过四元数网络为语言分支提供领域知识,揭示特定领域视觉特征与基于自然视觉的上下文嵌入之间的跨模态关系。同时,GDPL 通过分层传播生成的视觉提示特征,引导视觉分支进入特定领域,并以匹配良好的视觉语言关系为基础。

此外,为了充分利用 VLM 的领域适应潜力,他们提出了一种新颖的低阶适应方法。在遥感、医学成像、地质学、合成孔径雷达和流体动力学等不同领域进行的广泛实验,验证了 GDPL 的有效性,证明它有能力在提示学习范式中实现最先进的领域识别性能。

论文链接:
https://arxiv.org/abs/2405.08668

4.Hearing Touch:首个大规模多感官预训练方法

虽然对大量数据进行预训练有利于机器人学习,但目前的范例只对视觉表征进行大规模预训练,而对其他模态的表征则要从头开始训练。与丰富的视觉数据相比,目前还不清楚有哪些相关的互联网规模数据可用于预训练触觉等其他模态。在机器人应用中常见的低数据环境下,这种预训练变得越来越重要。

在这项工作中,来自卡内基梅隆大学、奥林工程学院和 Meta 的研究团队通过使用接触式麦克风作为替代触觉传感器来弥补这一不足。他们的主要见解是,接触式麦克风能捕捉到固有的音频信息,能够利用大规模的视听预训练来获得表征,从而提高机器人操纵的性能。据介绍,这是第一种利用大规模多感官预训练进行机器人操纵的方法。

论文链接:
https://arxiv.org/abs/2405.08576
项目地址:
https://sites.google.com/view/hearing-touch

5.FastSAG:实现快速非自回归歌唱伴奏生成

歌唱伴奏生成(SAG)可生成器乐伴奏输入的人声,对于开发人与人工智能共生艺术创作系统至关重要。最先进的方法——SingSong——利用多阶段自回归模型来生成 SAG,但这种方法生成语义和声音 token 的速度极慢,因此无法用于实时应用。

为了创建高质量和连贯的伴奏,来自香港科技大学、微软亚洲研究院的研究团队,开发了一种基于非自回归、扩散的框架,通过精心设计从人声信号中推断出的条件,直接生成目标伴奏的梅尔频谱图。通过扩散和梅尔频谱图建模,所提出的方法大大简化了基于自回归 token 的 SingSong 框架,并在很大程度上加快了生成速度。

为了确保生成的伴奏与人声信号在语义和节奏上保持一致,他们还设计了语义投影、先验投影块以及一组损失函数。通过深入的实验研究,他们证明了所提出的方法能生成比 SingSong 更好的样本,并能将生成速度至少提高 30 倍。

论文链接:
https://arxiv.org/abs/2405.07682
项目地址:
https://fastsag.github.io/

6.Word2World:通过大型语言模型生成故事和世界

大型语言模型(LLM)已经在程序内容生成(PCG)领域显示出了巨大的潜力,但通过预先训练好的大型语言模型直接生成关卡仍然具有挑战性。

在这项工作中,来自威特沃特斯兰德大学和纽约大学的研究团队,提出了一个能让 LLM 通过故事程序设计可玩游戏、无需任何特定任务微调的系统——Word2World。

Word2World 充分利用了 LLM 创造多样化内容和提取信息的能力。结合这些能力,LLMs 可以为游戏创建故事、设计叙事,并将瓷砖放置在适当的位置,从而创建连贯的世界和可玩的游戏。

论文链接:
https://arxiv.org/abs/2405.06686
GitHub 地址:
https://github.com/umair-nasir14/Word2World


原文地址:https://blog.csdn.net/AMiner2006/article/details/138909491

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!