自学内容网 自学内容网

大模型日报|4 篇必读的大模型论文

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.清华、北航团队推出多智能体代码异常处理框架 Seeker

在现实世界的软件开发中,异常处理不当或缺失会严重影响代码的鲁棒性和可靠性。异常处理机制要求开发人员按照高标准来检测、捕获和管理异常,但许多开发人员却在这些任务上苦苦挣扎,导致代码脆弱不堪。这个问题在开源项目中尤为明显,影响了软件生态系统的整体质量。

为了应对这一挑战,来自清华大学和北京航空航天大学的研究团队探索使用大语言模型(LLM)来改进代码中的异常处理。通过广泛的分析,他们发现了三个关键问题:对脆弱代码的不敏感检测、对异常类型的不准确捕捉以及扭曲的处理解决方案。这些问题在现实世界的代码库中普遍存在,表明鲁棒异常处理实践经常被忽视或处理不当。

为此,他们提出了一个多智能体框架 Seeker,其灵感来自于专家开发人员的异常处理策略。Seeker 使用 Scanner、Detector、Predator、Ranker 和 Handler 智能体来协助 LLM 更有效地检测、捕获和解决异常。他们的工作是利用 LLM 增强异常处理实践的第一项系统性研究,为未来提高代码可靠性提供了宝贵的见解。

论文链接:
https://arxiv.org/abs/2410.06949

2.清华、微软团队:通过优化控制为大语言选择数据

本研究探讨了如何从海量语料库中选择高质量的预训练数据,以提高语言模型的下游使用能力。

来自清华大学和微软的研究团队将数据选择表述为一个广义的最优控制(Optimal Control)问题,该问题可通过庞特里亚金最大化原理(Pontryagin’s Maximum Principle,PMP)从理论上求解,并得出一系列必要条件,这些条件描述了最优数据选择与 LM 训练动态之间的关系。基于这些理论结果,他们提出了基于 PMP 的数据选择(PDS),这是一个通过求解 PMP 条件来近似实现最优数据选择的框架。

在实验中,他们采用 PDS 从 CommmonCrawl 中选择数据,结果表明 PDS 选择的语料库加快了 LM 的学习速度,并在各种规模的下游任务中不断提高其性能。此外,PDS 的优势还扩展到了在 ~10T tokens 上训练的 ~400B 参数模型,测试损失曲线的 Scaling Laws 也证明了这一点。当预训练数据有限时,PDS 还能提高数据利用率,将数据需求降低 1.8 倍,从而缓解可用网络抓取语料的快速耗尽问题。

论文链接:
https://arxiv.org/abs/2410.07064
GitHub 地址:
https://github.com/microsoft/LMOps/tree/main/data_selection

3.Google DeepMind 提出 RAG 推理 scaling laws

推理计算的扩展释放了长文本大语言模型(LLM)在各种环境中的潜力。对于知识密集型任务,增加的计算量通常被分配用于纳入更多外部知识。然而,如果不能有效利用这些知识,仅仅扩展上下文并不总能提高性能。

在这项工作中,Google DeepMind 团队研究了检索增强生成(RAG)的推理扩展,探索了除单纯增加知识量之外的其他策略。他们重点关注两种推理扩展策略:上下文学习和迭代提示。这些策略为扩展测试时间计算(例如,通过增加检索文档或生成步骤)提供了额外的灵活性,从而增强了 LLM 有效获取和利用上下文信息的能力。他们要解决两个关键问题:(1)在优化配置的情况下,RAG 的性能如何从推理计算的扩展中获益?(2)通过对 RAG 性能和推理参数之间的关系建模,能否预测给定预算下的最佳测试时间计算分配?

观察结果表明,在优化分配的情况下,推理计算量的增加会导致 RAG 性能的近乎线性提升,他们将这种关系描述为 RAG 的推理 scaling laws。在此基础上。他们进一步开发了计算分配模型,以估计不同推理配置下的 RAG 性能。该模型预测了各种计算约束条件下的最佳推理参数,这些参数与实验结果非常吻合。通过应用这些最佳配置,证明与标准 RAG 相比,在基准数据集上,长文本 LLM 的推理计算扩展可实现高达 58.9% 的增益。

论文链接:
https://arxiv.org/abs/2410.04343

4.Google Deepmind 提出新型自动编码方法 ε -VAE

在生成模型中,token 化将复杂数据简化为紧凑的结构化表示,从而创建一个更高效、可学习的空间。对于高维视觉数据,token 化可以减少冗余并强调关键特征,从而实现高质量的生成。目前的视觉 token 化方法依赖于传统的自动编码器框架,即编码器将数据压缩为潜在表示,解码器重建原始输入。

在这项工作中,Google Deepmind 团队提供了一个新的视角,将去噪作为解码,从单步重建转向迭代完善。具体来说,他们用一个扩散过程来代替解码器,在编码器提供的潜像指导下,迭代细化噪声以恢复原始图像。他们通过评估重建(rFID)和生成质量(FID)来评估他们的方法,并将其与 SOTA 自动编码方法进行比较。

论文链接:
https://arxiv.org/abs/2410.04081


原文地址:https://blog.csdn.net/AMiner2006/article/details/142829166

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!