大模型日报｜4 篇必读的大模型论文

🕗 发布于 2024-10-10 21:48 人工智能 深度学习 语言模型科技 agi

在这里插入图片描述

大家好，今日必读的大模型论文来啦！

1.清华、北航团队推出多智能体代码异常处理框架 Seeker

在现实世界的软件开发中，异常处理不当或缺失会严重影响代码的鲁棒性和可靠性。异常处理机制要求开发人员按照高标准来检测、捕获和管理异常，但许多开发人员却在这些任务上苦苦挣扎，导致代码脆弱不堪。这个问题在开源项目中尤为明显，影响了软件生态系统的整体质量。

为了应对这一挑战，来自清华大学和北京航空航天大学的研究团队探索使用大语言模型（LLM）来改进代码中的异常处理。通过广泛的分析，他们发现了三个关键问题：对脆弱代码的不敏感检测、对异常类型的不准确捕捉以及扭曲的处理解决方案。这些问题在现实世界的代码库中普遍存在，表明鲁棒异常处理实践经常被忽视或处理不当。

为此，他们提出了一个多智能体框架 Seeker，其灵感来自于专家开发人员的异常处理策略。Seeker 使用 Scanner、Detector、Predator、Ranker 和 Handler 智能体来协助 LLM 更有效地检测、捕获和解决异常。他们的工作是利用 LLM 增强异常处理实践的第一项系统性研究，为未来提高代码可靠性提供了宝贵的见解。

论文链接：
https://arxiv.org/abs/2410.06949

2.清华、微软团队：通过优化控制为大语言选择数据

本研究探讨了如何从海量语料库中选择高质量的预训练数据，以提高语言模型的下游使用能力。

来自清华大学和微软的研究团队将数据选择表述为一个广义的最优控制（Optimal Control）问题，该问题可通过庞特里亚金最大化原理（Pontryagin’s Maximum Principle，PMP）从理论上求解，并得出一系列必要条件，这些条件描述了最优数据选择与 LM 训练动态之间的关系。基于这些理论结果，他们提出了基于 PMP 的数据选择（PDS），这是一个通过求解 PMP 条件来近似实现最优数据选择的框架。

在实验中，他们采用 PDS 从 CommmonCrawl 中选择数据，结果表明 PDS 选择的语料库加快了 LM 的学习速度，并在各种规模的下游任务中不断提高其性能。此外，PDS 的优势还扩展到了在 ~10T tokens 上训练的 ~400B 参数模型，测试损失曲线的 Scaling Laws 也证明了这一点。当预训练数据有限时，PDS 还能提高数据利用率，将数据需求降低 1.8 倍，从而缓解可用网络抓取语料的快速耗尽问题。

论文链接：
https://arxiv.org/abs/2410.07064
GitHub 地址：
https://github.com/microsoft/LMOps/tree/main/data_selection

3.Google DeepMind 提出 RAG 推理 scaling laws

推理计算的扩展释放了长文本大语言模型（LLM）在各种环境中的潜力。对于知识密集型任务，增加的计算量通常被分配用于纳入更多外部知识。然而，如果不能有效利用这些知识，仅仅扩展上下文并不总能提高性能。

在这项工作中，Google DeepMind 团队研究了检索增强生成（RAG）的推理扩展，探索了除单纯增加知识量之外的其他策略。他们重点关注两种推理扩展策略：上下文学习和迭代提示。这些策略为扩展测试时间计算（例如，通过增加检索文档或生成步骤）提供了额外的灵活性，从而增强了 LLM 有效获取和利用上下文信息的能力。他们要解决两个关键问题：（1）在优化配置的情况下，RAG 的性能如何从推理计算的扩展中获益？（2）通过对 RAG 性能和推理参数之间的关系建模，能否预测给定预算下的最佳测试时间计算分配？

观察结果表明，在优化分配的情况下，推理计算量的增加会导致 RAG 性能的近乎线性提升，他们将这种关系描述为 RAG 的推理 scaling laws。在此基础上。他们进一步开发了计算分配模型，以估计不同推理配置下的 RAG 性能。该模型预测了各种计算约束条件下的最佳推理参数，这些参数与实验结果非常吻合。通过应用这些最佳配置，证明与标准 RAG 相比，在基准数据集上，长文本 LLM 的推理计算扩展可实现高达 58.9% 的增益。

论文链接：
https://arxiv.org/abs/2410.04343

4.Google Deepmind 提出新型自动编码方法 ε -VAE

在生成模型中，token 化将复杂数据简化为紧凑的结构化表示，从而创建一个更高效、可学习的空间。对于高维视觉数据，token 化可以减少冗余并强调关键特征，从而实现高质量的生成。目前的视觉 token 化方法依赖于传统的自动编码器框架，即编码器将数据压缩为潜在表示，解码器重建原始输入。

在这项工作中，Google Deepmind 团队提供了一个新的视角，将去噪作为解码，从单步重建转向迭代完善。具体来说，他们用一个扩散过程来代替解码器，在编码器提供的潜像指导下，迭代细化噪声以恢复原始图像。他们通过评估重建（rFID）和生成质量（FID）来评估他们的方法，并将其与 SOTA 自动编码方法进行比较。

论文链接：
https://arxiv.org/abs/2410.04081

原文地址：https://blog.csdn.net/AMiner2006/article/details/142829166

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：vscode配置
下一篇：R语言结构方程模型（SEM）在生态学领域中的应用

神经网络的基本骨架——nn.Module（torch.nn里的Containers模块里的Module类）
nn：neural network神经网络1、torch.nn：与神经网络有关的库Containers：torch.nn中的一个模块Module：所有神经网络模型的基础类（Base class for
阅读更多2024-10-11
Java有哪些缺点或者局限性
总的来说，Java的缺点和局限性主要集中在性能、内存消耗、启动时间、版本兼容性、学习曲线、GUI开发、代码冗长、并发编程复杂性、动态性不足以及依赖管理等方面。然而，这些缺点和局限性并不是绝对的，它们在
阅读更多2024-10-11
网络协议——IP协议
IPv4，IP地址分类，子网掩码，VLSM，CIDR，IPv4报文格式；IPv6，IPv6书写规则，IPv6报文格式
阅读更多2024-10-11
深入理解Java虚拟机：栈溢出案例分析
深入理解Java虚拟机：栈溢出案例分析
阅读更多2024-10-11
大数据-161 Apache Kylin 构建Cube 按照日期、区域、产品、渠道与 Cube 优化
Apache Kylin 是一个开源的分布式分析引擎，专注于提供大数据的实时OLAP（在线分析处理）能力。Cube（立方体）是 Apache Kylin 的核心概念之一，通过预计算大规模数据的多维数据
阅读更多2024-10-11
使用 Apache SeaTunnel 在 MySQL 和 HTTP 之间的数据同步示例
通过 Apache SeaTunnel 的强大数据集成能力，开发者可以轻松实现多种数据源之间的同步操作。无论是数据库与 API 之间的数据传输，还是跨数据库的数据迁移，SeaTunnel 都为开发者提
阅读更多2024-10-11
＜Project-6 pdf2tx＞ Python Flask 应用：图片PDF图书的中文翻译解决方案
pdf2tx主应用程序 (app.pyapp.py是整个项目的核心，用于处理用户请求、管理前端页面以及实现 OCR 和翻译功能。该程序基于 Flask 框架，提供了简单的 Web 服务，同时使用实现前
阅读更多2024-10-11
Python知识点：基于Python技术，如何使用TensorFlow进行目标检测
通过使用TensorFlow提供的工具和API，你可以构建强大的目标检测系统来解决实际问题。TensorFlow提供了多种预训练模型，如SSD、Faster R-CNN等，你可以根据你的需求选择合适的
阅读更多2024-10-11
RandLA-Net 基于 Tensorflow , 训练自定义数据集
搭建 RandLA-Net 训练环境, 生成自定义训练数据集, 训练自定义数据集.
阅读更多2024-10-11
tensorflow入门案例手写数字识别人工智能界的helloworld项目落地1
数据集市28*28单通道灰度图像])
阅读更多2024-10-11

大模型日报｜4 篇必读的大模型论文

相关文章