Salesforce AI 推全新大语言模型评估家族SFR-Judge 基于Llama3构建

🕗 发布于 2024-10-05 07:45 人工智能 语言模型自然语言处理

在自然语言处理领域，大型语言模型（LLMs）的发展迅速，已经在多个领域取得了显著的进展。不过，随着模型的复杂性增加，如何准确评估它们的输出就变得至关重要。传统上，我们依赖人类来进行评估，但这种方式既耗时又难以规模化，无法跟上模型快速发展的步伐。

在这里插入图片描述
为了改变这种现状，Salesforce AI 研究团队推出了 SFR-Judge，这是一个由三个大型语言模型组成的评估家族。这些模型分别拥有80亿、120亿和700亿个参数，基于 Meta Llama3和 Mistral NeMO 构建。SFR-Judge 能够执行多种评估任务，包括成对比较、单一评分和二分类评估，旨在帮助研究团队快速高效地评估新模型的表现。

在这里插入图片描述
传统的 LLM 评估模型往往存在一些偏差问题，比如位置偏差和长度偏差，这会影响它们的判断。为了克服这些问题，SFR-Judge 采用了直接偏好优化（DPO）训练方法，让模型从正负例中学习，从而提升其评估任务的理解能力，减少偏差，确保判断的一致性。

在测试中，SFR-Judge 在13个基准测试上表现优异，超过了许多现有的评估模型，包括一些私有模型。特别是在 RewardBench 排行榜上，SFR-Judge 的准确率达到了92.7%，这是生成型评估模型首次和第二次超越90% 的门槛，展现出其在评估模型中的卓越表现。

SFR-Judge 的训练方法涵盖三种不同的数据格式。首先是 “思维链批评”，帮助模型生成对评估响应的结构化分析。其次是 “标准评判”，简化评估过程，直接反馈响应是否符合标准。最后，“响应推导” 则帮助模型理解高质量回应的特征，强化其判断能力。这三种数据格式的结合，使得 SFR-Judge 的评估能力得到了极大提升。

经过大量实验，SFR-Judge 模型在减少偏差方面表现显著优于其他模型。在 EvalBiasBench 基准测试中，它们展现了高度的成对顺序一致性，这表明即便响应顺序发生变化，模型的判断依然保持稳定。这使得 SFR-Judge 成为一种可靠的自动化评估解决方案，减少了对人工标注的依赖，为模型评估提供了更可扩展的选择。

论文入口:https://arxiv.org/abs/2409.14664

原文地址：https://blog.csdn.net/weixin_41446370/article/details/142661747

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：PHP session_unregister()和session_unset()的区别
下一篇：计算机网络：计算机网络概述 —— 网络拓扑结构

STM32的串行外设接口SPI
SPI是同步全双工串行通信，需要SCK、MISO、MOSI、NSS四条通信线来完成数据传输，每增加一个从机，多一条NSS通信线。
阅读更多2024-10-05
Pandas数据分析基础
从常见的Excel和CSV到JSON及各种数据库，Pandas几乎支持市面上所有的主流数据存储形式。Pandas提供了一组顶层的I/O API，如pandas.read_csv()等方法，这些方法可以
阅读更多2024-10-05
Middleware---RocketMQ
RocketMQ是一个开源的分布式消息中间件。它是一种的消息队列系统，用于在分布式系统中进行异步通信。
阅读更多2024-10-05
ffmpeg面向对象——拉流协议匹配机制探索
如果让你写个拉流程序，输入的url，如果是本地文件路径，那就读取本地文件，然后输出一帧一帧的音视频数据，如果是网络流媒体传输协议比如http或者rtsp等，那么也得实现。
阅读更多2024-10-05
Python库pandas之五
如果“infer”和“path_or_buf”是类似路径，则检测以下扩展名的压缩：“.gz”、“.bz2”、“.zip”、“.xz”、“.zst”、“.tar” 、“.tar.gz”、“.tar.xz
阅读更多2024-10-05
【多线程】多线程（8）：单例模式：阻塞队列
A的角色是一个“网关服务器”，收到客户端的请求，再把请求转发给其他的服务器，这样的服务器里面的代码做的工作比较简单（单纯的数据转发），消耗的硬件资源通常更少，处理一个请求消耗的资源更少，同样的配置下就
阅读更多2024-10-05
【C#生态园】提高开发效率：6种必备C#开发库全面解析
本文将深入探讨6种常用的C#开发库，涵盖了数据交换格式、数据序列化系统、REST客户端创建、Web框架和JSON序列化及反序列化库。对每种库都会进行简介，介绍其核心功能、使用场景、安装与配置以及API
阅读更多2024-10-05
wpa_cli支持EAP-AKA认证运行设计
wpa_cli支持EAP-AKA认证运行设计1 输入1.1 启动wpa_supplicant 和 wpa_cli1.2 添加WIFI网络1.3 设置WFI网络参数1.4 连接WIFI网络2
阅读更多2024-10-05
IO操作同步、异步、阻塞、非阻塞之间的联系
本质来说，同步，异步，阻塞、非阻塞没有什么必要的关系。异步也可以是非阻塞的，（也可以是阻塞的,发起 I/O 请求时，系统会立即返回，随后通过回调函数或信号等方式通知调用方 I/O 操作的结果。异步 I
阅读更多2024-10-05
设计循环队列
设计循环队列
阅读更多2024-10-05

Salesforce AI 推全新大语言模型评估家族SFR-Judge 基于Llama3构建

相关文章