Reflection 70B乌龙事件始末：揭开“最强大模型”背后的真相

🕗 发布于 2024-10-20 12:26 人工智能 大语言模型

在2023年9月，Hyperwrite AI公司宣布推出他们的最新大模型——Reflection 70B，该模型声称在多个基准测试中超过了GPT-4和Llama 3.1，一度被认为是“世界顶级开源模型”。然而，不久之后，这一模型的惊人表现被质疑为数据造假，引发了广泛的讨论。这篇文章将详细探讨Reflection 70B事件的前因后果，揭示背后隐藏的技术问题，并总结我们从中得到的教训。

1. 事件背景：Reflection 70B的横空出世

Hyperwrite AI的联合创始人马特·舒默和萨希尔·乔杜里于2023年9月5日推出了Reflection 70B模型。根据公司发布的数据，Reflection 70B在MMLU、MATH、IFEval、GSM8K等多个基准测试中，成绩超过了闭源模型GPT-4和Llama 3.1，且以其仅70B的参数表现远超对比模型的多倍参数设置（如405B的Llama 3.1）。这一结果瞬间在AI社区中引起轰动，许多人认为AI模型又迎来了重大突破。

但好景不长，模型的基准测试结果被外界质疑无法复现，许多独立测试者和AI研究人员无法获得与官方报告一致的结果。特别是在Reddit和X等平台，关于模型真实性的质疑迅速发酵，大家纷纷怀疑Reflection 70B可能只是通过套壳来伪装其他现有模型的成果。

2. 被揭穿的基准测试和API问题

随着第三方测试的进行，问题逐渐浮出水面。多个AI研究员和开发者指出，Reflection 70B的API表现异常，生成的结果与Anthropic的Claude极为相似，甚至会产生相同的随机数。当要求模型输出“Claude”这个词时，它会生成空引号而非正确的输出，进一步加深了外界对其本质的怀疑。

随着进一步调查，Glaive公司的萨希尔·乔杜里在2023年10月7日发布了关于Reflection 70B的分析报告，揭示了事件的更多细节。他承认模型的部分数据确实出现了异常，主要原因是由于系统处理外部API响应的代码中存在一个bug，导致在MATH和GSM8K等基准测试上的得分出现了严重偏差。

例如：

MATH基准测试的实际得分应为69%-70%，而报告中却显示为79%；
GSM8K基准的实际得分应为94%-96%，而报告中却显示为99.2%。

在修复这些问题后，模型在某些测试中的表现有所提升，如MMLU和GPQA得分分别提高了1.04%和0.3%。然而，在HumanEval、MATH、GSM8K和IFEVAL等测试中，分数则有明显下降，分别下降了1.98%、8.9%、3.98%和2.5%。

3. 套壳模型的指控：Claude和Llama的影子

Reflection 70B被指套壳Claude和Llama模型，尽管开发团队对这些指控予以否认，但越来越多的证据表明，Reflection 70B可能确实与这些模型有较深的关联。特别是在分词器测试中，模型表现出了Claude模型特有的一些行为，进一步加剧了外界的怀疑。

一位Reddit用户通过分析模型的训练数据，发现其中包含了大量“作为一个AI语言模型”的表述，这种说法通常来自于ChatGPT模型。该用户推测，Reflection 70B的数据集可能主要来源于ChatGPT的输出，且没有经过有效清理。这一发现进一步加剧了社区对该模型真实性的质疑。

4. 模型开发过程中的问题

乔杜里在报告中还复盘了整个开发过程，承认在开发和发布Reflection 70B的过程中存在严重的疏漏。他指出，开发团队仅用了3到4周的时间生成了模型数据集，并进行了几次简单的迭代。然而，正是由于开发时间过短，模型的验证工作完全不到位，甚至在发布前没有经过完整的测试。

具体来说，团队没有对模型的基准测试结果进行多次验证，甚至没有进行基本的debug测试。在看到基准测试的初步分数后，开发者过于兴奋，急于发布模型，导致最终的发布版本存在严重的技术问题。更糟糕的是，发布的API并不具备生产环境的条件，只是一个临时搭建的带有代理的vllm服务器，这显然无法满足实际生产应用的需求。

5. 事件影响与反思

Reflection 70B乌龙事件不仅仅是一次技术失误，更是对整个AI开源生态的一次冲击。许多AI研究人员和开发者对此感到失望，尤其是基准测试结果被操控的嫌疑，让人对当前AI模型的评测标准产生了质疑。英伟达研究主管Jim Fan指出，基准测试本身并不总是可靠，开发者可以通过多种手段操控测试结果。因此，未来评估模型的优劣可能需要更多依赖第三方平台提供的测试工具和对话机器人等真实使用场景。

6. 结论：未来的AI模型该如何评估？

Reflection 70B事件为整个AI社区敲响了警钟。在未来，开发者在推出新模型时，必须进行充分的测试和验证，不能仅仅依赖初步的测试数据来评估模型的性能。此外，模型的透明度和可复现性将成为评估其可信度的关键因素。开发者需要对其模型的训练过程和数据来源保持透明，并开放更多的技术细节，供社区进行验证。

展望未来，随着AI模型的复杂度不断提升，基准测试的作用和可信度将面临更多挑战。AI社区需要建立更加完善和透明的评测机制，确保模型的评估结果能够真实反映其在实际应用中的表现。

在这里插入图片描述

原文地址：https://blog.csdn.net/weixin_41496173/article/details/143088137

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：[PHP]Undefined index错误只针对数组
下一篇：编写一个通用的i2c设备驱动框架

leetcode289:生命游戏
根据，简称为，是英国数学家约翰·何顿·康威在 1970 年发明的细胞自动机。给定一个包含m × n个格子的面板，每一个格子都可以看成是一个细胞。每个细胞都具有一个初始状态：1即为（live），或0即为
阅读更多2024-10-20
MongoDB数据恢复
注意：两个MongoDB的版本要一致，本文使用的是mongo:4.2.24。先把K8S上面的MongoDB 容器停止（可以把副本改成0）。1、将容器挂载MongoDB的数据目录备份到本地。经常是数据文
阅读更多2024-10-20
C#中实现事务
C#中实现事务
阅读更多2024-10-20
【LeetCode每日一题】——560.和为 K 的子数组
给你一个整数数组 nums 和一个整数 k ，请你统计并返回该数组中和为 k 的子数组的个数。子数组是数组中元素的连续非空序列。
阅读更多2024-10-20
「漏洞复现」满客宝智慧食堂系统 selectUserByOrgId 未授权访问漏洞
请勿利用文章内的相关技术从事非法测试，由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失，均由使用者本人负责，作者不为此承担任何责任。工具来自网络，安全性自测，如有侵权请联系删除。本次
阅读更多2024-10-20
React面试题目（从基本到高级）
React前端面试常见题目涵盖了React的基础概念、组件、状态管理、生命周期、性能优化等多个方面。
阅读更多2024-10-20
12.个人博客系统（Java项目基于spring和vue）
1 在校学习的学生，可用于日常学习使用或是毕业设计使用 2 毕业一到两年的开发人员，用于锻炼自己的独立功能模块设计能力，增强代码编写能力。 3 亦可以部署为商化项目使用。 4 需要完整资料及源码
阅读更多2024-10-20
YoloV8改进策略：注意力改进|DeBiFormer，可变形双级路由注意力|引入DeBiLevelRoutingAttention注意力模块（全网首发）
本次改进的核心在于将DeBiLevelRoutingAttention模块嵌入到YoloV8的主干网络中，具体位置是在SPPF（Spatial Pyramid Pooling Fast）模块之后。这一
阅读更多2024-10-20
word取消自动单词首字母大写
情况说明：在word输入单词后首字母会自动变成大写取消单词首字母大写步骤：（1）点击菜单栏文件（2）点击“更多”——>“选项”（3）点击“校对”——>“自动更正选项”（4）取消“句首字母大
阅读更多2024-10-20
web前端网页用户注册页面
【代码】web前端网页用户注册页面。
阅读更多2024-10-20