GPT-5 传言：一场正在幕后发生的 AI 变革

🕗 发布于 2025-01-18 07:08 人工智能 gpt

新的一年，让我们从一个引人入胜的话题开始：如果我告诉你，GPT-5 并非虚构，而是真实存在呢？它不仅真实存在，而且正在你看不见的地方悄然塑造着世界。我的基本假设是：OpenAI 已经秘密开发出 GPT-5，并将其用于内部，因为这样做带来的回报远大于将其开放给数百万 ChatGPT 用户。而他们追求的回报，并非单纯的金钱，而是更深远的战略价值。这个想法本身并不复杂，难点在于如何将零散的信息拼凑成完整的推论。本文将深入探讨，为何我认为所有线索都指向这个结论。
在这里插入图片描述

声明：

请注意，这纯属个人推测。所有信息均来自公开渠道，没有任何内幕消息或爆料能直接证实我的观点。事实上，本文并非传播既有说法，而是我构建理论的过程。我没有掌握任何特权信息——如果有，我早就被保密协议束缚了。这个假设之所以引人注目，是因为它逻辑自洽，且能解释许多现象。坦白说，这足以激发我对这个传言的深入探究。

我的推测是否正确，最终将由时间来验证。即便我的假设被证明是错误的（未来总会揭晓），我相信这个推理过程本身也颇具价值。我欢迎大家在评论区畅所欲言，但请保持建设性和理性思考。最重要的是，请在充分理解全文后再参与讨论。除此之外，任何形式的交流我都乐于接受。

I. Claude Opus 3.5 的神秘失踪：一个引人深思的开端

在深入探讨 GPT-5 之前，我们先来看看它的“远房亲戚”——同样神秘失踪的 Anthropic Claude Opus 3.5。

众所周知，三大 AI 实验室——OpenAI、Google DeepMind 和 Anthropic——都推出了多款模型，以满足不同价格、延迟和性能需求。OpenAI 有 GPT-4o、GPT-4o mini 以及 o1、o1-mini 等；Google DeepMind 提供 Gemini Ultra、Pro 和 Flash；Anthropic 则有 Claude Opus、Sonnet 和 Haiku。目标很明确：尽可能覆盖不同客户群体。有些人追求极致性能，不惜代价；也有人更注重成本效益，追求“够用就好”。一切似乎都井然有序。

然而，2024 年 10 月，情况突然变得有些诡异。人们普遍预期 Anthropic 会发布 Claude Opus 3.5，以对标 5 月推出的 GPT-4o。然而，10 月 22 日，他们只发布了 Claude Sonnet 3.5 的更新版本（后被称为 Sonnet 3.6），Opus 3.5 却不见踪影。这意味着 Anthropic 缺少了一款能与 GPT-4o 正面竞争的主力模型。这难道不奇怪吗？以下是关于 Opus 3.5 的时间线，以及人们的猜测和事件发展：

10 月 28 日： 我在每周回顾文章中写道：“有传言称 Sonnet 3.6 是…… Opus 3.5 训练失败后中途保存的检查点。” 同一天，r/ClaudeAI 子版块出现一个帖子，声称“Claude 3.5 Opus 已被废弃”，并附上了 Anthropic 模型介绍页面的链接。至今，该页面仍未提及 Opus 3.5。有人猜测，这可能是 Anthropic 为即将进行的新一轮融资而采取的战略性举措，旨在维持投资者的信心。
11 月 11 日： Anthropic CEO Dario Amodei 在 Lex Fridman 的播客中否认了放弃 Opus 3.5 的说法：“我没有确切的时间表，但据我们所知，仍然打算推出 Claude 3.5 Opus。” 他的表态虽然谨慎且模棱两可，但并未直接驳斥传言。
11 月 13 日： 彭博社在一篇报道中证实了之前的传言：“在完成训练后，Anthropic 发现 3.5 Opus 在测试中表现优于上一代，但远未达到其规模、研发成本和推理开销所应有的水平。” 这意味着，Dario 不愿给出具体时间，是因为 Opus 3.5 虽然没有彻底失败，但其表现并不足以匹配其巨大的成本，尤其是推理成本，即用户使用模型时的资源消耗。
12 月 11 日： 半导体专家 Dylan Patel 和他的 Semianalysis 团队给出了剧情的最终反转，他们的解释将所有信息点串联了起来：“Anthropic 确实完成了 Claude 3.5 Opus 的训练，而且表现良好，模型规模也符合预期…… 但 Anthropic 并未将其公开，而是用 Claude 3.5 Opus 来生成合成数据，并进行奖励模型训练，从而显著提升了 Claude 3.5 Sonnet 的质量，再加上用户数据。”

简而言之：Anthropic 确实训练了 Claude Opus 3.5，但由于其表现未达到预期，他们放弃了发布，并将其用于内部。Dario 希望在下一个训练版本中能提高结果，因此不愿给出确切发布日期。彭博社也指出，它确实比旧模型更好，但性能提升不足以抵消其运营成本。Dylan 及其团队则揭示，Sonnet 3.6 的提升得益于 Opus 3.5：后者被用于在内部生成合成数据，从而辅助前者大幅提升。

这可以用以下关系图来表示：

II. 更好，但更小、更经济？

利用强大而昂贵的模型生成数据，来提升性能稍弱但更经济（推理成本更低）的模型的性能，这种做法被称为蒸馏（distillation）。这是业界常见的策略。通过这种方法，AI 实验室能让自家较小的模型取得远超额外预训练所能带来的提升。

蒸馏的具体方法多种多样，这里不再赘述。你只需理解：一个强大的教师模型（teacher）可以让学生模型（student）从“[小、便宜、快] + 弱”进化为“[小、便宜、快] + 强”。换句话说，强大的模型就是一座金矿。Dylan 在文章中解释了 Anthropic 为何将 Opus 3.5 用于蒸馏 Sonnet 3.6：

“新的 Sonnet 与旧版本相比，推理成本没有显著增加，但性能却更强。既然从成本效益的角度来看，发布 3.5 Opus 并不划算，那么不如借助 3.5 Opus 进一步训练 3.5 Sonnet，然后直接发布一款性能更好且不昂贵的模型。”

回到成本问题：蒸馏可以在不显著增加推理成本的情况下提升模型性能，这正好解决了彭博社指出的主要问题。Anthropic 之所以不发布 Opus 3.5，一方面是因为其表现没有达到预期；另一方面是因为它在内部用途（作为其他模型的教师）反而更有价值。（Dylan 指出，这也是为什么开源社区能如此迅速地追赶上 GPT-4——因为他们直接挖掘了 OpenAI 金矿中产出的“黄金”。）

最令人惊讶的是，Sonnet 3.6 不仅表现出色，而且达到了 SOTA（当前最先进）水平。据称，它甚至比 GPT-4o 更强大。这意味着，Anthropic 的中档模型，凭借 Opus 3.5 的蒸馏（以及在 AI 发展中不算短的五个月时间里的其他改进），竟然全面超越了 OpenAI 的旗舰产品。由此可见，“高成本”不再等同于“高性能”。

“更大更好”的时代已经结束了吗？OpenAI 的 CEO Sam Altman 曾警告过，这个时代已经过去。我也曾撰文讨论过相关话题。当几家顶尖实验室对关键数据讳莫如深，将最宝贵的信息视为机密时，我们自然无法再依赖参数规模这一指标，而只能关注模型的基准测试结果。OpenAI 最后一次正式公布模型参数规模还是 2020 年的 GPT-3（1750 亿参数）。到 2023 年 6 月，有传言称 GPT-4 可能采用了专家混合（MoE）架构，参数量高达约 1.8 万亿。后来，Semianalysis 在 2023 年 7 月的详细分析中也证实，GPT-4 大约有 1.76 万亿参数。

直到 2024 年 12 月，又过了一年半，EpochAI 的研究员 Ege Erdil 估计，这一批最顶尖的模型——包括 GPT-4o 和 Sonnet 3.6——的规模比 GPT-4 小得多（尽管它们在基准测试中都超越了 GPT-4）：

“目前的前沿模型，如最早版本的 GPT-4o 和 Claude 3.5 Sonnet，可能只有 GPT-4 大小的十分之一左右，GPT-4o 约 2000 亿参数，3.5 Sonnet 约 4000 亿。……当然，这种估算可能会有 2 倍的偏差，毕竟我的方法比较粗糙。”

他还详细阐述了在实验室不公布架构细节的情况下，自己如何得出这个数字。但对我们来说，关键在于：迷雾正在散去。Anthropic 和 OpenAI 最新的模型不仅性能更强，而且比上一代更小、更便宜。我们已经知道 Anthropic 如何利用 Opus 3.5 蒸馏出 Sonnet 3.6，那么 OpenAI 呢？他们又做了什么？

III. 驱动 AI 实验室的普遍力量

有人可能会认为，Anthropic 的蒸馏策略是因为 Opus 3.5 的训练效果低于预期，属于特殊情况。但事实并非如此。Google DeepMind 和 OpenAI 也都提到，他们在最近的训练中遇到了类似的“不理想”情况。（“不理想”并不意味着模型变差了，只是没有达到预期的大幅提升。）至于背后的原因，对本文来说并不重要：可能是数据见顶、Transformer 架构本身的局限，或是预训练规模定律逐渐趋于饱和…… 不管怎样，Anthropic 的处境在整个行业中都具有代表性。

再回顾彭博社的那句话：模型性能的好坏，需要结合成本来评估。而这一点在三大实验室身上都有体现。Ege 也解释了原因：ChatGPT/GPT-4 横空出世后，市场对生成式 AI 的需求激增，这让各大实验室都难以应对，亏损不断攀升。相比训练的“一次性”成本，“推理”开销会随着用户数量和使用量同步爆炸式增长。如果每周有 3 亿人在使用你的 AI 产品，运营费用随时可能让你破产。

Anthropic 之所以将 Opus 3.5 蒸馏成 Sonnet 3.6，是为了兼顾用户体验和经济效益。同样的市场压力在 OpenAI 身上只会更大。蒸馏的妙处在于，它可以一石二鸟：通过发布较小的模型来解决推理成本过高的问题，并且由于大型模型不公开，也就避免了“训练结果不佳”的负面影响。

Ege 认为，OpenAI 可能也尝试了另一种策略：过度训练（overtraining）。这意味着，如果推理成本成为主要支出，可以“给相对较小的模型灌输更多数据”，以弥补模型规模不足带来的性能损失。但问题是，过度训练已经越来越不可行，优质训练数据即将枯竭。Elon Musk 和 Ilya Sutskever 最近几周都坦言了这一点。

因此，最终还是要依靠蒸馏。Ege 总结道：“我认为 GPT-4o 和 Claude 3.5 Sonnet 也很有可能是从更大的模型蒸馏而来的。”

至此，所有线索都指向：OpenAI 和 Anthropic 的做法如出一辙，都是（1）先训练并“雪藏”一个大型模型；（2）通过蒸馏将其小型模型升级到可商用的水平；（3）背后的原因在于：性能不如预期，以及对成本的考量。但问题仍然存在：Opus 3.5 至今仍未公开，那么与之对应的 OpenAI 大型模型又在哪里？它是否还被藏在公司内部？你能猜到它的名字吗？……

IV. 先行者之路：挑战与机遇并存

之所以先从 Anthropic 的 Opus 3.5 入手，是因为这个案例的信息相对公开且详实。然后，我借助蒸馏的概念，将 Anthropic 的经验与 OpenAI 的情况联系起来，并探讨了两家公司都面临的共同压力。但还有一个新的障碍：作为领跑者，OpenAI 所面临的挑战可能比后发者 Anthropic 更大。

其中之一就是训练 GPT-5 的硬件要求。Sonnet 3.6 虽然能与 GPT-4o 媲美，但毕竟比 GPT-4o 晚了 5 个月才推出。我们有理由推测，GPT-5 可能是更高层次的存在：更强大，也更庞大，训练成本和推理成本都会更加惊人。也许一次训练就要花费高达 5 亿美元。那么，现有的硬件能够支持吗？

Ege 再次给出了答案：可以支持，但如果要为 3 亿用户提供推理服务，显然是无法承受的。然而，如果只是进行训练，情况就轻松多了：

“从理论上讲，即使使用我们现在的硬件，也能维持比 GPT-4 大 50 倍、约 100 万亿参数的模型的推理。不过，这可能意味着每 100 万个输出 token 的成本高达 3000 美元，输出速度在每秒 10~20 个 token。要想将这个模型投入公众使用，它必须能为客户带来极高的经济回报。”

也就是说，如果他们想将这种天价推理费用的大型模型直接开放给大众，即使是微软、谷歌或亚马逊（OpenAI、DeepMind、Anthropic 背后的金主）也难以承受。那该怎么办？答案很简单：只有在能够“解锁巨大经济价值”时，才需要对外开放。如果达不到这个目标，就不开放。

他们可能会说：“我们训练出来的新模型比现有产品更好，但还远远不够好，难以支撑如此巨大的推理成本。”（这句话听起来是不是很耳熟？《华尔街日报》上个月关于 GPT-5 的报道就是这个意思，与彭博社对 Opus 3.5 的描述如出一辙。）

然后，他们会声称模型表现不如预期（即使实际情况可能不差，只是达到预期所需的成本投入过高），将其留在公司内部作为教师模型，用于蒸馏更轻量的小型模型，再将小型模型发布出去。我们得到了 Sonnet 3.6、GPT-4o 和 o1 等产品，它们既便宜又好用；大家对 Opus 3.5 和 GPT-5 仍然充满期待，只是更加迫切了。而他们则利用这个流程，源源不断地挖掘金矿。

V. Altman 先生，您肯定还有更多理由吧！

当我推论到这里时，仍然感到有些疑问。虽然目前所有的证据都表明，对 OpenAI 来说，这种做法非常合乎逻辑，但“合理”并不必然等同于“真实”。我无法提供确凿的证据，毕竟本文只是基于推测。然而，我还可以补充一些佐证来增强说服力。

OpenAI 真的有更多理由这样做吗？除了“成绩不如预期”和“成本不断攀升”，还有其他动机吗？让我们看看 OpenAI 高层在公开场合谈论 GPT-5 时的言论。从他们屡次推迟 GPT-5 的发布中，我们能否看出一些端倪？OpenAI 毕竟是这场 AI 变革的领头羊，而 Anthropic 则在其阴影下发展。Anthropic 操作“雪藏大型模型”不会引起太大的反弹，但 OpenAI 呢？他们难道没有代价吗？

既然提到了代价，就不得不回到与微软的合作上。众所周知，OpenAI 与微软之间有一项“AGI 条款”被写入了 OpenAI 的架构说明。它列出了五条管控准则，阐明了 OpenAI 公司与非营利组织以及与微软的关系。第五条明确了 AGI 的定义：“能在大多数具有经济价值的工作中超越人类的高度自治系统”。一旦 OpenAI 董事会认定系统达到了 AGI，“微软只对这之前的技术享有 IP 许可和商业合作条款，AGI 系统本身除外。”

很明显，双方都不希望这种合作关系破裂。AGI 条款虽然由 OpenAI 起草，但他们也不希望真的触发该条款。而推迟发布可能是避免这种情况的一种方法。“不过，GPT-5 肯定算不上 AGI 吧？”你也许会这么想。但我告诉你另一个几乎无人知晓的事实：根据 The Information 的报道，OpenAI 和微软之间存在一个“对 AGI 的秘密定义”，它并非学术概念，而是法律合同层面的条款：AGI = “能够创造至少 1000 亿美元利润的 AI 系统”。

如果 OpenAI 以“还不成熟”为由，继续搁置 GPT-5，不仅能控制推理成本、缓解公众对性能的争议，还能避免大家去怀疑它是否已经接近“能带来 1000 亿美元利润”的 AGI。退一步讲，如果他们确信 GPT-5 一年就能直接赚取 1000 亿美元，他们也不介意触发 AGI 条款，与微软分道扬镳。但在不确定是否真的能解锁如此巨大的经济价值的情况下，按兵不动显然更为稳妥。

长期以来，外界对 OpenAI 不推出 GPT-5 的主要猜测是其未达到预期水平。但即使这个说法是正确的，也很少有人想到，OpenAI 也许有更好的内部用途，而不是将其用于赚取订阅费。要知道，“开发一个优秀的模型”与“开发一个既优秀又能服务 3 亿用户的模型”是两回事。如果你做不到后者，就不做。如果你根本不需要这样做，那就更没有必要了。他们之所以早期让公众使用最先进的模型，是因为他们需要海量的用户数据。如今，他们不缺数据，也不怎么缺钱（那是微软的问题，不是他们的问题）。他们的目标是 AGI，之后是 ASI。他们追求的是千秋功业。

VI. 这为何会改变一切

我们即将结束本文。我相信我已经提供了足够的证据，得出一个合理的推论：OpenAI 很可能已经在内部运行着 GPT-5，就像 Anthropic 拥有其 Opus 3.5 一样。而且，完全有可能 OpenAI 永远不会公开发布 GPT-5。如今，大家衡量性能的基准已经变成了 o1/o3，而不再仅仅是 GPT-4o 或 Claude Sonnet 3.6。随着 OpenAI 探索在推理阶段应用新的扩展方法（test-time scaling laws），GPT-5 要想碾压后续不断涌现的 o 系列（o1、o3、o4、o5……）变得越来越困难。此外，他们也不再特别需要我们的资金或数据。

继续训练新一代底层模型——GPT-5、GPT-6，以及未来更强大的模型——对 OpenAI 来说，内部用途一直都具有价值，但不一定需要将其作为产品出售。也许他们已经进入了下一个阶段，只想在幕后利用这些大型模型来生成更好的数据，迭代出更高阶的模型。就像一位隐居山林的高人，不直接下山与我们见面，却在暗中培养弟子，而那座山就是他们的大型数据中心。无论我们是否能看见这位“老隐士”，我们都会感受到他那强大的智慧所带来的影响。

即使 GPT-5 最终发布，这个事实也已经没有那么重要了。如果 OpenAI 和 Anthropic 真正开启了某种递归自我改进（即使仍有人类在其中把关），那么他们提供给公众使用的版本已经不再那么关键。他们会不断地将我们甩在身后，正如宇宙加速膨胀，以至于遥远星系的光芒再也无法到达地球。

也许，这就是他们能在短短三个月内，从 o1 迅速跃迁到 o3 的原因——以及今后迅速跃迁到 o4、o5 的原因。或许也解释了为何他们最近在社交媒体上如此兴奋，因为他们正在实施一种全新的、改良的运营模式。

难道你以为踏上 AGI 的征途，就意味着你能够使用越来越强大的公开模型吗？你以为他们会把每一次成果都双手奉上，让你随意使用吗？当然不会。他们早就说过，每次模型的升级都将让他们领先对手更远，直到无人能够追赶。每一代新的大型模型都是推进逃逸速度的引擎。已经飞到平流层的他们，恐怕只能与你挥手作别。

至于他们是否会回到地面？那就只能拭目以待了。

择译分享原文；GPT-5 传言：一场正在幕后发生的 AI 变革
原文：This Rumor About GPT-5 Changes Everything(https://albertoromgar.medium.com/this-rumor-about-gpt-5-changes-everything-f49e4af8efd5)

原文地址：https://blog.csdn.net/iduiui997/article/details/145213744

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：基于docker微服务日志ELK+Kafka搭建
下一篇：1.5 GPT 模型家族全解析：从 GPT-1 到 GPT-4 的演进与创新

pnpm介绍
pnpm介绍
阅读更多2025-01-18
[c]可变参数函数
**logMessage 函数**: 这是一个接受可变数量参数的函数，首先通过`va_start`初始化`args`，然后调用`vsnprintf`根据提供的格式化字符串和参数生成最终的消息。它与 `
阅读更多2025-01-18
wps数据分析000002
点击A2，按住ctrl+shift键，按住向下箭头，选中第一列；再按住ctrl+shift键，按住向右的箭头，即可选中整个工作表。光标定位到列的位置上，出现一个较粗的箭头，单击一下，即选中单元格中的某
阅读更多2025-01-18
Python使用seleniumwire接管Chrome查看控制台中参数
Python使用seleniumwire接管Chrome查看控制台中参数
阅读更多2025-01-18
瑞芯微开发板/主板Android配置APK默认开启性能模式方法
EVB3562开发板配备了PCIe2.1/USB3.0 OTG/千兆网口等各类型接口，支持4G/5G通信、多摄像头及多种视频接口，可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示、工业控制等
阅读更多2025-01-18
【探寻C++之旅】第二章：类和对象（上）
【探寻C++之旅】第二章：类和对象（上）
阅读更多2025-01-18
53，【3】BUUCTF WEB october 2019 Twice SQLinjection
我真的纯脑子有病，人家二次注入不是注入两次，是一次注入通过两次操作实现，如下所示。database()库名ctftraining。表名flag,news,users。最后一步不显示flag。3，看到陌
阅读更多2025-01-18
【数据分享】1929-2024年全球站点的逐月平均气温数据（Shp\Excel\免费获取）
【数据分享】1929-2024年全球站点的逐月平均气温数据（Shp\Excel\免费获取）
阅读更多2025-01-18
深度学习基础--GRU学习笔记(李沐《动手学习深度学习》)
也就是说这个时候再用RNN模型就不太合适了，为了解决这种问题，RNN模型提供了许多升级的版本，其中著名的有：GRU、LSTM，而LSTM是在GRU的升级版，故本篇学习也是为了学习LSTM打基础。如何我
阅读更多2025-01-18
从零创建一个 Django 项目
env 文件夹：是虚拟环境的文件夹，用于隔离项目依赖。项目结构：外层 myproject/ 是根目录，存放入口文件（如 manage.py）。内层 myproject/ 是项目的配置文件夹，存放 se
阅读更多2025-01-18

GPT-5 传言：一场正在幕后发生的 AI 变革

相关文章