【报告阅读】chatgpt-o1 技术报告阅读 | 新的迭代开始了~

🕗 发布于 2024-09-23 05:30 chatgpt 人工智能

OpenAI o1是通过强化学习去进行复杂推理，在它回答之前，他会经过复杂的内部思维链的思考。

经过强化训练的o1多强

1 表现

在美国数学奥林匹克预选赛中名列前500名的学生中，o1排89名

在物理、生物、化学问题的基准测试中超过人类博士水平

在这里插入图片描述

其实你都不需要细看每一个数据集是什么含义。

只需要相对对比就知道他有多强了

4o还是蛮厉害的吧

但是在o1 preview和o1面前简直就是一个傻子，很多准确率不是几个几个超越，而是几十几十的超越

降维打击

怪不得OpenAI都直接给他一个新的系列名称了~

2 实现方法

类似于人类在回答一个困难问题之前可能会思考很长时间，o1 在尝试解决问题时使用思维链。通过强化学习，o1 学习完善其思维链并优化所使用的策略。它学会识别和纠正自己的错误。它学会将棘手的步骤分解为更简单的步骤。当当前的方法不起作用时，它学会尝试不同的方法。这个过程显著提高了模型的推理能力。

这也可以解释为什么o1这么贵，因为很多时候，你问一个问题，他会将这个问题反复思考（思考的过程都会消耗tokens，不显示给用户罢了）

在技术报告这里其实OpenAI已经展示了怎么实现的

学习推理与 LLMs | OpenAI — Learning to Reason with LLMs | OpenAI

在第一个demo中，对比了4o和o1在解码的过程

可以点击右侧打开思维链条

你会发现非常有趣，就是o1好像在和自己聊天一样，他会不断的向自己提问，然后证明自己的问题是错误的或者是正确的，一步一步向后推进。

3 还没有达到上界？

现在最可怕的是，他其实还没有达到瓶颈期。

可以看报告中放出的这张图
在这里插入图片描述

可以看到随着训练时间或者测试时间的加长，准确率依然稳步上升。

有训练过模型的朋友可能知道，训练模型过程中，一般来说，最痛苦的就是准确率很快就达到瓶颈了（往往呈现先升后平），而像上图这样优美的上升曲线简直就是炼丹人的最爱。

那你可能会问，既然增加训练时间o1的性能还在上升，为什么OpenAI不继续增加训练时间看看他最终的效果？

当然，我不是内部人员我也不知道

但我大概可以猜测出，就是训练时间太长太长了。

如果你注意到横轴是log scale即对数尺度就知道了，他这个横轴时间是取了对数的，所以要想提高模型性能，你的训练时间就得指数增加，就已经不是普通人训练几小时甚至几天了，可能是按月或者年了。

这是个好消息也是个坏消息。

好消息是，模型训练依然没有到达瓶颈，OpenAI又一次证明了可能性，人们还是有机会训练出更加智慧更加聪明的AI

坏消息是，训练一次模型的成本指数增加，无论是时间成本还是显卡成本

4 思考

看完还是觉得很牛逼。

思维链还是没变，只不过原本是人类引导模型去一步一步思考，现在变成了通过强化学习让模型自己就可以一步一步反思思考。

AI技术发展我觉得不可避免

但说实话其实我真正担心的是

将这些技术用在国防，科学发现而产生的质的推进。

从而导致国与国的差异更加增大

原文地址：https://blog.csdn.net/Q52099999/article/details/142434234

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：深入解读 iVector：语音识别与说话人识别领域的关键技术
下一篇：【Kotlin 与 Java 互操作】Java中调用带有默认值的Kotlin函数(十四)

《生成式 AI》课程第3講 CODE TASK执行文章摘要的机器人
2.设计一个提示符，使语言模型能够对文章进行总结。1.我们希望你创建一个可以执行文章摘要的机器人。
阅读更多2024-11-17
《生成式 AI》课程第3講 CODE TASK 任务2:角色扮演的机器人
我们希望你设计一个机器人服务，你可以用LM玩角色扮演游戏。与LM进行多轮对话提示:告诉聊天机器人扮演任意角色。后续输入:与聊天机器人交互。
阅读更多2024-11-17
存在重复元素 II
判断数组中是否存在两个。
阅读更多2024-11-17
排列问题方法总结（递归+迭代）
这个代码主要就是讲的是逐步生成结果，然后它主要就是利用了一个递归的思想。首先就是先假设我求出来了前 n -1 个数的排列，然后我作为老板我只需要去排列第 n 个数。它的排法一共有三种，首先就是可以
阅读更多2024-11-17
教资考试题目
政治要强”、“情怀要深”、“视野要广”和（ BCD）不仅仅是对全国思政课教师的要求，也是广大教师强化师德修养、践行使命担当的行动指南。课程评价应将教师和学生在课程开发、实施以及教学过程中的全部情况都纳
阅读更多2024-11-17
【更新至2023】A股上市公司企业突破性创新、渐进性创新数据（2000-2023年）
参考C刊《财经问题研究》胡山（2022）老师的研究，用当年获得授权的发明专利数量加 1 后取自然对数来衡量企业突破性创新 ( Invention);用非发明专利 ( 包括实用新型专利和外观设计专利)
阅读更多2024-11-17
Stable Diffusion Hypernetwork Embedding
本节课程我们讲述了另外两种控制图像输出特征和风格的方法---embedding和hypernetwork，embedding在实践中会经常使用到，尤其在反向提示词中，我们会经常使用一些embeddin
阅读更多2024-11-17
深度学习在边缘检测中的应用及代码分析
边缘通常是指图像中像素灰度值发生急剧变化的地方，这些变化可以是由于物体与背景之间的灰度差异、物体不同表面的灰度差异等原因造成的。从数学角度来看，边缘可以看作是图像灰度函数的不连续点或其导数的极值点。
阅读更多2024-11-17
Vulnhub靶场案例渗透[10]- Momentum2
将文件下载,分析对应代码逻辑，发现请求中包含指定cookie键值对和secure参数就能上传php文件了，同时代码中提示实际cookie这个文件中指定字符串多一位大写字符串在末尾。目录下，经过上传一个
阅读更多2024-11-17
企业网络链路聚合、数据抓包、远程连接访问实验
随着信息技术的飞速发展和企业业务的不断扩大，企业网络面临着越来越多的挑战。其中，网络带宽、数据安全和远程访问等问题尤为突出。为了解决这些问题，我们进行了本次企业网络链路聚合、数据抓包和远程连接访问的实
阅读更多2024-11-17

【报告阅读】chatgpt-o1 技术报告阅读 | 新的迭代开始了~

1 表现

2 实现方法

3 还没有达到上界？

4 思考

相关文章