【无标题】

🕗 发布于 2025-01-24 06:54 机器学习

gpt3应用之一：github copilot，openai与github合作，实现基于gpt的代码补全功能。给出代码注释和函数头（选填），自动补全代码。

gpt版本演变：

2017年transformer出世
2018年gpt1拿transformer解码器，基于大量无标注数据进行预训练，然后拿几个具体任务进行微调。
一两个月后bert基于gpt1（12层768宽的decoder-only），将gpt1的transformer解码器替换为编码器，基于更大的无标注数据做预训练，效果好于gpt1。bert有两个版本，bert-base（12层768宽的encoder-only）参数量和gpt1一致，效果要好。bert-large（24层1024宽的encoder-only）参数更大，效果更佳。
19年gpt2在gpt1的基础上，继续用transformer的解码器，收集了更大的数据集。
20年gpt3在2的基础上，在模型参数和数据规模都扩大了100倍。

gpt1：

当时称半监督，现在叫自监督学习。一部分有标注数据，另一部分未标注数据。gpt是在未标注数据上做预训练，然后在有标注数据上微调。
无监督预训练做的是通过前面K个词预测当前词。用12层decoder-only的解码器（tensor size = 768，没有cross attention）作为模型结构，基于标准的mask掩码盖住当前词之后的词信息。（bert这里用的是完形填空任务，以transformer编码器来看待填充词前后的注意力信息）。与bert对比，从模型预测任务的难易程度讲，gpt预测开放式的未来数据难度更大，技术路线更难，天花板更高。
微调过程：见下图，在输入中加入开始字符、中间字符和结束字符等特殊字符，注意这些字符在gpt1预训练中未出现过。
- 如输入序列预测分类（如情感分析等），将最后一个输入token对应的输出连接一个MLP进行分类
- 给出假设和条件，判断是否支持、不支持、中性的分类
- 两句话相似度判断。由于文本对称性，搞两个text1 + text2 and text2 + text1去训练
- 问答，Q + A1 and Q + A2 and Q + A3，输出softmax

然后被bert给锤了，bert发现加大编码器参数量（bert-large扩至3.4个亿=340M）、扩大数据集，模型性能更强。那gpt2如何回应？

gpt2：

参数量扩大至48层1.5B，文本变为百万级。但性能比bert好的不明显，所以作者找了到zero-shot角度，忽略微调，强调通用大模型的通用性。
因为gpt2不再微调，这就需要将gpt1下游任务微调中的特殊字符干掉。gpt2提出prompt，将任务信息嵌在其中。

gpt3：

又回归到gpt1中few-shot设定，但这里的微调过程不需要梯度传播（prompt工程？），1750亿（175B）参数量。精度相比gpt2翻倍（30至60），参数量翻100倍。

gpt3模型结构：大力出奇迹，96层深，12288维度宽，每个batch有320万个样本。

chat gpt/gpt3.5/Instruct gpt：

gpt3 -> instruct gpt -> gpt3.5 -> chat gpt ，chat gpt在gpt3.5微调而来，gpt3.5是在gpt3的基础上通过instruct gpt的方法训练而来。
Instruct gpt相当与在gpt3上①加入了一些带标注的数据进行监督学习微调（sft）得出（step1），②加入了一些人工排序的回答项做强化学习。（step2训练一个奖励模型，step3根据奖励模型打分去训练step1）

1.3B的instruct gpt效果好于175Bgpt3。

gpt4：（盲猜万亿级参数）

沉淀了一年，gpt4支持图像+文本输入，但只支持文本输出。
引入强化学习，让生成内容更符合人类意图。RLHF (Reinforcement Learning from Human Feedback) ，使用强化学习的方式直接优化带有人类反馈的语言模型。RLHF 使得在一般文本数据语料库上训练的语言模型能和复杂的人类价值观对齐。（gpt3.5/chat gpt/instruct gpt都用了该方法）
如何试错？gpt4模型参数量大，训练耗时，如何才能验证当前策略有效呢。openai通过若干小参数模型训练，可以拟合出大规模参数训练的loss。
每一千个token 3分钱，输入长度限制8192个token。还有更长的版本，也更贵。

原文地址：https://blog.csdn.net/qq_38742161/article/details/145319727

免责声明：本站文章内容转载自网络资源，如侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【C语言】预处理详解
下一篇：vim如何设置制表符表示的空格数量

细节增强卷积DEConv详解及代码复现
这种预训练模型能够捕捉图像的基本特征，为后续的端到端训练提供良好的初始参数。例如，在RESIDE和RESIDE-6K数据集上的实验结果表明，使用MSPLCK模块的MixDehazeNet-L模型在RE
阅读更多2025-01-24
Windows cmd常用命令
通过掌握这些常用的 Windows cmd 命令，无论是日常的文件管理还是系统的网络配置，都能变得更加高效和便捷。希望本文能帮助你更好地利用命令提示符提升工作效率。版权声明：本博客内容为原创，转载请保
阅读更多2025-01-24
【C++拓展】vs2022使用SQlite3
SQLite3 是一种广泛应用的嵌入式数据库，以其轻量、高效和无服务器架构闻名。Visual Studio 2022（VS2022）作为一款强大的 IDE，提供了丰富的工具支持 C++ 开发。在 VS
阅读更多2025-01-24
2024年度总结
迟来的2024年度总结，本文主要包括创作经历的回顾、个人成长与突破、以及职业与生活的平衡。
阅读更多2025-01-24
2024 开源社年度报告：拥抱开源新生活
2024 年，开源社步入了 10 周年。10 这个数字不论在十进制还是二进制中都代表着一次进位，而「进化」也成为了开源社 2024 的关键词。在这一年，我们迭代了开源社的使命愿景 —— 10 年前我们
阅读更多2025-01-24
springboot基于微信小程序的周边游小程序
基于Spring Boot的周边游微信小程序是一款为用户提供便捷周边游服务的应用程序。
阅读更多2025-01-24
探索前端新技术：利用 SolidJS 构建高性能响应式应用
return (<div></div>SolidJS 是一个现代、高性能的前端框架，其简洁直观的开发模式以及极致的性能优化使其成为前端开发者值得关注的新工具。在未来的项目中，尤
阅读更多2025-01-24
SpringCloudAlibaba 服务保护 Sentinel 项目集成实践
SpringCloudAlibaba 服务保护 Sentinel 项目集成实践
阅读更多2025-01-24
【Day25 LeetCode】贪心Ⅲ
这道题直接想法是采用二重循环暴力搜索，简单粗暴但是会超时，是因为以每个点为起点最坏的情况可能都要遍历完全部的序列，有大量重复的操作，那有没有优化的地方呢？ijj可以得出。可以通过这个结论避免大量重复搜
阅读更多2025-01-24
three.js+WebGL踩坑经验合集(1):THREE.Line无故消失的元凶
发现这根线就是被视锥剔除过滤掉了，three.js为了优化性能，会让不在画布可视范围（严格来说是个3D的视锥体）内的物体全部不参与渲染，这个线就是这样被过滤走的。可以看到，three.js出于性能考虑
阅读更多2025-01-24

【无标题】

相关文章