GPT系列模型简要概述

🕗 发布于 2024-12-09 16:15 gpt 人工智能

GPT-1：（0.117B参数量，0.8B words预训练数据)

动机：

在RNN和Transformer之间，选择了后者。

和《All your need is Attention》翻译模型的Encoder-Decoder架构相比，只保留Decoder，因此去掉了Cross-Attention层。没有使用sin、cos做位置编码，用的是可训练的位置编码。0.117B参数量。

预训练：

注意：是Embedding和最后一层分类层，参数共享的。原因：这个时期的模型参数小，Embedding参数量占的比重高，共享可以降低参数量。现在的模型参数大，Embedding占的比重小，都不再共享了。

微调(Fine Tune):

将上了特殊Token(Start、Extract、Delim)，让模型感知到在做NLP任务，而不是在做句子生成。

Similarity任务，将句子1和句子2，用不同的顺序，做成2个样本，激活值相加，最后进Linear层去分类。

多选题任务，题目+选项，得到1个数值；每个选项都得到1个数值，这些数值做softmax；

Trick: 微调任务和预训练任务，同时进行训练。

训练数据：

Bert：

双向Encoder预训练；最后加1层线形层做下游任务微调。

效果碾压GPT-1:

GPT-2（1.542B参数量，40GB文字训练数据量）

动机：

下游任务，放弃特殊token，改用prompt：

模型变化：

训练变化：

效果：比不过FineTune模型。但发现了规律：随着参数量增大，效果仍可继续上升。

GPT-3: (175B参数量，300B token预训练数据量）

动机：

模型修改：

引入稀疏注意力机制（每个token只和前面的部分token进行attention计算，而不是前面全部token)

训练数据：

不同来源的数据，采样比例不一样。（质量差的数据，就少采样一些）

效果：超过了最好的Fine tune模型。

GPT-4:

效果：霸榜Top-1

Insight:

原文地址：https://blog.csdn.net/smartcat2010/article/details/144321754

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：四十一：Web传递消息时的编码格式
下一篇：使用腾讯混元(HunYuanVideo)视频模型FP8量化版本来生成绅士动画,模型体积30G,8G甜品卡可玩,2秒视频需要15分钟

.NET(C#) 如何配置用户首选项及保存用户设置
.NET(C#) 如何配置用户首选项及保存用户设置
阅读更多2024-12-14
【最新】北大数字普惠金融指数数据集-省市县（2011-2023年）
郭峰,王靖一,王芳,孔涛,张勋,程志云.测度中国数字普惠金融发展:指数编制与空间特征[J].经济学(季刊),2020,19(04):1401-1418.时间跨度：省级和城市级指数时间跨度为2011-2
阅读更多2024-12-14
GESP202412 四级【Recamán】题解（AC）
a11ak−1−kkakak−1−kak−1k小杨想知道 Recamán 数列的前n项从小到大排序后的结果。手动计算非常困难，小杨希望你能帮他解决这个问题。
阅读更多2024-12-14
IDEA遇到EasyConnect中的网络资源无法访问的问题
版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。原文链接：https://blog.csdn.net/wanshanyu_/article/de
阅读更多2024-12-14
双目摄像头标定方法
此时已经完成标定，左下角为反投影误差，右边为外参可视化。将双目左右目拍的图像上传（左右目最好不少于20张）此时回到主页面，即可看到成功导出。把这些误差大的删除即可。
阅读更多2024-12-14
Servlet、omcat服务器架构与工作原理
Servlet是运行在服务器端的Java程序，它的主要职责之一是接收并处理来自客户端（如浏览器）的HTTP请求。当客户端发送一个请求到服务器时，Servlet可以解析请求中的信息，例如请求的URL路径
阅读更多2024-12-14
Vue生命周期钩子函数：深入解析与实践
作为高级Vue前端开发人员，对Vue组件的生命周期钩子函数有着深刻的理解是至关重要的。生命周期钩子函数是指在Vue组件的创建、更新、销毁等过程中，Vue自动调用的一系列方法。通过这些钩子函数，我们可以
阅读更多2024-12-14
安卓开发--使用android studio发布APP
app发布
阅读更多2024-12-14
数据结构与算法学习笔记----拓扑排序
@ author: 明月清了个风。
阅读更多2024-12-14
python 将数据保存到现有的Excel文件的新工作表
out_file = ‘query.xlsx’df1 = pd.DataFrame(out_data)若直接写入：df1.to_excel(out_file, index=False, sheet_n
阅读更多2024-12-14

GPT系列模型简要概述

相关文章