【无标题】
gpt3应用之一:github copilot,openai与github合作,实现基于gpt的代码补全功能。给出代码注释和函数头(选填),自动补全代码。
gpt版本演变:
-
2017年transformer出世
-
2018年gpt1拿transformer解码器,基于大量无标注数据进行预训练,然后拿几个具体任务进行微调。
-
一两个月后bert基于gpt1(12层768宽的decoder-only),将gpt1的transformer解码器替换为编码器,基于更大的无标注数据做预训练,效果好于gpt1。bert有两个版本,bert-base(12层768宽的encoder-only)参数量和gpt1一致,效果要好。bert-large(24层1024宽的encoder-only)参数更大,效果更佳。
-
19年gpt2在gpt1的基础上,继续用transformer的解码器,收集了更大的数据集。
-
20年gpt3在2的基础上,在模型参数和数据规模都扩大了100倍。
gpt1:
-
当时称半监督,现在叫自监督学习。一部分有标注数据,另一部分未标注数据。gpt是在未标注数据上做预训练,然后在有标注数据上微调。
-
无监督预训练做的是通过前面K个词预测当前词。用12层decoder-only的解码器(tensor size = 768,没有cross attention)作为模型结构,基于标准的mask掩码盖住当前词之后的词信息。(bert这里用的是完形填空任务,以transformer编码器来看待填充词前后的注意力信息)。与bert对比,从模型预测任务的难易程度讲,gpt预测开放式的未来数据难度更大,技术路线更难,天花板更高。
-
微调过程:见下图,在输入中加入开始字符、中间字符和结束字符等特殊字符,注意这些字符在gpt1预训练中未出现过。
-
如输入序列预测分类(如情感分析等),将最后一个输入token对应的输出连接一个MLP进行分类
-
给出假设和条件,判断是否支持、不支持、中性的分类
-
两句话相似度判断。由于文本对称性,搞两个text1 + text2 and text2 + text1去训练
-
问答,Q + A1 and Q + A2 and Q + A3,输出softmax
-
-
然后被bert给锤了,bert发现加大编码器参数量(bert-large扩至3.4个亿=340M)、扩大数据集,模型性能更强。那gpt2如何回应?
gpt2:
-
参数量扩大至48层1.5B,文本变为百万级。但性能比bert好的不明显,所以作者找了到zero-shot角度,忽略微调,强调通用大模型的通用性。
-
因为gpt2不再微调,这就需要将gpt1下游任务微调中的特殊字符干掉。gpt2提出prompt,将任务信息嵌在其中。
gpt3:
-
又回归到gpt1中few-shot设定,但这里的微调过程不需要梯度传播(prompt工程?),1750亿(175B)参数量。精度相比gpt2翻倍(30至60),参数量翻100倍。
- gpt3模型结构:大力出奇迹,96层深,12288维度宽,每个batch有320万个样本。
chat gpt/gpt3.5/Instruct gpt:
-
gpt3 -> instruct gpt -> gpt3.5 -> chat gpt ,chat gpt在gpt3.5微调而来,gpt3.5是在gpt3的基础上通过instruct gpt的方法训练而来。
-
Instruct gpt相当与在gpt3上①加入了一些带标注的数据进行监督学习微调(sft)得出(step1),②加入了一些人工排序的回答项做强化学习。(step2训练一个奖励模型,step3根据奖励模型打分去训练step1)
- 1.3B的instruct gpt效果好于175Bgpt3。
gpt4:(盲猜万亿级参数)
-
沉淀了一年,gpt4支持图像+文本输入,但只支持文本输出。
-
引入强化学习,让生成内容更符合人类意图。RLHF (Reinforcement Learning from Human Feedback) ,使用强化学习的方式直接优化带有人类反馈的语言模型。RLHF 使得在一般文本数据语料库上训练的语言模型能和复杂的人类价值观对齐。(gpt3.5/chat gpt/instruct gpt都用了该方法)
-
如何试错?gpt4模型参数量大,训练耗时,如何才能验证当前策略有效呢。openai通过若干小参数模型训练,可以拟合出大规模参数训练的loss。
-
每一千个token 3分钱,输入长度限制8192个token。还有更长的版本,也更贵。
原文地址:https://blog.csdn.net/qq_38742161/article/details/145319727
免责声明:本站文章内容转载自网络资源,如侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!