PyTorch深度学习与企业级项目实战-预训练语言模型GPT

🕗 发布于 2024-11-15 12:48 语言模型 gpt 人工智能

15.3.1 什么是预训练语言模型

尽管神经网络模型在自然语言处理任务中已取得较好的效果，但其相对于非神经网络模型的优势并没有像在计算机视觉领域那么明显。该现象的主要原因可归结于当前自然语言处理任务的数据集相对较小（除机器翻译任务外）。深度神经网络模型通常包含大量参数，因此在较小规模的训练集中易过拟合，且泛化性较差。通过海量无标注语料来预训练神经网络模型，可以学习到有益于下游自然语言处理任务的通用语言表示，并可以避免从零训练新模型。预训练模型一直被视为一种训练深度神经网络模型的高效策略。

随着深度学习的发展，模型参数显著增长，从而需要越来越大的数据集用于充分训练模型参数并预防过拟合。然而，大部分自然语言处理任务的标注成本极为高昂，尤其是句法和语义相关任务构建大规模标注数据集尤为困难。相比较而言，大规模无标注数据集相对易于构建。为更好地利用海量无标签文本数据，我们可以首先从这些数据中学到较好的文本表示，然后将其用于其他任务。许多研究已表明，在大规模无标注语料中训练的预训练语言模型得到的表示，可以使许多自然语言处理任务获得显著的性能提升。

预训练的优势可总结为以下几点：

（1）在海量文本中通过预训练可以学习到一种通用语言表示，并有助于完成下游任务。

（2）预训练可提供更好的模型初始化，从而具有更好的泛化性，并在下游任务上更快收敛。

（3）预训练可被看作在小数据集上避免过拟合的一种正则化方法。

15.3.2 GPT-2模型介绍

OpenAI 公司在2018年提出了一种生成式预训练（Generative Pre-Training，GPT）模型，用来提升自然语言理解任务的效果，正式将自然语言处理带入“预训练”时代。“预训练”时代意味着利用更大规模的文本数据以及更深层的神经网络模型，来学习更丰富的文本语义表示。同时，GPT的出现打破了自然语言处理各个任务之间的壁垒，使得搭建一个面向特定任务的自然语言处理模型不再需要了解非常多的任务背景，只需要根据任务的输入输出形式应用这些预训练语言模型，就能够达到一个不错的效果。因此，GPT提出了“生成式预训练+判别式任务精调”的自然语言处理新范式，使得自然语言处理模型的搭建变得不再复杂。预训练语言模型的出现，使得自然语言处理进入新的时代，也被认为是近些年来自然语言处理领域的里程碑事件。

GPT-2是GPT算法的“进化版”，比GPT参数扩大了10倍，数据量也扩大了10倍，它使用包含800万个网页的数据集，共有40GB。这个庞大的算法使用语言建模作为训练信号，以无监督的方式在大型数据集上训练一个Transformer模型，然后在更小的监督数据集上微调这个模型，以帮助它解决特定任务。

就GPT-2而言，它的训练目标很简单：根据所有给定文本中前面的单词预测下一个单词。与其他基于神经网络的语言模型相比，GPT-2具有许多独特的优点。首先，它采用自监督学习的方式进行训练，使其能够处理多种语言和任务。其次，GPT-2可以生成各种类型的文本，例如新闻、故事、对话和代码等。最后，GPT-2模型使用大量的预训练参数，使其具有强大的表现力和泛化能力。

所以，以往大家的工作模式是各个公司会自己在GitHub网站上下载代码，然后公司出钱“捞”数据、打标，工程师用自己公司的打标数据训练来完成业务的需求。但是随着Huggingface的成立，自然语言处理各大热门的中英文预训练模型都开源在下载网址https://huggingface.co/models（目前可以使用其镜像网站https://hf-mirror.com来访问相关模型）。现在大家的工作模式是算法工程师打开Huggingface网站，搜业务相关的预训练模型（这些模型都是大厂基于大量的数据训练好的模型）进行下载，算法工程师自己收集或者标记少量的数据，微调下载的模型。

GPT-2的整体结构如图15-7所示，GPT-2是以Transformer为基础构建的，是目前最先进的自然语言处理预训练模型之一，能够根据上文预测下一个单词，所以它就可以利用预训练已经学到的知识来生成文本，比如生成新闻。也可以使用另一些数据进行微调，生成有特定格式或者主题的文本，比如诗歌、戏剧。

图15-7

15.3.3 PyTorch-Transformers库介绍

PyTorch-Transformers（此前叫作Pytorch-Pretrained-Bert）是一个面向自然语言处理的、当前性能最高的预训练模型开源库。该开源库现在包含PyTorch实现、预训练模型权重、运行脚本和以下模型的转换工具：

谷歌的 BERT，论文：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding，论文作者：Jacob Devlin, Ming-Wei Chang, Kenton Lee，Kristina Toutanova
OpenAI 的GPT，论文：Improving Language Understanding by Generative Pre-Training，论文作者：Alec Radford, Karthik Narasimhan, Tim Salimans，Ilya Sutskever。
OpenAI 的 GPT-2，论文：Language Models are Unsupervised Multitask Learners，论文作者：Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever。
谷歌和 CMU 的 Transformer-XL ，论文：Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context，论文作者：Zihang Dai*, Zhilin Yang*, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov。
谷歌和 CMU 的XLNet，论文：XLNet: Generalized Autoregressive Pretraining for Language Understanding，论文作者：Zhilin Yang*, Zihang Dai*, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le。
Facebook的 XLM，论文：Cross-lingual Language Model Pretraining，论文作者：Guillaume Lample，Alexis Conneau。

简而言之，就是一个目前最先进的、用于自然语言处理的预训练模型库。它通过命令pip install pytorch-transformers进行安装。

以下是实现加载GPT-2模型并实现下一个单词预测的功能代码：

############pytorch_transformers_demo.py##############
# 案例描述：Transformers库中的GPT-2模型，用它实现下一词预测功能
# 导入必要的库
import torch
from pytorch_transformers import GPT2Tokenizer, GPT2LMHeadModel
# 自动加载预训练模型tokenizer (权重)
tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
# 对文本输入进行编码
text = "What is the fastest car in the"
indexed_tokens = tokenizer.encode(text)
# 将输入语句转换为张量
tokens_tensor = torch.tensor([indexed_tokens])
# 加载预训练模型 (weights)
model = GPT2LMHeadModel.from_pretrained('gpt2')
#将模型设置为evaluation模式，关闭DropOut模块
model.eval()
DEVICE = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
tokens_tensor = tokens_tensor.to(DEVICE)
model.to(DEVICE)
# 如果你有GPU，把所有东西都放在CUDA上，如果没有GPU，就只能用CPU跑

# 预测所有的tokens
with torch.no_grad():
    outputs = model(tokens_tensor)
    predictions = outputs[0]
# 得到预测的单词
predicted_index = torch.argmax(predictions[0, -1, :]).item()
predicted_text = tokenizer.decode(indexed_tokens + [predicted_index])
# 打印预测单词
print(predicted_text)

代码很直观，我们将文本标记为数字序列并将其索引，然后将其传递给GPT2LMHeadModel。代码运行后结果如下，该模型成功地预测出了下一个单词world：

100%|██████████| 1042301/1042301 [00:04<00:00, 238071.80B/s]
100%|██████████| 456318/456318 [00:01<00:00, 325186.65B/s]
100%|██████████| 665/665 [00:00<?, ?B/s]
100%|██████████| 548118077/548118077 [22:36<00:00, 403989.53B/s]
 What is the fastest car in the world

原文地址：https://blog.csdn.net/brucexia/article/details/143757125

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：JFlash添加自定义MCU型号
下一篇：【MYSQL】数据库日志（了解即可）

基本定时器---内部时钟中断
STM32单片机的基本定时器介绍
阅读更多2024-11-15
高效稳定！新加坡服务器托管方案助力企业全球化布局
在全球化的商业环境中，企业对于高效、稳定的服务器托管方案的需求日益迫切。作为亚洲的服务器托管中心，新加坡凭借其独特的地理位置、稳定的政治环境、先进的科技设施以及开放的市场政策，为企业提供了理想的服务器
阅读更多2024-11-15
我要学kali-linux之shell脚本编程1
学习视频来自B站up主 **泷羽sec** 有兴趣的师傅可以关注一下，如涉及侵权马上删除文章，笔记只是方便各位师傅的学习和探讨，文章所提到的网站以及内容，只做学习交流，其他均与本人以及泷羽sec团队无
阅读更多2024-11-15
【网络安全】公钥基础设施
公钥基础设施（Public Key Infrastructure，简称PKI）是一种基于公钥密码学的系统，它提供了一套完整的解决方案，用于管理和保护通过互联网传输的信息。PKI的核心功能包括密钥管理、
阅读更多2024-11-15
PGMP-练练03 ❥(^_-)
由于项目集负责向组织提供收益，因此项目集经理、项目集团队成员、项目经理和团队成员以及其他项目集利益相关者都在收益管理中具有关键角色和责任。项目集 A 正在实现计划收益，然而项目集 B 的项目集经理刚
阅读更多2024-11-15
【c++笔试强训】（第八篇）
其中，有个游戏是这样的：首先，让 n 个小朋友们围成一个大圈，小朋友们的编号是0~n-1。然后，随机指定一个数 m ，让编号为0的小朋友开始报数。每次喊到 m-1 的那个小朋友要出列唱首歌，然后可以在
阅读更多2024-11-15
C语言之中缀表达式转换为波兰表达式、逆波兰表达式
C语言之中缀表达式转换为波兰表达式、逆波兰表达式，通过将运算符号压入栈、弹出栈等操作实现普通（中缀）表达式和前缀后缀（波兰、逆波兰）表达式之间的转换。
阅读更多2024-11-15
curl 安装最新版
配置编译参数：/usr/local为指定的安装路径，--with-ssl表示需要支持ssl。为了使curl能支持ssl功能，需要提前安装openssl，执行下列指令进行安装。库文件在对应的lib路径，
阅读更多2024-11-15
Conda环境与Ubuntu环境移植详解
迁移Conda环境是数据科学和机器学习开发中的一项重要任务。通过YAML文件迁移或直接复制环境文件夹的方法，可以在不同设备间无缝切换Conda环境，确保项目依赖的一致性。在进行环境迁移时，需要注意CU
阅读更多2024-11-15
Java面向对象高级2
感觉就是有时候简化代码用的？
阅读更多2024-11-15

PyTorch深度学习与企业级项目实战-预训练语言模型GPT

【图书推荐】《PyTorch深度学习与企业级项目实战》-CSDN博客

15.3.1 什么是预训练语言模型

15.3.2 GPT-2模型介绍

15.3.3 PyTorch-Transformers库介绍

相关文章