PEFT库和transformers库在NLP大模型中的使用和常用方法详解

🕗 发布于 2024-10-07 13:10 人工智能 机器学习

PEFT（Parameter-Efficient Fine-Tuning）库是一个用于有效微调大型预训练语言模型的工具，尤其是在计算资源有限的情况下。它提供了一系列技术，旨在提高微调过程的效率和灵活性。以下是PEFT库的详细解读以及一些常用方法的总结：

PEFT库详解

参数高效微调的概念
- PEFT旨在通过只微调模型的一部分参数（而不是整个模型）来减少计算和内存开销。这对于大型语言模型（如BERT、GPT等）尤其重要，因为它们的参数数量通常非常庞大。
常见方法
- PEFT包括几种不同的策略，每种策略都有其适用场景和优缺点。以下是一些最常用的PEFT方法：

常用的PEFT方法总结

LoRA（Low-Rank Adaptation）

原理：通过在预训练模型的权重矩阵中添加低秩矩阵，LoRA将大模型的微调问题转化为对小矩阵的优化。
优点：显著减少训练时所需的参数，降低计算复杂度。
使用场景：适合在计算资源有限的情况下进行快速微调。

from transformers import AutoModelForSequenceClassification, AutoTokenizer
from peft import LoRAConfig, get_peft_model

# 加载预训练模型和分词器
model_name = "distilbert-base-uncased"
model = AutoModelForSequenceClassification.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 配置LoRA
lora_config = LoRAConfig(
    r=8,  # 低秩适配的秩
    lora_alpha=32,
    lora_dropout=0.1
)

# 应用LoRA
lora_model = get_peft_model(model, lora_config)

# 训练代码（略）

Adapter

原理：在预训练模型的不同层之间插入小型的“适配器”网络，只微调适配器参数，保留主模型的权重不变。
优点：适配器可以在不同任务之间共享，大幅度减少微调时的参数数量。
使用场景：适用于需要频繁在不同任务之间切换的情况。

from transformers import AutoModelForSequenceClassification, AutoTokenizer
from peft import AdapterConfig, get_peft_model

# 加载预训练模型和分词器
model_name = "distilbert-base-uncased"
model = AutoModelForSequenceClassification.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 配置Adapter
adapter_config = AdapterConfig(
    reduction_factor=2,
    non_linearity="relu"
)

# 应用Adapter
adapter_model = get_peft_model(model, adapter_config)

# 训练代码（略）

Prefix Tuning

原理：在输入序列前添加一个学习到的前缀，这个前缀在微调过程中进行优化，而主模型的参数保持不变。
优点：可以实现快速微调，同时保留主模型的知识。
使用场景：适合文本生成和对话系统等任务。

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import PrefixTuningConfig, get_peft_model

# 加载预训练模型和分词器
model_name = "gpt2"
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 配置Prefix Tuning
prefix_config = PrefixTuningConfig(
    prefix_length=10,  # 前缀长度
    task_type="text-generation"
)

# 应用Prefix Tuning
prefix_model = get_peft_model(model, prefix_config)

# 训练代码（略）

Prompt Tuning

原理：通过优化输入提示（prompt）的参数来指导模型生成所需的输出。
优点：相较于传统微调方法，减少了对模型整体参数的依赖。
使用场景：适用于自然语言处理中的各种任务，如文本分类和问答。

from transformers import AutoModelForSequenceClassification, AutoTokenizer
from peft import PromptTuningConfig, get_peft_model

# 加载预训练模型和分词器
model_name = "distilbert-base-uncased"
model = AutoModelForSequenceClassification.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 配置Prompt Tuning
prompt_config = PromptTuningConfig(
    prompt_length=5,  # 提示长度
    task_type="classification"
)

# 应用Prompt Tuning
prompt_model = get_peft_model(model, prompt_config)

# 训练代码（略）

BitFit

原理：只对模型的偏置参数进行微调，保持权重参数不变。
优点：极大地减少了微调的参数数量，同时在许多任务中表现良好。
使用场景：适用于资源受限的场景。

from transformers import AutoModelForSequenceClassification, AutoTokenizer
from peft import BitFitConfig, get_peft_model

# 加载预训练模型和分词器
model_name = "distilbert-base-uncased"
model = AutoModelForSequenceClassification.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 配置BitFit
bitfit_config = BitFitConfig()

# 应用BitFit
bitfit_model = get_peft_model(model, bitfit_config)

# 训练代码（略）

----------------------------------------------------------------------------------------------------------------------

transformers库概述

transformers库是由Hugging Face开发的一个开源库，专门用于处理自然语言处理（NLP）任务。它提供了预训练的模型、简单的API和丰富的功能，使得使用大型语言模型变得更加方便。以下是transformers库的详解和一些最常用的方法总结。

1. 加载模型和分词器

from_pretrained(model_name)：
- 用途：从Hugging Face Model Hub加载预训练模型和分词器。from_pretrained(model_name)方法用于从Hugging Face Model Hub加载预训练模型及其配置。可以通过指定模型的名称、路径或标识符来获取预训练的模型。（这里我常常自己先下载下来，不然的话huggingface社区老没办法从本地登进去）
- 示例：model = AutoModel.from_pretrained("bert-base-uncased")

2. 分词器（Tokenizer）

tokenizer(text)：
- 用途：将文本转化为模型可接受的输入格式，包括分词、编码等。
- 参数：可以设置return_tensors参数指定返回的张量格式（如"pt"表示PyTorch）。
- 示例：inputs = tokenizer("Hello, world!", return_tensors="pt")
- Hugging Face提供多种类型的分词器，主要包括：
  
  BertTokenizer BERT - 用于NLP任务的分词器 - 使用WordPiece分词 - 处理复杂句子和OOV词效果好
  
  GPT2Tokenizer GPT-2 - 通过from_pretrained加载 - 使用Byte Pair Encoding (BPE)分词 - 适合文本生成和补全
  
  T5Tokenizer T5 - 提供tokenization和编码功能 - 使用SentencePiece分词 - 支持多种任务，灵活性高
  
  RobertaTokenizer RoBERTa - 支持填充、截断和解码功能 - 训练数据更丰富，取消特殊标记 - 在上下文理解方面表现优秀
  
  AutoTokenizer 多种模型 - 方便集成和使用 - 自动选择适合的分词器 - 提高开发效率，适合快速实验
- BertTokenizer：用于BERT模型。
- GPT2Tokenizer：用于GPT-2模型。
- T5Tokenizer：用于T5模型。
- RobertaTokenizer：用于RoBERTa模型。
- AutoTokenizer：自动选择适当的分词器，根据给定的模型名称。

3. 推理

model(inputs)：
- 用途：推理（Inference）是指使用训练好的模型对新输入进行预测或生成输出的过程。在自然语言处理（NLP）和深度学习中，推理是模型应用的关键步骤，通常在模型训练完成后进行。以下是推理的基本概念和过程，（在这里我理解为，推理是对经过分词处理的输入数据进行推断，输出模型的预测结果。）目的：推理的目的是对未知数据进行预测，例如分类、生成文本、回答问题等。输入与输出：推理通常接收原始输入（如文本、图像等），并输出模型的预测结果（如分类标签、生成的文本等）。
- 示例：outputs = model(**inputs)

4. Pipeline

pipeline(task)：
- 用途：创建一个简化的任务接口，支持文本分类、问答、翻译等多种任务。
- 示例：classifier = pipeline("sentiment-analysis")
- 使用方法：result = classifier("I love this movie!")

5. Trainer

Trainer：
- 用途：用于模型的训练和评估，简化了训练过程。
- 方法：
  - train()：开始训练模型。
  - evaluate()：评估模型在验证集上的表现。
  - save_model()：保存微调后的模型。

6. 保存和加载模型

save_pretrained(directory)：
- 用途：将模型和分词器保存到指定目录。
- 示例：model.save_pretrained("./my_model")
from_pretrained(directory)：
- 用途：从本地目录加载已保存的模型和分词器。
- 示例：model = AutoModel.from_pretrained("./my_model")

7. 自定义数据集

Dataset：
- 用途：自定义数据集类，继承自torch.utils.data.Dataset，实现数据的加载和预处理。
- 方法：
  - __len__()：返回数据集大小。
  - __getitem__(idx)：返回指定索引的数据样本。

8. 模型评估

evaluate()：
- 用途：在验证集上评估模型性能，返回各类指标（如损失、准确率等）。
- 示例：metrics = trainer.evaluate(eval_dataset=eval_dataset)

9. 文本生成

model.generate()：
- 用途：用于生成文本，例如进行对话生成或续写。
- 示例：generated_ids = model.generate(input_ids, max_length=50)

10. 模型的选择

AutoModel、AutoModelForSequenceClassification等：
- 用途：根据任务选择合适的模型架构。
- 示例：model = AutoModelForSequenceClassification.from_pretrained("distilbert-base-uncased")

原文地址：https://blog.csdn.net/qq_44117805/article/details/142733732

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【Python】PDFMiner.six：高效处理PDF文档的Python工具
下一篇：【大语言模型-论文精读】谷歌-BERT：用于语言理解的预训练深度双向Transformers

Chrome浏览器调用ActiveX控件--allWebOffice控件功能介绍
allWebOffice控件能够实现在浏览器窗口中在线操作文档的应用（阅读、编辑、保存等），支持编辑文档时保留修改痕迹，支持书签位置内容动态填充，支持公文套红，支持文档保护控制等诸多办公功能。
阅读更多2024-10-08
C++——stack和queue
栈和队列的定义和之前的容器。
阅读更多2024-10-08
今日指数day8实战补充(上)
多条件综合查询 , 代码实现 , 获取用户具有的角色信息接口说明
阅读更多2024-10-08
node高版本报错： digital envelope routines::unsupported
node高版本报错： digital envelope routines::unsupported。
阅读更多2024-10-08
ThreeJS入门（091）：THREE.PositionalAudio 知识详解，示例代码
`THREE.PositionalAudio` 是 Three.js 中用于实现三维空间中具有位置信息的音频源的一个类。通过 `THREE.PositionalAudio`，你可以为场景中的对象赋予声
阅读更多2024-10-08
【多线程】详解 CAS 机制
本文主要介绍CAS机制是什么及具体操作步骤，并介绍CAS机制的应用，实现原子类和自旋锁，最后介绍CAS机制可能带来的问题ABA问题，以及解决方案，引入版本号。
阅读更多2024-10-08
基于LORA的一主多从监测系统_前言
最近想用手头的东西做一个小项目，也算是一个共用框架，这个框架可以做很多东西，比如基于lora的智慧农场，基于lora的智慧牧场，基于lora的智慧城市，智慧矿井等。这个项目我对他的定位是可以用于课设以
阅读更多2024-10-08
Android Framework AMS（03）AMS关键类解读
说明：本章节主要涉AMS的关键类及其设计理念的解读，主要关注图中下方AMS关键类解读部分即可。这么做的目的是为了后面章节分析AMS时更容易理解其相关概念和相关流程。毕竟AMS涉及的关键类较多，直接看流
阅读更多2024-10-08
数据结构——复杂度
算法复杂度
阅读更多2024-10-08
基于Springboot+Vue的学院网站系统（含源码数据库）
管理员拥有广泛的管理权限，可以管理竞赛信息、系部概况、党建工作、就业信息、轮播图、教学信息、招生信息、制度信息、新闻资讯、科研信息和教师风采等多个模块，具备新增、查看、修改、删除等操作能力。教师角色主
阅读更多2024-10-08