基于Python的自然语言处理系列（35）：Transformer 模型的微调（Finetuning）

🕗 发布于 2024-10-17 14:31 人工智能 自然语言处理

在本篇文章中，我们将深入探讨如何使用 Huggingface 的 transformers 库进行模型的微调（finetuning）。我们将使用微软研究院的 MRPC 数据集（Microsoft Research Paraphrase Corpus），这个数据集包含 5,801 对句子，每对句子都带有一个标签，表示它们是否是释义对（即两句话是否表达相同的意思）。MRPC 数据集体积小，适合快速实验和学习如何在特定任务上微调预训练模型。

本篇将展示如何加载数据集、预处理数据、实现动态填充，以及如何通过 Trainer 类进行训练与评估。你将学习如何将 Huggingface 提供的预训练模型用于你的具体任务，并微调模型以提高准确性。

1. 加载数据集

我们可以通过 datasets 库从 Huggingface Hub 上加载 MRPC 数据集：

from datasets import load_dataset

raw_datasets = load_dataset("glue", "mrpc")
print(raw_datasets)

这个命令会下载并缓存数据集，并返回一个 DatasetDict 对象，包含训练集、验证集和测试集。我们可以使用索引访问训练集中的具体数据：

raw_train_dataset = raw_datasets["train"]
print(raw_train_dataset[0])

2. 数据预处理

在微调模型前，我们需要将原始文本转换为模型可理解的数字格式。我们将使用 BERT 模型的分词器来处理数据。分词器不仅可以处理单句，还可以处理句子对：

from transformers import AutoTokenizer

checkpoint = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

inputs = tokenizer("This is the first sentence.", "This is the second one.")
print(inputs)

BERT 模型会为句子对添加 [CLS] 和 [SEP] 特殊标记，并使用 token_type_ids 来区分句子对的不同部分。

批量预处理

我们将使用 map() 方法批量处理整个数据集：

def tokenize_function(example):
    return tokenizer(example["sentence1"], example["sentence2"], truncation=True)

tokenized_datasets = raw_datasets.map(tokenize_function, batched=True)
print(tokenized_datasets)

3. 动态填充与批处理

为了让不同长度的输入在同一批次中对齐，我们需要使用动态填充。我们可以通过 Huggingface 的 DataCollatorWithPadding 自动处理填充逻辑：

from transformers import DataCollatorWithPadding

data_collator = DataCollatorWithPadding(tokenizer=tokenizer)

我们可以验证填充是否正确：

samples = tokenized_datasets["train"][:8]
batch = data_collator(samples)
print({k: v.shape for k, v in batch.items()})

4. 使用 `Trainer` 进行微调

定义训练参数

我们首先定义 TrainingArguments 类，它包含训练所需的所有超参数：

from transformers import TrainingArguments

training_args = TrainingArguments("models")

初始化模型和 `Trainer`

接下来，我们加载预训练模型，并使用 Trainer 类进行微调：

from transformers import AutoModelForSequenceClassification, Trainer

model = AutoModelForSequenceClassification.from_pretrained(checkpoint, num_labels=2)

trainer = Trainer(
    model,
    training_args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
    data_collator=data_collator,
    tokenizer=tokenizer,
)

开始训练

我们只需调用 train() 方法，即可开始训练模型：

trainer.train()

5. 计算指标

为了评估模型的性能，我们定义一个 compute_metrics() 函数来计算准确率和 F1 分数：

import numpy as np
import evaluate

def compute_metrics(eval_preds):
    metric = evaluate.load("glue", "mrpc")
    logits, labels = eval_preds
    predictions = np.argmax(logits, axis=-1)
    return metric.compute(predictions=predictions, references=labels)

我们将此函数传递给 Trainer，并在每个 epoch 结束时报告评估结果：

trainer = Trainer(
    model,
    training_args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
    data_collator=data_collator,
    tokenizer=tokenizer,
    compute_metrics=compute_metrics,
)

trainer.train()

结语

        在本篇文章中，我们详细介绍了如何使用 Huggingface 的 transformers 库，通过 Trainer 进行模型的微调。我们使用了 MRPC 数据集作为示例，涵盖了数据加载、预处理、动态填充、训练参数设定以及计算指标的全过程。这些步骤不仅让你了解如何微调预训练模型，还展示了如何使用 Huggingface 提供的工具快速搭建 NLP 模型。

        然而，在一些项目中，你可能希望拥有更细粒度的控制，直接使用 PyTorch 而不是 Trainer 进行训练。这可以让你完全掌控训练流程和模型优化策略，从而在特定需求下更灵活地微调模型。

        在下一篇文章《基于Python的自然语言处理系列（36）：使用PyTorch进行微调》中，我们将展示如何从头到尾使用 PyTorch 进行 Transformer 模型的微调，不依赖 Trainer。通过学习手动训练的过程，你将深入理解模型的训练机制，并掌握如何针对自定义需求进行更精细的优化。敬请期待！

如果你觉得这篇博文对你有帮助，请点赞、收藏、关注我，并且可以打赏支持我！

欢迎关注我的后续博文，我将分享更多关于人工智能、自然语言处理和计算机视觉的精彩内容。

谢谢大家的支持！

原文地址：https://blog.csdn.net/ljd939952281/article/details/142930889

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：java互联网医院智能导诊系统源码，Uniapp前端开发框架，支持一次编写，多端运行
下一篇：Ansible Roles与优化

K-means 算法、层次聚类、密度聚类对鸢尾花（Iris）数据进行聚类
K-Means：适合规则分布的大规模数据，快速聚类。层次聚类：适合小规模数据和需要层次结构的场景，如基因分析或市场细分。DBSCAN：适合处理复杂形状簇和含有噪声的数据，如地理空间数据或异常检测。距离
阅读更多2024-10-18
CI/CD（持续集成与持续交付）流水线
通过这些步骤，你可以配置一个集成了 Jenkins、GitLab Webhook、Nexus 和 RabbitMQ 的完整 CI/CD 流水线。集成 Jenkins、GitLab Webhook、Ne
阅读更多2024-10-18
离大谱！现在用Ai做写真都这么成熟了？AI绘画SD零成本制作影楼级人像写真教程，AI变现副业指南！
首先什么是AI写真，顾名思义的话可以说成是用AI生成写真照（这里我们使用的是开源免费的Stable Diffusion，简称SD），我们先暂且这么理解，后面会从第一性原理来讲明白更深层次的AI写真概念
阅读更多2024-10-18
Qt-系统处理鼠标相关事件(57)
Qt-系统处理鼠标相关事件的使用
阅读更多2024-10-18
Kaggle Python练习：字符串和字典（Exercise: Strings and Dictionaries）
enumerate() 是 Python 的一个内置函数，用于为可迭代对象（如列表、元组或字符串）提供一个自动计数器，同时遍历该对象。它返回一个包含索引和值的迭代器，常用于 for 循环中。（我们鼓励
阅读更多2024-10-18
LeetCode：LCP77.符文储备（排序 Java）
比较简单，排序，然后找出连续的最长值即可。
阅读更多2024-10-18
数据泄露危机：提升文件安全意识的紧迫性
因此,提升文件安全意识,加强数据保护措施,已成为企业管理中不可忽视的重要议题。在数据泄露威胁日益严峻的今天,提升文件安全意识并采取有效的管理措施已成为企业的当务之急。通过构建全面的文件安全管理体系,并
阅读更多2024-10-18
[C++刷题] 基础小知识点(1) 乘方函数pow()
[C++刷题] 基础小知识点(1) 乘方函数 pow pow()
阅读更多2024-10-18
Nature正刊！伯明翰大学和牛津大学等研究人员解锁全球森林树木在减缓气候变化中的新角色！
随着全球气候变化的加剧，甲烷作为一种重要的温室气体，其在大气中的作用日益受到关注。尽管甲烷的排放源和吸收机制已有一定的研究，但树木在甲烷循环中的具体角色仍存在较大不确定性。传统观点认为，湿地和部分高地
阅读更多2024-10-18
【无人机设计与控制】基于极光优化算法PLO的多无人机协同三维路径规划
本文提出了一种基于极光优化算法（PLO）的多无人机协同三维路径规划方法，旨在解决复杂环境中的路径规划问题。通过引入极光优化算法，多个无人机能够在障碍环境中实现协同路径规划，确保飞行路径最短且安全，避免
阅读更多2024-10-18