BART--详解

🕗 发布于 2024-10-10 17:28 python 深度学习

BART（Bidirectional and Auto-Regressive Transformers）是一种序列到序列（Seq2Seq）预训练模型。BART结合了BERT的双向编码能力和GPT的自回归解码能力，是一种灵活且强大的生成模型，擅长解决各种文本生成任务，如摘要生成、翻译、对话生成和文本填充。

BART的创新之处在于它能够在输入端通过破坏（例如添加噪声、遮蔽、打乱顺序等）对输入数据进行扰动，模型的任务是将扰动的数据还原为原始输入。它因此也被称为一种去噪自编码器（denoising autoencoder）。这种训练方式使得BART能够处理多种文本生成任务。

BART的基本结构

BART是典型的基于Transformer架构的序列到序列模型。它的核心结构与标准的Transformer相同，包含两个主要部分：

Encoder（编码器）
- 与BERT类似，BART的编码器是双向的，能捕捉输入文本的上下文信息。编码器将输入句子转化为一个隐状态表示。
Decoder（解码器）
- 与GPT类似，BART的解码器是自回归的，即每一步根据之前生成的词来预测下一个词。解码器接收编码器生成的隐状态，并生成目标序列（例如翻译后的文本或摘要）。

BART的训练方式为去噪自编码器任务，具体来说，它会对输入进行以下几种扰动：

Token Masking：像BERT一样，随机遮蔽一些词。
Token Deletion：随机删除输入序列中的一些词。
Sentence Permutation：打乱输入序列中句子的顺序。
Document Rotation：将输入文本的顺序进行旋转，改变句子的起始位置。

通过这些扰动，BART学会了如何在被破坏的输入上生成高质量的输出，这使它能够很好地应对生成类任务。

经典BART代码实现

使用Hugging Face的transformers库可以轻松加载预训练的BART模型并进行推理或微调。

1. 安装Hugging Face的Transformers库

pip install transformers

2. 加载预训练的BART模型和分词器

from transformers import BartTokenizer, BartForConditionalGeneration

# 加载BART分词器
tokenizer = BartTokenizer.from_pretrained('facebook/bart-large')

# 加载预训练的BART模型
model = BartForConditionalGeneration.from_pretrained('facebook/bart-large')

# 输入文本
text = "BART is a transformer model designed for text generation tasks."
# 对输入文本进行编码
inputs = tokenizer(text, return_tensors="pt")

# 使用模型进行生成任务
summary_ids = model.generate(inputs['input_ids'], max_length=50, num_beams=5, early_stopping=True)

# 解码生成的文本
output = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print(f"Generated Text: {output}")

BART处理文本生成任务的示例代码

BART非常适合处理文本生成任务，如摘要生成、翻译、对话生成等。下面的示例展示了如何使用BART生成文本摘要。

示例：文本摘要生成

from transformers import BartTokenizer, BartForConditionalGeneration

# 加载BART分词器和预训练的文本摘要模型
tokenizer = BartTokenizer.from_pretrained('facebook/bart-large-cnn')
model = BartForConditionalGeneration.from_pretrained('facebook/bart-large-cnn')

# 输入待生成摘要的长文本
text = """
BART is a transformer neural network that has been shown to be highly effective for a variety of natural language processing tasks. 
It is capable of generating coherent and contextually appropriate text and has been particularly useful in applications such as summarization, translation, and text completion.
By utilizing both a bidirectional encoder and an autoregressive decoder, BART can learn to generate text based on a noisy or disrupted input sequence.
"""

# 对输入文本进行编码
inputs = tokenizer(text, return_tensors="pt", max_length=1024, truncation=True)

# 使用BART进行文本摘要生成
summary_ids = model.generate(inputs['input_ids'], max_length=50, num_beams=4, length_penalty=2.0, early_stopping=True)

# 解码生成的摘要文本
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print(f"Summarized Text: {summary}")

示例：文本翻译（使用多任务训练模型）

from transformers import BartTokenizer, BartForConditionalGeneration

# 加载BART分词器和预训练的翻译模型（注：BART可以作为翻译模型，如WMT翻译任务中使用）
tokenizer = BartTokenizer.from_pretrained('facebook/mbart-large-en-ro')
model = BartForConditionalGeneration.from_pretrained('facebook/mbart-large-en-ro')

# 输入英文文本
text = "BART is a powerful model for text generation."
inputs = tokenizer(text, return_tensors="pt", max_length=1024, truncation=True)

# 指定目标语言为罗马尼亚语（ro）
translated_ids = model.generate(inputs['input_ids'], max_length=50, num_beams=4, early_stopping=True)

# 解码生成的翻译文本
translated_text = tokenizer.decode(translated_ids[0], skip_special_tokens=True)
print(f"Translated Text: {translated_text}")

总结

BART模型概述：BART是结合了BERT和GPT优势的序列到序列生成模型，广泛用于文本生成任务，如摘要、翻译、对话生成等。
基本结构：由双向编码器（类似BERT）和自回归解码器（类似GPT）组成。通过多种扰动输入的方法进行去噪自编码器训练。
经典代码：使用Hugging Face的transformers库，加载预训练模型并进行推理。
文本生成任务示例：展示了如何使用BART进行文本摘要和翻译任务。

BART（大型型号）

https://huggingface.co/facebook/bart-large

BART 模型预先训练了英语。它已在 Lewis 等人的论文 [BART： Denoising Sequence-to-Sequence Pre-training for Natural Language Generation， Translation， and Comprehension](https://arxiv.org/abs/1910.13461) 中引入，并首次在此[存储库](https://github.com/pytorch/fairseq/tree/master/examples/bart)中发布。

型号描述

BART 是一个变压器编码器-解码器（seq2seq）模型，具有一个双向（类似 BERT）编码器和一个自回归（类似 GPT）解码器。BART 的预训练方式是（1）使用任意噪声函数破坏文本，以及（2）学习模型来重建原始文本。

BART 在针对文本生成（例如摘要、翻译）进行微调时特别有效，但也适用于理解任务（例如文本分类、问答）。

预期用途和限制

可以使用 Raw 模型进行文本填充。但是，该模型主要用于在监督数据集上进行微调。

如何使用

以下是在 PyTorch 中使用此模型的方法：
from transformers import BartTokenizer, BartModel

tokenizer = BartTokenizer.from_pretrained('facebook/bart-large')
model = BartModel.from_pretrained('facebook/bart-large')

inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
outputs = model(**inputs)

last_hidden_states = outputs.last_hidden_state

原文地址：https://blog.csdn.net/GDHBFTGGG/article/details/142818400

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：数据恢复篇：适用于 Windows 操作系统的 5 大数据恢复软件
下一篇：PHP基础语法详细代码案例

数据结构常用术语
一. 常见术语数据相关英文术语中文术语Data数据Data element数据元素Data item数据项Data structure数据结构Logical structure逻辑结构Data typ
阅读更多2024-10-12
C++——反向迭代器
list没有访问到第一个值，而且访问了哨兵位，是随机值。但实际上，这只是另外一种实现方式，它拥有自己的优势。复用已经实现的迭代器实现反向迭代器。乍看库中的实现，vector会越界。为避免上述情况，在其
阅读更多2024-10-12
【Power Compiler手册】15.多角多模式设计中的功耗优化
在S1场景中，电源域PDT在1.0V下运行，而电源域PDA在0.8V或关闭状态下运行，电源域PDB在0.6V或关闭状态下运行。要在多角多模式设计中执行动态功耗优化，请使用`set_scenario_o
阅读更多2024-10-12
Axure大屏可视化模板在多领域实践应用案例分析
在库存管理方面，模板能够展示企业的库存情况，包括库存量、库存周转率等信息，帮助管理者优化库存管理策略，降低库存成本。在客户管理方面，Axure大屏能够展示企业的客户信息，如客户画像、购买行为等，为营销
阅读更多2024-10-12
Linux——软件包管理
软件包管理；rpm；yum
阅读更多2024-10-12
ROS2中级面试题汇总
继更新了ros2初级面试题汇总之后，又继续整理了关于ros2的中级面试题（共25道），这些问题也相较于初级面试题上升了一定难度，希望小伙伴们打牢ros2基础，一起进步！
阅读更多2024-10-12
刷题训练之解决 FloodFill 算法
最早博主续写了牛客网130道题，这块的刷题是让同学们快速进入C语言，而我们学习c++已经有一段时间了，知识储备已经足够了但缺少了实战，面对这块短板博主续写刷题训练，针对性学习，把相似的题目归类，系统的
阅读更多2024-10-12
Python数据分析-垃圾邮件分类
Python数据分析-垃圾邮件分类
阅读更多2024-10-12
劳动合同法
在线版本，可以百度搜索"劳动合同法"
阅读更多2024-10-12
机器学习和深度学习的差别
机器学习和深度学习在定义、基本原理、数据需求、模型结构、计算需求、可解释性和应用领域等方面存在一些差别。机器学习是一个更广泛的概念，包括了许多不同的算法和技术，而深度学习是机器学习的一个子领域，专注于
阅读更多2024-10-12