《昇思25天学习打卡营第25天|文本解码原理--以MindNLP为例》

🕗 发布于 2024-07-23 20:07 学习 nlp 文本解码 深度学习 人工智能

文本解码是自然语言处理（NLP）中的一个关键步骤，用于将模型生成的向量表示转化为可读的文本。
请添加图片描述

文本解码的基本原理

在 NLP 中，解码过程通常从模型输出的概率分布或嵌入向量开始，通过某种策略将这些概率或嵌入转化为实际的文本。常见的解码策略有以下几种：

贪婪搜索（Greedy Search）：每次选择概率最高的单词作为输出。
束搜索（Beam Search）：维护一个候选序列的集合，在每一步扩展这些候选序列并选择最有可能的几个。
采样（Sampling）：根据概率分布随机选择单词，适合生成更有创造性的文本。
温度调节（Temperature Scaling）：通过调节概率分布的温度参数来平衡探索性和确定性。

MindNLP 中的文本解码

MindNLP 是一个基于 MindSpore 的 NLP 框架，它提供了丰富的模型和工具用于自然语言处理任务。在 MindNLP 中，文本解码通常包含以下步骤：

1. 加载模型和词汇表

首先，需要加载预训练的模型和相应的词汇表（vocabulary），这些词汇表包含了模型能够识别和生成的所有词汇。

from mindnlp.models import SomePretrainedModel
from mindnlp.vocab import Vocab

# 加载预训练模型
model = SomePretrainedModel.from_pretrained('model_name')

# 加载词汇表
vocab = Vocab.load('vocab_path')

2. 模型生成输出

使用模型对输入进行推理，得到输出的概率分布或嵌入向量。

inputs = 'Some input text'
outputs = model(inputs)

3. 解码输出

根据选定的解码策略，将模型输出的概率分布或嵌入向量转换为文本。例如，使用贪婪搜索策略：

def greedy_decode(outputs, vocab):
    decoded_text = []
    for output in outputs:
        # 选择概率最高的单词
        word_id = output.argmax(dim=-1).item()
        word = vocab.to_tokens(word_id)
        decoded_text.append(word)
    return ' '.join(decoded_text)

decoded_text = greedy_decode(outputs, vocab)
print(decoded_text)

如果使用束搜索策略，可以引入 BeamSearch 类：

from mindnlp.utils import BeamSearch

beam_search = BeamSearch(model, vocab)
decoded_text = beam_search.decode(outputs)
print(decoded_text)

常见解码策略的优缺点

1. 贪婪搜索（Greedy Search）

优点：

实现简单，计算效率高。

缺点：

容易陷入局部最优，可能忽略全局最优的解码路径。

2. 束搜索（Beam Search）

优点：

能够在一定程度上避免局部最优，生成更合理的文本序列。
通过调整束宽度（Beam Width），在生成质量和计算效率之间找到平衡。

缺点：

计算量较大，随着束宽度的增加，计算复杂度也随之增加。
仍有可能错过全局最优解。

3. 采样（Sampling）

优点：

能够生成多样化的文本，适用于创造性文本生成任务。

缺点：

不稳定，可能生成不合理的文本序列。
随机性较高，难以保证文本质量。

4. 温度调节（Temperature Scaling）

优点：

通过调节温度参数，能够控制生成文本的确定性和多样性。
适用于需要平衡探索性和确定性的任务。

缺点：

需要根据具体任务进行参数调节，可能需要多次实验。

高级解码技巧

1. 重复惩罚（Repetition Penalty）

在生成文本时，为了避免重复生成相同的词语，可以引入重复惩罚机制。在每一步解码时，降低已经生成过的词语的概率，从而减少重复现象。

def apply_repetition_penalty(logits, generated_ids, penalty=1.2):
    for token_id in set(generated_ids):
        logits[token_id] /= penalty
    return logits

2. 阈值采样（Top-k 和 Top-p 采样）

Top-k 采样： 每一步只从概率最高的 k 个候选词中进行采样，从而限制候选词的数量。

Top-p 采样（Nucleus Sampling）： 每一步只从累计概率达到 p 的候选词中进行采样，从而动态调整候选词的数量。

import torch

def top_k_sampling(logits, k=50):
    indices_to_remove = logits < torch.topk(logits, k)[0][..., -1, None]
    logits[indices_to_remove] = -float('Inf')
    return torch.multinomial(torch.softmax(logits, dim=-1), 1)

def top_p_sampling(logits, p=0.9):
    sorted_logits, sorted_indices = torch.sort(logits, descending=True)
    cumulative_probs = torch.cumsum(torch.softmax(sorted_logits, dim=-1), dim=-1)
    sorted_indices_to_remove = cumulative_probs > p
    sorted_indices_to_remove[..., 1:] = sorted_indices_to_remove[..., :-1].clone()
    sorted_indices_to_remove[..., 0] = 0

    indices_to_remove = sorted_indices[sorted_indices_to_remove]
    logits[indices_to_remove] = -float('Inf')
    return torch.multinomial(torch.softmax(logits, dim=-1), 1)

3. 长度控制

在某些应用中，控制生成文本的长度非常重要。可以通过设置最大和最小生成长度来控制生成过程。

def length_control_decode(model, inputs, max_length=50, min_length=10):
    decoded_text = []
    for _ in range(max_length):
        outputs = model(inputs)
        word_id = outputs.argmax(dim=-1).item()
        word = vocab.to_tokens(word_id)
        if len(decoded_text) >= min_length and word == '<eos>':
            break
        decoded_text.append(word)
    return ' '.join(decoded_text)

在这里插入图片描述

原文地址：https://blog.csdn.net/m0_58790800/article/details/140620380

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：VUE之---slot插槽
下一篇：Linux之Mysql索引和优化

uni-app快速入门（四）--maninfest.json及pages.json配置
本文介绍uniapp开发的manifest.json配置及pages.json的设置，以及TabBar、分包加载。
阅读更多2024-11-17
创客节初中组C++模拟题
2024年深圳罗湖区创客节模拟题（初中组）
阅读更多2024-11-17
超详细：索引介绍（易懂！）
索引的作用就相当于书的目录。打个比方: 我们在查字典的时候，如果没有目录，那我们就只能一页一页的去找我们需要查的那个字，速度很慢。如果有目录了，我们只需要先去目录里查找字的位置，然后直接翻到那一页就行
阅读更多2024-11-17
Elastic Agent：可灵活地在任何地方发送和处理任何数据
Elastic Agent 是一款功能强大且用途广泛的工具，可用于从各种数据源（包括自定义用户应用程序）收集日志和指标。现在，Elastic Agent 提供了无与伦比的灵活性，可以将数据准确地传递到
阅读更多2024-11-17
基于Java Springboot鲜花商城系统
项目编号：springbootA0521、管理员：登录、数据面板、鲜花类型、鲜花信息管理、订单信息管理、会员信息管理、修改密码。
阅读更多2024-11-17
一文3000字从0到1带你进行Mock测试（建议收藏）
什么是mock？mock测试是以可控的方式模拟真实的对象行为。程序员通常创造模拟对象来测试对象本身该具备的行为，很类似汽车设计者使用碰撞测试假人来模拟车辆碰撞中人的动态行为
阅读更多2024-11-17
嵌入式学习-C嘎嘎-Day02
上面代码中，非静态的变量abc要跟对象绑定，对象的创建严格的讲是在运行时发生的，因此上面的变量c在编译时无法确定，这与constexpr的含义冲突，编译出错。拷贝构造函数实现的功能是，以一个已经存在的
阅读更多2024-11-17
【C++】引用(reference)
既然是对一个变量或者对象取别名，那就得先有变量或对象，不能凭空取一个别名。也就是定义引用必须初始化。假设我们想通过调用一个函数来实现一个整型变量的自增，有下面3种传递方式。我们为什么要使用引用呢？我们
阅读更多2024-11-17
跳房子（弱化版）
具体而言，当 g
阅读更多2024-11-17
01 P2367 语文成绩
01 P2367 语文成绩
阅读更多2024-11-17

《昇思25天学习打卡营第25天|文本解码原理--以MindNLP为例》

文本解码的基本原理

MindNLP 中的文本解码

1. 加载模型和词汇表

2. 模型生成输出

3. 解码输出

常见解码策略的优缺点

1. 贪婪搜索（Greedy Search）

2. 束搜索（Beam Search）

3. 采样（Sampling）

4. 温度调节（Temperature Scaling）

高级解码技巧

1. 重复惩罚（Repetition Penalty）

2. 阈值采样（Top-k 和 Top-p 采样）

3. 长度控制

相关文章