机器学习中输入输出Tokens的概念详解

🕗 发布于 2024-11-27 12:00 机器学习 人工智能 Tokens

随着深度学习技术的快速发展，大语言模型（Large Language Models, LLMs）已经成为自然语言处理（NLP）领域的一个热点研究方向。这些模型不仅能够生成高质量的文本，还能在多种任务中展现出卓越的表现，比如机器翻译、问答系统、文本摘要等。在大语言模型的工作流程中，Tokens的概念扮演着至关重要的角色。本文将详细介绍大语言模型如何使用Tokens，以及如何计算Tokens的数量。

什么是Token？

在自然语言处理中，Token指的是文本数据中最小的处理单元。它可以是一个单词、一个字符、一个子词（subword）或是其他任何形式的文本片段。Token化的目的是将连续的文本序列转换为离散的、可被机器学习模型处理的形式。

大语言模型中的Tokens

输入Tokens

在大语言模型中，输入Tokens是指经过预处理后准备送入模型的文本片段。例如，当我们使用BERT、GPT等模型进行文本分类或生成任务时，首先需要将原始文本通过Tokenizer（分词器）转换为一系列的Tokens。这些Tokens会被映射到高维空间中的向量（即嵌入向量），然后送入模型进行进一步处理。

输出Tokens

对于生成式模型来说，输出Tokens则是模型预测的结果。例如，在文本生成任务中，模型会根据输入的上下文逐步生成新的Tokens，直到生成完整的句子或段落。在每一步生成过程中，模型会选择概率最高的下一个Token作为输出。

如何计算Tokens数量

计算Tokens数量是评估文本长度和模型输入/输出规模的重要步骤。不同的分词策略会导致不同的Tokens数量，因此选择合适的分词方法至关重要。

字符级分词

最简单的分词方法是按字符进行分词。例如，句子“你好，世界！”会被分成7个Tokens：['你', '好', '，', '世', '界', '！']。这种方法适用于字符丰富的语言，但对于英文等语言来说可能会导致过高的Tokens数量。

单词级分词

单词级分词是最常见的方法，即将文本按照空格或其他标点符号分割成单词。例如，句子“Hello, world!”会被分成3个Tokens：['Hello', ',', 'world!']。这种方法适用于大多数西方语言，但对于中文等没有明显词边界的语言，需要借助外部词典或算法来实现。

子词级分词

子词级分词是一种介于字符级和单词级之间的方法，它通过学习文本中频繁出现的子词组合来生成Tokens。常见的子词级分词算法包括Byte Pair Encoding (BPE) 和 WordPiece。例如，使用WordPiece算法，句子“Hello, world!”可能会被分成如下Tokens：['He', '##l', '##lo', ',', 'wo', '##r', '##ld', '!']。这种方法能够在保持低Tokens数量的同时，保留更多的语言结构信息。

计算Tokens数量的方法

假设我们已经选择了某种分词方法，接下来可以通过以下步骤计算Tokens数量：

加载分词器：首先，需要加载一个预训练的分词器，该分词器已经学习了如何将文本转换为Tokens。
文本预处理：对输入文本进行必要的预处理，如去除特殊字符、转换为小写等。
分词：使用分词器对预处理后的文本进行分词操作，得到一个Tokens列表。
统计Tokens数量：计算Tokens列表的长度，即为Tokens的数量。

示例代码

以下是使用Hugging Face Transformers库中的BERT分词器计算Tokens数量的Python示例：

from transformers import BertTokenizer

# 加载预训练的BERT分词器
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# 输入文本
text = "Hello, world! This is a test sentence."

# 分词
tokens = tokenizer.tokenize(text)

# 统计Tokens数量
num_tokens = len(tokens)

print(f"Tokens: {tokens}")
print(f"Number of Tokens: {num_tokens}")

输出：

Tokens: ['hello', ',', 'world', '!', 'this', 'is', 'a', 'test', 'sentence', '.']
Number of Tokens: 10

结论

Tokens在大语言模型中起着至关重要的作用，它们不仅是模型输入和输出的基本单位，也是衡量文本长度和模型复杂度的重要指标。通过合理选择分词方法并准确计算Tokens数量，我们可以更好地理解和优化大语言模型的性能。随着自然语言处理技术的不断进步，Tokens的概念将继续发挥重要作用，推动更多创新应用的诞生。

原文地址：https://blog.csdn.net/weixin_43841461/article/details/143961738

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：MySQL INSERT CRTATE DELETE DORP UPDATE WHERE 的用法
下一篇：OSPF协议整理

【CSP CCF记录】201903-2第16次认证二十四点
字符转数字；字符转运算符；erase的用法。
阅读更多2024-11-27
Web 表单开发全解析：从基础到高级掌握 HTML 表单设计
在现代 Web 开发中，表单是用户与后端服务交互的重要桥梁。无论是用户登录、注册、搜索，还是提交反馈，表单都无处不在。在本文中，我们将从基础入手，全面解析表单的核心知识点，并通过示例带你轻松掌握表单
阅读更多2024-11-27
【简单好抄保姆级教学】javascript调用本地exe程序（谷歌，edge，百度，主流浏览器都可以使用....）
在本地创建一个txt文件依次输入，指明了所使用的注册表编辑器版本。这是必需的，以确保脚本能够被正确解析和执行。，用于处理文件关联、协议和其他类型的信息。这里的@符号表示command子项的默认（未命名
阅读更多2024-11-27
Spring Boot 与 Spring Cloud Alibaba 版本兼容对照
版本选择要点Spring Boot 3.x 与 Spring Cloud Alibaba 2022.0.xSpring Boot 3.x 基于 Jakarta EE，javax.* 更换为 jakar
阅读更多2024-11-27
分类算法——基于heart数据集实现
【代码】分类算法——基于heart数据集实现。
阅读更多2024-11-27
【Linux】vim的使用
进入vimvim是一款编辑器。自带，使用成本较高。我们创建一个普通文件，然后vim code.c，进入vim。想要退出vim，怎么做？（因为当前我们不知道在什么模式下），我们先按下键盘最左上角的Esc
阅读更多2024-11-27
计算机网络的类型
个人区域网是一种短距离无线通信网络，用于连接个人设备，如智能手机、智能手表、无线耳机等。
阅读更多2024-11-27
40分钟学 Go 语言高并发：Pipeline模式（一）
让我们继续完成高级Pipeline的实现。
阅读更多2024-11-27
Spring Boot教程之十：使用 Spring Boot 实现从数据库动态下拉列表
使用 Spring Boot 实现从数据库动态下拉列表动态下拉列表（或依赖下拉列表）的概念令人兴奋，但编写起来却颇具挑战性。动态下拉列表意味着一个下拉列表中的值依赖于前一个下拉列表中选择的值。一个简单
阅读更多2024-11-27
「实战应用」如何用图表控件LightningChart .NET实现散点图？（一）
本文将为大家介绍如何用图表控件LightningChart .NET实现散点图，欢迎联系我们获取新产品试用！
阅读更多2024-11-27