自学内容网 自学内容网

大语言模型分词器

大语言模型分词器

代码

import transformers
import tokenizers

from transformers import AutoTokenizer

tokenizers = AutoTokenizer.from_pretrained("data/bert-base-uncased")

text = "This is a test sentence."

tokens = tokenizers.encode(text)
token_count = len(tokens)

print("Tokens:", tokens)
print("len of Tokens:", len(tokens))

直接运行会报错
在这里插入图片描述

需要先导入包

pip install transformers tokenizers

在这里插入图片描述
再次运行
执行结果如下
在这里插入图片描述


原文地址:https://blog.csdn.net/qq_42547733/article/details/145077680

免责声明:本站文章内容转载自网络资源,如侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!