大语言模型分词器
大语言模型分词器
代码
import transformers
import tokenizers
from transformers import AutoTokenizer
tokenizers = AutoTokenizer.from_pretrained("data/bert-base-uncased")
text = "This is a test sentence."
tokens = tokenizers.encode(text)
token_count = len(tokens)
print("Tokens:", tokens)
print("len of Tokens:", len(tokens))
直接运行会报错
需要先导入包
pip install transformers tokenizers
再次运行
执行结果如下
原文地址:https://blog.csdn.net/qq_42547733/article/details/145077680
免责声明:本站文章内容转载自网络资源,如侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!