谷歌-BERT-第一步：模型下载

🕗 发布于 2024-10-13 15:31 人工智能

1 需求

需求1：基于transformers库实现自动从Hugging Face下载模型

需求2：基于huggingface-hub库实现自动从Hugging Face下载模型

需求3：手动从Hugging Face下载模型

2 接口

3.1 需求1

示例一：下载到默认目录

from transformers import BertModel, BertTokenizer

# 初始化分词器和模型
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')

# 现在您可以使用 tokenizer 和 model 进行推理或其他任务

示例二：下载到指定目录

from transformers import BertModel, BertTokenizer

# 指定模型和分词器的名称
model_name = 'bert-base-uncased'

# 指定下载路径
cache_dir = './test3'

# 下载模型和分词器，并指定下载路径
model = BertModel.from_pretrained(model_name, cache_dir=cache_dir)
tokenizer = BertTokenizer.from_pretrained(model_name, cache_dir=cache_dir)

# 现在你可以使用模型和分词器进行推理或其他任务了
print("123")

3 .2 需求2

示例一：下载到默认目录

from huggingface_hub import snapshot_download
 
snapshot_download(repo_id="bert-base-uncased")

示例二：下载到指定目录

from huggingface_hub import snapshot_download

snapshot_download(repo_id="bert-base-chinese", local_dir="./test2", local_dir_use_symlinks=False)

3.3 需求3

手动导入模型和分词器

模型权重文件：pytorch_model.bin 或 tf_model.h5
模型配置文件：config.json
分词器的词汇表文件：vocab.txt
分词器配置文件：tokenizer.json、tokenizer_config.json

当手动下载 Hugging Face 模型时，通常需要以下类型的文件：

一、模型权重文件

PyTorch 格式（.bin 或.pt）
如果模型是基于 PyTorch 开发的，其权重文件通常以 .bin 或 .pt 格式存在。这些文件包含了模型的参数，例如神经网络的每层权重、偏置等信息。
例如，对于一个预训练的 BERT 模型（PyTorch 版本），这些权重文件定义了模型如何将输入文本转换为有意义的表示。
TensorFlow 格式（.h5 或.ckpt）
对于基于 TensorFlow 的模型，可能会有 .h5 或者 .ckpt 格式的权重文件。.h5 文件是一种常见的保存 Keras（TensorFlow 后端）模型的格式，它可以包含模型的结构和权重信息。.ckpt 文件则是 TensorFlow 原生的检查点文件，主要用于保存模型在训练过程中的中间状态。

二、模型配置文件

JSON 或 YAML 格式
模型配置文件以 JSON 或 YAML 格式为主。这些文件描述了模型的架构，如模型的层数、每层的神经元数量、激活函数类型、输入输出形状等信息。
以 GPT - 2 模型为例，其配置文件会指定模型是由多少个 Transformer 块组成，每个块中的头数量、隐藏层大小等关键架构参数。

三、分词器（Tokenizer）相关文件

词汇表文件（.txt 或.pkl 等）
分词器用于将输入文本转换为模型能够处理的标记（tokens）。词汇表文件包含了模型所使用的所有词汇（对于基于单词的分词器）或者子词（对于基于子词的分词器，如 BPE、WordPiece 等）。
例如，对于一个基于 BPE 算法的分词器，词汇表文件定义了模型能够识别的所有子词单元。这个文件可能是一个简单的文本文件（.txt），其中每行包含一个词汇或子词，也可能是经过序列化的 Python 对象（如 .pkl 文件，用于保存 Python 的字典等数据结构）。
分词器配置文件（JSON 或 YAML 格式）
类似于模型配置文件，分词器配置文件描述了分词器的一些参数，如分词算法（BPE、WordPiece 等）、特殊标记（如开始标记、结束标记、填充标记等）的定义等。

具体需要下载哪些文件取决于模型的类型（如文本生成模型、图像分类模型等）、框架（PyTorch 或 TensorFlow 等）以及模型开发者所采用的存储和组织方式。

第一步

https://huggingface.co/

第二步

https://huggingface.co/models

第三步

https://huggingface.co/google-bert/bert-base-chinese

第四步

https://huggingface.co/google-bert/bert-base-chinese/tree/main

第五步 PyCharm手动添加模型和分词器

4 参考资料

huggingface下载模型文件（基础入门版）-CSDN博客

https://huggingface.co/docs/huggingface_hub/guides/download

原文地址：https://blog.csdn.net/pwp032984/article/details/142873632

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Spring Boot 快速入门与核心原理详解
下一篇：数据分析库Pandas

Linux内核 -- 内核热重启之 kexec 工具的使用
在嵌入式设备上使用kexec进行热重启可以有效减少设备重启时间。这对于一些需要高可用性的系统非常有用，比如路由器、工业控制设备等。本教程将介绍如何在嵌入式设备上使用kexec，并详细说明可能出现的错误
阅读更多2024-10-15
数据分析基本架构知识点
可以是数据库（如MySQL、Oracle等）、文件（如CSV、Excel文件）、日志文件（记录系统活动）、网络数据（如网页抓取）等。- 是一个集成的、面向主题的、相对稳定的、反映历史变化的数据集合，如
阅读更多2024-10-15
【修订中】ffmpeg 知识点
brew install ffmpeg 时间有点长需要挂上代理。
阅读更多2024-10-15
服务器虚拟化
#热点
阅读更多2024-10-15
Harmony OS原生端渲染RTMP流功能实现
鸿蒙XComponent控件渲染rtmp流实现
阅读更多2024-10-15
unity 调整skinweight (皮肤权重)，解决：衣服穿模问题
最近遇到一个问题，人物模型的衣服穿模（就是露肉了），找了很久这个问题。好记性不如烂笔头！
阅读更多2024-10-15
使用tgz包下载安装clickhouse低版本
再次使用journalctl -u clickhouse-server查看是否有错误，发现又缺个目录。发现缺失了目录/var/log/clickhouse-server，我们直接创建目录并且赋权限。使
阅读更多2024-10-15
你知道C++多少——栈和队列
设计模式是一套被反复使用的、多数人知晓的、经过分类编目的、代码设计经验的总结。
阅读更多2024-10-15
鸿蒙开发案例：通过三杯猜球学习显示动画
表演者会将一个小球放在一个杯子下面，然后将三个杯子快速地交换位置，参与者则需要猜出最终哪个杯子下面有小球。本文将介绍如何使用HarmonyOS NEXT技术，如装饰器、状态管理和动画，来实现一个基于浏
阅读更多2024-10-15
【Linux基础】03 Linux环境基础开发工具使用
yumyum。
阅读更多2024-10-15

谷歌-BERT-第一步：模型下载

1 需求

2 接口

3.1 需求1

3 .2 需求2

3.3 需求3

一、模型权重文件

二、模型配置文件

三、分词器（Tokenizer）相关文件

4 参考资料

相关文章