深度学习-17-深入理解BERT基于Hugging Face的模型训练步骤

🕗 发布于 2024-09-20 07:00 深度学习

文章目录

1 大模型的架构
2 Hugging Face模型训练步骤
3 使用预训练的模型
- 3.1 下载distilbert-base-uncased
- 3.2 获得给定文本的特征
4 微调一个预训练的DistilBERT模型
5 参考附录

1 大模型的架构

首先，人工智能(AI)有多种实现方式，而机器学习是其中的一种；而基于机器学习又延伸出了深度学习，深度学习的思想就是分层，通过多个层的叠加实现对数据的分级表达。

而神经网络又是深度学习的一种表现形式，是由模仿人脑神经元的机制而得名，又由于多层的神经网络具有庞大的参数，因此叫做大模型(庞大参数量的机器学习(神经网络)模型)。

所以，大模型的核心是层次堆叠；
因此，为了实现这种效果就有了多种神经网络的大模型架构。

大模型的常用架构主要包括Transformer，BERT，GPT，T5等；
每种架构都有其独特的设计理念和应用场景。

1.1 Transformer架构

Transformer是目前大模型的主流架构，由Vaswani等人于2017年提出。
它使用了注意力机制替代了传统的RNN和LSTM，能够更好的捕捉长距离依赖关系。

一、关键组件：
(1)自注意力机制：计算序列中各元素之间的相关性，生成每个元素的加权表示。
(2)多头注意力机制：将注意力机制并行化处理，提高模型的表示能力。
(3)位置编码：由于模型本身不具备顺

原文地址：https://blog.csdn.net/qq_20466211/article/details/142246941

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：计算机视觉（三）——Elsevier特刊推荐
下一篇：NEMESIS: NORMALIZING THE SOFT-PROMPT VECTORS OF VISION-LANGUAGE MODELS

Redis——分布式锁
为什么要有分布式锁？在只有一台服务器提供服务的情况下，乐观锁和悲观锁足以解决线程并发导致的问题。但是企业开发中避免不了需要部署多台服务器，即采用分布式系统或集群模式，这时，多台服务器就有多个jvm，对
阅读更多2024-09-20
springboot使用minio(8.5.11)
1.配置minio MinioAutoConfiguration 类。3.创建minioTemplate工具类。1.上传时如果流是空的，不上传不成功的。
阅读更多2024-09-20
Redis的Key的过期策略是怎样实现的？
在学习Redis时，我们知道可以设置Key的过期时间，我们还知道，Redis一大特点–。那么当Redis中的数据量起来时，如果直接遍历所有的Key，那么对于Key过期时间的校验应该很费时间，那么Red
阅读更多2024-09-20
电气自动化入门03：安全用电
人体电阻：人体平均电阻：2000欧姆，计算分析时，通常去下线值1700欧姆；2.1 电工知识：触电原因与防触电措施_哔哩哔哩_bilibili。电磁场生理伤害：高频磁场影响人的神经系统；违章冒险
阅读更多2024-09-20
828 华为云征文｜华为 Flexus 云服务器搭建 PicGo 图床
通过在华为 Flexus 云服务器上搭建 PicGo 图床，我们成功地构建了一个高效、稳定的图片存储和管理平台。无论是个人博客、开发者文档还是其他需要图片资源的场景，都能从中受益。在未来，随着需求的不
阅读更多2024-09-20
Pycharm打印区打印数据不全问题
python
阅读更多2024-09-20
git重置本地提交与远程保持一致
【代码】git重置本地提交与远程保持一致。
阅读更多2024-09-20
阿里巴巴拍立淘API返回值：商家优化商品信息的深度指南
阿里巴巴的拍立淘API为商家提供了一个强大的工具，通过其返回值，商家可以深入了解市场竞品，并据此制定有效的商品信息优化策略。通过不断优化商品图片、标题、价格等关键信息，商家可以提升商品的竞争力和市场接
阅读更多2024-09-20
Java入门：09.Java中三大特性（封装、继承、多态）02
比如：类A 继承类BA类称为子类，衍生类，派生类B类称为父类，基类，超类子类自动的拥有父类的所有属性和方法（父类编写，子类不需要再编写）。代码复用目前私有的属性和方法无法访问。多态的基
阅读更多2024-09-20
力扣560 和为k的子数组 Java版本
给你一个整数数组 nums 和一个整数 k ，请你统计并返回该数组中和为 k 的子数组的个数。输入：nums = [1,1,1], k = 2。输入：nums = [1,2,3], k = 3。子数
阅读更多2024-09-20

深度学习-17-深入理解BERT基于Hugging Face的模型训练步骤

文章目录

1 大模型的架构

1.1 Transformer架构

相关文章