自学内容网 自学内容网

深度学习-17-深入理解BERT基于Hugging Face的模型训练步骤

1 大模型的架构

首先,人工智能(AI)有多种实现方式,而机器学习是其中的一种;而基于机器学习又延伸出了深度学习,深度学习的思想就是分层,通过多个层的叠加实现对数据的分级表达。

而神经网络又是深度学习的一种表现形式,是由模仿人脑神经元的机制而得名,又由于多层的神经网络具有庞大的参数,因此叫做大模型(庞大参数量的机器学习(神经网络)模型)。

所以,大模型的核心是层次堆叠;
因此,为了实现这种效果就有了多种神经网络的大模型架构。

大模型的常用架构主要包括Transformer,BERT,GPT,T5等;
每种架构都有其独特的设计理念和应用场景。

1.1 Transformer架构

Transformer是目前大模型的主流架构,由Vaswani等人于2017年提出。
它使用了注意力机制替代了传统的RNN和LSTM,能够更好的捕捉长距离依赖关系。

一、关键组件:
(1)自注意力机制:计算序列中各元素之间的相关性,生成每个元素的加权表示。
(2)多头注意力机制:将注意力机制并行化处理,提高模型的表示能力。
(3)位置编码:由于模型本身不具备顺


原文地址:https://blog.csdn.net/qq_20466211/article/details/142246941

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!