自学内容网 自学内容网

大模型的并行计算:多头切片技术;降低显存占用的机制

目录

Transformer模型的每一层Layer是什么

大模型的并行计算:多头切片技术

降低显存占用的机制


Transformer模型的每一层Layer是什么

  1. Transformer模型的每一层(Layer)主要指的是模型中的基本构建块,这些构建块串联起来构成了整个Transformer模型。每一层通常包含自注意力(Self-Attention)机制和一个前馈神经网络(Feedforward Neural Network,简称FNN或MLP,即多层感知机)。这里提到的“层”并不是指切分多头(Multi-Head Attention中的头)或者切分MLP,而是指整个自注意力机制和前馈神经网络作为一个整体被视为一个层。

  2. 切分多头与切分MLP

    • 切分多头:在Transformer模型的自注意力机制中,多头注意力(Multi-Head Attention)会将输入分成多个头(Head),每个头独立进行自注意力的计算。这种

原文地址:https://blog.csdn.net/qq_38998213/article/details/143808832

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!