自学内容网 自学内容网

LLMs 激活函数篇

  • 介绍一下 FFN 块 计算公式?

  • 介绍一下 GeLU 计算公式?

  • 介绍一下 Swish 计算公式?

2个可训练权重矩阵,中间维度为 4h

 
  • 介绍一下 使用 GLU 线性门控单元的 FFN 块 计算公式?

  • 介绍一下 使用 GeLU GLU 块 计算公式?

  • 介绍一下 使用 Swish GLU 块 计算公式?

3个可训练权重矩阵,中间维度为 4h*2/3

  • LLMs 都使用哪种激活函数?

4h = 4*4096 = 16384

2/3 * 4h = 10022 -> 11008

11008/128 = 86


原文地址:https://blog.csdn.net/xianghanscce/article/details/143822893

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!