LLMs 激活函数篇
-
介绍一下 FFN 块 计算公式?
-
介绍一下 GeLU 计算公式?
-
介绍一下 Swish 计算公式?
2个可训练权重矩阵,中间维度为 4h
-
介绍一下 使用 GLU 线性门控单元的 FFN 块 计算公式?
-
介绍一下 使用 GeLU 的 GLU 块 计算公式?
-
介绍一下 使用 Swish 的 GLU 块 计算公式?
3个可训练权重矩阵,中间维度为 4h*2/3
-
各LLMs 都使用哪种激活函数?
4h = 4*4096 = 16384
2/3 * 4h = 10022 -> 11008
11008/128 = 86
原文地址:https://blog.csdn.net/xianghanscce/article/details/143822893
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!