自学内容网 自学内容网

如何计算模型中的参数数量

如果查看模型中的参数,最简单的方式就是在 HuggingFace 的主页上查看,例如,查看 Qwen2.5 0.5B 的参数量以及参数的详细信息,直接在Huggingface 搜索。
在这里插入图片描述
这个 494M 参数都包括什么?可以点击右边的详情按钮
在这里插入图片描述
我们来具体看一下 GPT2 Small 参数量是怎么算出来的,GPT2 Embedding 大小是 768,12 层 Decode Block。

  1. Embedding:50257 * 768,词库大小是 50257
  2. Position Embedding: 1024 * 768,上下文长度 1024 个 Token
  3. Input 到 Q、K、V,三个 Project Matrix:3 个 768 * 768 矩阵
  4. Attention Output: 注意力输入 Project Matrix:768 * 768
  5. FFN Hidden:768 * (768 * 4)
  6. FFN Output: (768 * 4) * 768
  7. 两个 Norm:(768 + 768) * 2

参数总计为 124 万。
在这里插入图片描述

总结

不同的 Transformer 模型的参数的算法不太一些样,如果使用的 GQA,KV Matrix 和 Q Matrix 维度不同,计算时需要查看 Model 的配置信息,在模型仓库 config.json 文件中。


原文地址:https://blog.csdn.net/hawk2014bj/article/details/142789954

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!