大语言模型---Llama7B和Llama8B的区别；模型参数量；权重文件的不同；嵌入层权重的不同；输入序列长度的不同；应用场景

🕗 发布于 2024-11-25 10:37 语言模型 人工智能 自然语言处理 llama

文章目录

1.概要
2. 模型参数量
3. 权重文件的不同
4. 嵌入层权重的不同
5. 输入序列长度的不同
6. 应用场景

1.概要

LLaMA（Large Language Model Meta AI）是由Meta开发的一系列语言模型，其中不同版本的参数量（如7B、8B等）反映了模型的规模和能力。这些版本之间的区别主要体现在以下几个方面：

2. 模型参数量

LLaMA 7B：具有70亿个参数（7 billion parameters）。
LLaMA 8B：具有80亿个参数（8 billion parameters）

3. 权重文件的不同

8B 模型的权重文件被拆分成了 4 个部分（model-00001-of-00004.safetensors 到 model-00004-of-00004.safetensors）。
7B 模型的权重文件只有 2 个部分（model-00001-of-00002.safetensors 和 model-00002-of-00002.safetensors）。
8B 模型包含 score.weight，表明它用于分类任务。

4. 嵌入层权重的不同

7B 模型支持 max_position_embeddings 达到 32000；
8B 模型支持 max_position_embeddings 达到 131072。

5. 输入序列长度的不同

7B 模型最大输入序列长度 (max_position_embeddings: 4096)
8B 模型支持超长的输入序列 (max_position_embeddings: 131072)

6. 应用场景

7B 模型：
- 面向轻量级的NLP任务，如简单的聊天机器人、情感分析、短文生成等。
- 非常适合边缘计算场景和低功耗设备。
8B 模型：
- 支持序列分类任务，8B 模型天生适合序列建模和分类任务，可以调整为支持回归输出（连续值预测），这是8B模型常用于Reward Model的原因。
- 可以在处理细节和准确性要求较高的任务中表现更好。

原文地址：https://blog.csdn.net/weixin_43883448/article/details/144009807

免责声明：本站文章内容转载自网络资源，如侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Opencv+ROS实现摄像头读取处理画面信息
下一篇：解决k8s拉取私有镜像401 Unauthorized 问题

构建沉浸式汉语学习环境
系统通过API网关与现有教育平台（如Moodle）无缝集成，支持快速部署。持续学习机制确保内容与时俱进，每月自动更新流行语库与文化热点。的技术三角，构建沉浸式汉语学习环境。
阅读更多2025-01-22
弹框上传预览
【代码】弹框上传预览。
阅读更多2025-01-22
Python 字符串处理深度解析：高级操作技巧、性能优化与实用案例全解
在Python中，字符串（str）是用于表示文本数据的不可变序列类型。其定义方式灵活多样，既可以使用单引号'...'、双引号"..."也可借助三引号'''...'''或"
阅读更多2025-01-22
SELF-RAG: 通过自我反思学习检索、生成和批判——图文并茂总结
SELF-RAG 是一种创新的框架，通过按需检索和自我反思来提高 LLM 的生成质量和事实准确性。实验结果表明，SELF-RAG 在多个任务上均优于现有的 LLM 和 RAG 方法。SELF-RAG
阅读更多2025-01-22
【Nginx系列】Nginx配置超时时间
检查配置是否在正确的上下文中设置。确保没有其他与超时相关的指令冲突。确保每次修改后重载配置，并测试是否正确。检查错误日志了解更多超时信息。尝试这些步骤后，如果仍然无法生效，可以分享更详细的配置或错误日
阅读更多2025-01-22
机器学习-核函数（Kernel Function）
核函数（Kernel Function）是一种数学函数，主要用于将数据映射到一个更高维的特征空间，以便于在这个新特征空间中更容易找到数据的结构或模式。核函数的主要作用是在不需要显式计算高维特征空间的情
阅读更多2025-01-22
Android系统开发（二十）：字体活起来，安卓自定义字体改造指南
在安卓系统中，字体不仅是UI设计的基础，更是品牌和文化的延伸。过去，修改字体需要通过复杂的系统更新，甚至涉及底层操作，风险和成本极高。再到Android 15，可变字体支持和动态实例化技术大大提升了字
阅读更多2025-01-22
【力扣系列题目】不同路径组合总和最大连续1个数打家劫舍{持续更新中...}
【代码】【力扣系列题目】不同路径组合总和最大连续1个数打家劫舍{持续更新中...}
阅读更多2025-01-22
【专题】为2025制定可付诸实践的IT战略规划报告汇总PDF洞察（附原数据表）
在当今瞬息万变的商业环境中，制定有效的IT战略规划对于企业的成功与可持续发展至关重要。本报告深入探讨了制定IT战略规划的关键活动，旨在为企业和决策者提供全面且实用的指导。Gartner的《为2025制
阅读更多2025-01-22
stm32使用MDK5.35时遇到*** TOOLS.INI: TOOLCHAIN NOT INSTALLED
mdk5.35出现***TOOLS.INI:TOOLCHAINNOTINSTALLED的问题！以管理员身份重新打开MDK5.35.0.0，用keygen破解密码，但是一直提示我是没有破解成功。targ
阅读更多2025-01-22