大模型-模型架构-主流架构

🕗 发布于 2024-09-20 17:09 大模型

一、发展历史

1、早期

训练方式：预训练+微调
主流架构：
- 编码器架构：BERT
- 解码器架构：GPT
- 编码器+解码器架构：T5

2、当前

训练方式：解码器为主流
变种架构：
- 因果解码器架构
- 前缀解码器架构

二、架构简介

1、编码器-解码器架构

特点
- 编码器端使用双向自注意力机制对输入信息进行编码处理，在解码器端则使用了交叉注意力与掩码自注意力机制，进而通过自回归的方式进行生成
- 当前使用较少

2、因果解码器架构

特点
- 当前绝大部分大模型均采用此架构
- 没有显示的区分输入和输出部分
- 采用单向的掩码注意力机制，每个输入的词元只关注它前面的和它本身的词元，进而自回归的预测输出词元
- 由于不包含解码器，因果解码器架构删除了关注编码器表示的交叉注意力模块
- 经过自注意力模块后的词元表示将直接进入到前馈神经网络中
代表大模型
- GPT、LLaMA

3、前缀解码器架构（又称非因果解码器架构）

特点
- 对因果解码器的掩码机制进行了调整，跟因果解码器一样，只保留了解码器部分
- 参考了编码器-解码器架构设计，对输入输出都进行了特殊处理，输入使用双向注意力进行编码，输出使用单向的掩码注意力利用词元本身和前面的词元进行自回归的预测
- 与编码器-解码器架构相比，前缀解码器在编码与解码的过程中是共享参数的
- 可以基于因果解码器继续训练转换成前缀解码器
代表大模型
- GLM-130B

原文地址：https://blog.csdn.net/sgliquangang/article/details/142362575

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Django高级特性和最佳实践
下一篇：通义灵码在Visual Studio上

【d45】【Java】【力扣】206.反转链表
解法1：适用于数字不多的1.把节点的数，都放进一个arraylist中2.调用Collections.reverse(list)方法，将list转置3.再遍历list，逐个放入数字解法1记录总结
阅读更多2024-09-21
Mupdf 图像处理
好的，让我们来组合所有这些图像处理方式的选项，以便更好地理解它们的用法。
阅读更多2024-09-21
【Docker】安装及使用
Docker Desktop是官方提供的桌面版Docker客户端，在Mac上使用Docker需要安装这个工具。.dmg。
阅读更多2024-09-21
俄罗斯的Alexey V. Gubin开发的数据恢复文件-零假设恢复只读模式下对扫描/恢复数据起作用-供大家学习研究参考
针对FAT，NTFS，EXT和XFS文件系统的唯一最佳数据恢复解决方案（具有最准确的数据扫描和恢复功能）。它是由来自俄罗斯的Alexey V. Gubin开发的，在数据&
阅读更多2024-09-21
CRMEB商城系统运营配置——第三方接口配置（电子面单）
电子面单在现代物流管理中起着不可或缺的作用，它能在商城爆单时简化订单发货打印流程，快速准确处理订单，在多渠道销售时实现统一发货，减少人工处理错误，还能高效实现数据同步，提高物流信息化管理水平。今天我们
阅读更多2024-09-21
Python的学习步骤
学习Python的基本语法，包括变量、数据类型、运算符、控制流（if语句、循环）等。- 推荐资源：Python官方博客、Reddit的Python板块。- **项目驱动**：通过构建项目来学习，这样可
阅读更多2024-09-21
Redis——持久化策略
Redis——持久化策略
阅读更多2024-09-21
harbor集成trivy镜像扫描工具
前置条件：安装好docker和docker-compose。
阅读更多2024-09-21
arthas -- xxljob本地调试
之所以命名 ApplicationContextProvider1 是因为源码中包含 ApplicationContextProvider，不然会导入该类跳过执行。复制路径：@cn.wanda.wic
阅读更多2024-09-21
LeetCode 260. 只出现一次的数字 III
更多题解尽在每日更新。组队打卡，更多解法等你一起来参与哦！，难度。
阅读更多2024-09-21

大模型-模型架构-主流架构

一、发展历史

1、早期

2、当前

二、架构简介

1、编码器-解码器架构

2、因果解码器架构

3、前缀解码器架构（又称非因果解码器架构）

相关文章