动手学LLM（ch3）——编码注意力机制

🕗 发布于 2024-10-10 23:04 人工智能 深度学习

前言

在ch2中，你学习了如何准备用于训练 LLM 的输入文本。这涉及将文本拆分为单独的单词和子单词标记，这些标记可以编码为LLM的向量表示，即所谓的嵌入。在本文中，我们现在将研究 LLM 架构本身的一个组成部分，即注意力机制。如下图所示

注意力机制是一个综合性的话题，这就是为什么我们用一整篇文章来讨论它。我们将在很大程度上孤立地看待这些注意力机制，并在机制层面上关注它们。在后面的内容中，我们将围绕自注意力机制对 LLM 的其余部分进行编码，以查看它的实际效果并创建一个模型来生成文本。在本文中，我们将实现四种不同的注意力机制变体，如下图所示，描述了我们将在本文中编写的不同注意力机制，从简化版本的自我注意力开始，然后添加可训练的权重。因果注意机制为自我注意力添加了一个掩码，允许 LLM 一次生成一个单词。最后，多头注意力将注意力机制组织成多个头，使模型能够并行捕获输入数据的各个方面。这些不同的注意力变体是相互构建的，目标是在本文末尾实现一个紧凑而高效的多头注意力实现，然后我们可以将其插入到我们后面中编写的 LLM 架构中。

本文内容从以下几个方面展开

- 探索在神经网络中使用注意力机制的原因

- 引入基本的自我注意力框架并逐步发展到增强的自我注意力机制

- 实现因果注意力模块，允许 LLM 一次生成一个令牌

- 用丢弃来掩盖随机选择的注意力权重，以减少过度拟合

- 将多个因果注意力模块堆叠到一个多头注意力模块中

3.1 长序列建模的问题

待续......

原文地址：https://blog.csdn.net/m0_56569131/article/details/142831857

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：python redis使用教程
下一篇：西门子S7-SMART运动控制--回原点指令

设计模式之---工厂模式
抽象工厂模式主要用于创建相关对象的家族。当一个产品族中需要被设计在一起工作时，通过抽象工厂模式，能够保证客户端始终只使用同一个产品族中的对象；并且通过隔离具体类的生成，使得客户端不需要明确指定具体生成
阅读更多2024-10-11
Jetson 开发系列：离线低延迟的人脸识别方案
上篇调研了`语音识别和语音合成`解决方案。本篇继续探索`人脸识别`的离线部署方案。
阅读更多2024-10-11
【Linux系统编程】第三十弹---软硬链接与动静态库的深入探索
见一见软硬链接，软硬链接的特征，什么是软硬链接，软硬链接有什么用，什么是动静态库~~~
阅读更多2024-10-11
智能EDA小白从0开始 —— DAY10 Yosys
Yosys的工作原理深入来讲，是一个复杂但有序的硬件设计自动化流程，其核心在于将高级硬件描述语言（HDL）如Verilog或VHDL编写的代码，通过一系列精细的步骤转换为门级网表。这一流程首先涉及对H
阅读更多2024-10-11
wasm在云原生领域的运用
Wasm 最初是以浏览器安全沙盒为目的开发的，发展到目前为止，WebAssembly 已经成为一个用于云原生软件组件的高性能、跨平台和多语言软件沙箱环境，Wasm 轻量级容器也非常适合作为下一代无服务
阅读更多2024-10-11
基于vue的酒店预订管理系统（源码+定制+开发）
博主介绍： ✌我是阿龙，一名专注于Java技术领域的程序员，全网拥有10W+粉丝。作为CSDN特邀作者、博客专家、新星计划导师，我在计算机毕业设计开发方面积累了丰富的经验。同时，我也是掘金、华为云、
阅读更多2024-10-11
C++20主要特性
C++20 极大地丰富了C++语言，提供了更多的现代化编程工具和性能优化，使得C++成为一个更加强大和灵活的编程语言。其他改进：还包括了其他一些小的语言改进和标准库增强，如对文件系统的支持、数学库的
阅读更多2024-10-11
【ShuQiHere】重新定义搜索：本体搜索引擎的时代
**本体搜索引擎（Ontological Search Engine, OSE）** 是一种基于语义理解和本体结构的智能搜索工具。与传统的关键词搜索不同，本体搜索引擎能够理解搜索背后的深层语义，提供更
阅读更多2024-10-11
汽车3d动效的作用！云渲染实现3d动效
4、全渠道营销：3D汽车动效可以集成到线下和线上的营销平台中，如展厅、数字标牌、网站、社交媒体和电视广告，通过利用逼真和身临其境的可视化设计，营销人员可以有效地展示汽车的设计、功能和性能。5、智能化交
阅读更多2024-10-11
2024年网络安全进阶手册：三个月黑客技术自学路线
网络安全可以基于攻击和防御视角来分类，我们经常听到的 “红队”、“渗透测试” 等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。走安全行业的工程方向的，技术上面其实有很大的重叠
阅读更多2024-10-11

动手学LLM（ch3）——编码注意力机制

前言

3.1 长序列建模的问题

相关文章