TransFormer 视频笔记

🕗 发布于 2024-10-03 20:39 transformer 笔记 android

TransFormer

Basics
Attention
- 单头注意力 single head attention
MLP

Basics

接受一段文本，输出一个单词。

token -> (Embeding)-> high dimensional vector. 方向对应语义

嵌入向量
在这里插入图片描述
最初的向量也包含位置信息。1万多维。

Attention

attetnion数学含义
除以d_k 是为了数值稳定

将上下文的信息传给当前token。
移动向量
attention机制给最初的generic embedding加个向量，将其移动到上下文对应的具体方向上。
Attention不仅精细化了嵌入向量的定义，还能将嵌入向量的信息传给其他的向量。

经过多层attention后，预测下一个token的计算过程完全取决于最后一个向量。

单头注意力 single head attention

在这里插入图片描述

Q： query 查寻矩阵 128*12288

在这里插入图片描述
W_Q 将E(嵌入向量)映射低维空间中。Q是128*1

K key matrix 128*12288

Key矩阵同样将嵌入向量映射到低维空间中，得到第二个向量序列。当key与query的方向一致时(两个向量的点积越大越相关)，就能认为他们匹配。
在这里插入图片描述

SoftMax 归一

Masking
Masking：在训练时，不能提前知道答案，后级的信息不能传递给前级。为了避免后级token对前级的影响，将下半边矩阵设为－∞。
attention patttern
该pattern表明每个词与其他哪些词相关

Value matrix 12288*12288

在这里插入图片描述

MLP

在这里插入图片描述

原文地址：https://blog.csdn.net/weixin_41782111/article/details/142671574

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Flink基本概念和算子使用
下一篇：HTML 与 ES6 是前端开发的两大核心技术

HTTP【网络】
HTTP协议格式、HTTP的方法、HTTP的状态码、HTTP常见的Header
阅读更多2024-10-04
activity-context-attribute-alias 元素
元素通过提供别名来提高 SBB 的可读性，使得在处理复杂的活动上下文属性时，开发者能够更清晰地理解和使用这些属性。通过将属性聚合到逻辑名称下，代码的维护和理解将变得更加简单和高效。
阅读更多2024-10-04
普中51单片机
1.以管理员启动，破解。
阅读更多2024-10-04
MySQL深度分页
在现代Web应用中，数据的逐步展示除了增强用户体验外，还有效提高了系统性能。然而，随着数据集的不断增大，尤其是在数据库表中记录数量达到百万甚至千万级别时，处理深度分页（即访问较后页的数据）就成为一个重
阅读更多2024-10-04
为什么MySQL不建议使用delete删除数据
在MySQL数据库管理中，虽然DELETE语句是一个常用的操作，用于从表中删除记录，但在某些情况下，频繁使用DELETE删除数据可能会带来一系列潜在的问题。以下是对MySQL不建议使用DELETE。
阅读更多2024-10-04
samout游跨越一次
这段代码定义了一个基于PyTorch的神经网络模型，用于序列到序列的转换任务。
阅读更多2024-10-04
Python FFmpeg 安装使用教程
FFmpeg 是一个开源的多媒体框架，可以处理音频、视频和其他多媒体文件和流。它几乎支持所有已知的音视频格式，并提供了丰富的命令行工具来处理多媒体内容。👋 你好，我是 Lorin 洛林，一位 Java
阅读更多2024-10-04
Python next方法应用场景
Python next方法应用场景
阅读更多2024-10-04
408算法题leetcode--第24天
408算法题leetcode--第24天
阅读更多2024-10-04
ECMAScript详细标准概述
ECMAScript（ECMA-262）是JavaScript语言的一个标准，由Ecma国际（前身为欧洲计算机制造商协会）通过标准化流程制定。ECMAScript详细标准描述了JavaScript语言
阅读更多2024-10-04

TransFormer 视频笔记

TransFormer

Basics

Attention

单头注意力 single head attention

Q： query 查寻矩阵 128*12288

K key matrix 128*12288

SoftMax 归一

Value matrix 12288*12288

MLP

相关文章