Transformer合集

🕗 发布于 2024-07-24 19:13 transformer 深度学习 人工智能

资料

位置编码：https://zhuanlan.zhihu.com/p/454482273

自注意力：https://zhuanlan.zhihu.com/p/455399791

LN：https://zhuanlan.zhihu.com/p/456863215

ResNet：https://zhuanlan.zhihu.com/p/459065530

Subword Tokenization：https://zhuanlan.zhihu.com/p/460678461

长文概述：https://zhuanlan.zhihu.com/p/630356292

缓存和效果的拉扯（MHA、MQA、GQA、MLA）：https://spaces.ac.cn/archives/10091

为什么Pre Norm不如Post Norm？ https://kexue.fm/archives/9009

RoPE：https://zhuanlan.zhihu.com/p/359502624

经典问题：https://github.com/kebijuelun/Awesome-LLM-Learning/blob/main/1.%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E5%9F%BA%E7%A1%80%E7%9F%A5%E8%AF%86/1.Transformer%E5%9F%BA%E7%A1%80.md

位置编码

为什么要位置编码：因为self-attention是无向的。而实际上模型需要知道token之间的距离信息。

位置编码的要求：
（1）能够表示token的绝对位置
（2）序列长度不同时，不同序列中token的相对距离要保持一致
（3）预测阶段，可以表示模型在训练阶段没有见过的句子长度

位置编码的迭代经验、找到一个函数符合以下条件：
（1）有界
（2）连续、且不同
（3）不同位置的向量可以通过线性变换得到

最终Transformer的位置编码的性质：
（1）两个位置编码的点积(dot product)仅取决于偏移量，也即两个位置编码的点积可以反应出两个位置编码间的距离。
（2）位置编码的点积是无向的

attention

除以根号dk的原因：
在这里插入图片描述

Normalization

常用的标准化方法有Batch Normalization，Layer Normalization，Group Normalization，Instance Normalization等

ICS（Internal Covariate Shift）：前一层的数据分布变化加大后一层的训练难度。

在BN提出之前，有几种用于解决ICS的常规办法：

（1）采用非饱和激活函数

（2）更小的学习速率

（3）更细致的参数初始化办法

（4）数据白化（whitening）：在每一层输入时增加线性变化，使得输入的特征具有相同的均值和方差，从而去掉特征的相关性。

更优雅的解决方案：BN

训练

在这里插入图片描述

BN的缺点无法很好地处理文本数据长度不一的问题。可能不止是“长短不一”这一个，也可能和数据本身在某一维度分布上的差异性有关（想一下，对不同句子之间的第一个词做BN，求出来的mean和variance几乎是没有意义的）

在图像问题中，LN是指对一整张图片进行标准化处理，即在一张图片所有channel的pixel范围内计算均值和方差。

而在NLP的问题中，LN是指在一个句子的一个token的范围内进行标准化。即层归一化（Layer Normalization）的对象是同一个样本中一个token的所有维度。

Pre-LN

在残差连接和MHA计算之前进行LN操作。

好处：能和Post-LN达到相同甚至更好的训练结果，同时规避了在训练Post-LN中产生的种种问题
在这里插入图片描述

在这里插入图片描述

残差网络

normal的引入解决了因为导数的阶乘导致梯度消失或者梯度爆炸。

因为希望通过增加网络深度，来提高非线性拟合能力、使得每一层学到不同的模式。

而网络深度的增加，产生了网络退化的问题。

所以用残差模块来解决。这么设计的原因是尽可能让深层次的网络不比浅层网络表现弱（保证了更多层的神经网络至少能取到更浅的神经网络的最优解）。类似牵引绳或者KL散度的意思。

恒等映射：深层网络的结果既能学习到极端情况、又能逼近输入。

在这里插入图片描述

原文地址：https://blog.csdn.net/jinselizhi/article/details/140645698

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：木舟0基础学习Java的第二十一天(网络编程，反射)
下一篇：MySQL with recursive 用法浅析

八字口诀记网线八根线序
标准网络线的颜色排序顺序
阅读更多2024-10-19
群晖前面加了雷池社区版，安装失败，然后无法识别出用户真实访问IP
有nas的相信对公网都不模式，在现在基础上传带宽能有100兆的时代，有公网代表着家里有一个小服务器，像百度网盘，优酷这种在线服务都能部署为私有化服务。但现在运营商几乎不可能提供公网ip，要么自己买个云
阅读更多2024-10-19
Game design ...and beyond
本篇文章用来记录在学习过程中所提及到的游戏设计理念。
阅读更多2024-10-19
ImageQC 相关术语解释
这些术语通常用于生物医学成像领域，用来确保图像的质量符合特定的标准，从而确保研究或诊断的准确性。解释：图像质量控制（ImageQC）使用的软件版本号，用于确保图像符合特定的质量标准。解释：指图像是否通
阅读更多2024-10-19
MBTI性格测试【职场篇】
总的来说，MBTI的目标是帮助人们了解自己的倾向和喜好，从而更好地发展个人潜力，提高工作效率和人际关系。需要注意的是，MBTI只是个人特征的一种模型，不能全面解释一个人的全部维度和特征。MBTI是一个
阅读更多2024-10-19
惊喜！又一本开源免费的大模型书来了（附PDF）
《自然语言处理：大模型理论实践》（预览版）一书以自然语言处理中语言模型为主线，涵盖了从基础理论到高级应用的全方位内容，逐步引导读者从基础的自然语言处理技术走向大模型的深度学习与实际应用。
阅读更多2024-10-19
安装和简单使用Milvus
Milvus是国产的高性能分布式向量数据库。
阅读更多2024-10-19
Linux 环境变量
environ是二级指针**environ。不用命令行参数，也能获取到环境变量，因为命令行参数默认传的就是environ。echo是个命令，最后是一个子进程，myval是本地变量不能被继承？ls创建
阅读更多2024-10-19
DLL注入的术与道：分析攻击手法与检测规则
DLL 本质上是可供其他程序使用的函数和数据的集合，可将其视为虚拟公共资源，Windows运行的任何程序都会不断地调用动态链接库，以访问各种常见函数和数据。
阅读更多2024-10-19
HTML5教程（四） - 结构标签
ul标签，ol标签，li标签，table标签，form表单，布局类标签，iframe标签，radio标签，audio标签
阅读更多2024-10-19

Transformer合集

资料

位置编码

attention

Normalization

Pre-LN

残差网络

相关文章