大模型常见算子定义

🕗 发布于 2024-10-14 10:58 人工智能 机器学习 RMSNorm RoPE SiLU

本文将汇总大模型常用的算子定义，方便快速根据定义公式评估其计算量。

LayerNorm

这是在BERT、GPT等模型中广泛使用的LayerNorm：

RMSNorm

RMSNorm(root mean square)发现LayerNorm的中心偏移没什么用(减去均值等操作)。将其去掉之后，效果几乎不变，但是速度提升了40%。最终公式为：

注意除了没有减均值，加偏置以外，分母上求的RMS而不是方差

SwiGLU/SiLU

LLaMA没有使用ReLU，而是使用了SwiGLU，有时也被称为SiLU，效果类似平滑版的ReLU。公式如下：

y = sigmoid(x) * x

RoPE

LLaMA使用了Rotary Position Embedding。对于Q的第m个位置向量q，通过以下方法注入相对位置编码

公式中第二、四项的计算代码：

class LlamaRotaryEmbedding(torch.nn.Module):
    def __init__(self, dim, max_position_embeddings=2048, base=10000, device=None):
        super().__init__()
        inv_freq = 1.0 / (base ** (torch.arange(0, dim, 2).float().to(device) / dim))
        self.register_buffer("inv_freq", inv_freq)

        # Build here to make `torch.jit.trace` work.
        self.max_seq_len_cached = max_position_embeddings
        t = torch.arange(self.max_seq_len_cached, device=self.inv_freq.device, dtype=self.inv_freq.dtype)
        freqs = torch.einsum("i,j->ij", t, self.inv_freq)
        # Different from paper, but it uses a different permutation in order to obtain the same calculation
        emb = torch.cat((freqs, freqs), dim=-1)
        self.register_buffer("cos_cached", emb.cos()[None, None, :, :], persistent=False)
        self.register_buffer("sin_cached", emb.sin()[None, None, :, :], persistent=False)

    def forward(self, x, seq_len=None):
        # x: [bs, num_attention_heads, seq_len, head_size]
        # This `if` block is unlikely to be run after we build sin/cos in `__init__`. Keep the logic here just in case.
        if seq_len > self.max_seq_len_cached:
            self.max_seq_len_cached = seq_len
            t = torch.arange(self.max_seq_len_cached, device=x.device, dtype=self.inv_freq.dtype)
            freqs = torch.einsum("i,j->ij", t, self.inv_freq)
            # Different from paper, but it uses a different permutation in order to obtain the same calculation
            emb = torch.cat((freqs, freqs), dim=-1).to(x.device)
            self.register_buffer("cos_cached", emb.cos()[None, None, :, :], persistent=False)
            self.register_buffer("sin_cached", emb.sin()[None, None, :, :], persistent=False)
        return (
            self.cos_cached[:, :, :seq_len, ...].to(dtype=x.dtype),
            self.sin_cached[:, :, :seq_len, ...].to(dtype=x.dtype),
        )


# 在LlamaAttention通过以下命令调用：
cos, sin = self.rotary_emb(seq_len=kv_seq_len)

公式中第三项的计算代码

# 在接下来的apply_rotary_pos_emb函数里调用

def rotate_half(x):
    x1 = x[..., : x.shape[-1] // 2]
    x2 = x[..., x.shape[-1] // 2 :]
    return torch.cat((-x2, x1), dim=-1)

最后通过以下代码得到结合了位置编码的Q,K(K和Q使用同样的方式进行位置编码)。

def apply_rotary_pos_emb(q, k, cos, sin, position_ids):
    q_embed = (q * cos[position_ids]) + (rotate_half(q) * sin[position_ids])
    k_embed = (k * cos[position_ids]) + (rotate_half(k) * sin[position_ids])
    return q_embed, k_embed

# 在LLamaAttention中通过以下命令调用：
query_states, key_states = apply_rotary_pos_emb(query_states, key_states, cos, sin, position_ids)

下图蓝色字体是原始论文RoPE的推导公式，两种都是常用的RoPE实现。

参考

https://zhuanlan.zhihu.com/p/636784644

RoPE原作者苏剑林的博客

原文地址：https://blog.csdn.net/u010420283/article/details/142905861

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：使用CSS和HTML实现3D图片环绕效果
下一篇：elementui时间选择器time-picker返回值不对的问题

五、UI弹窗提示
协程调用方法；制作弹窗文本
阅读更多2024-10-14
使用verilog设计实现的数字滤波器（低通、高通、带通）及其仿真
对于低通FIR滤波器，可以使用窗函数法（如汉宁窗）来设计滤波器系数。例如，设计一个截止频率为。高通滤波器系数的设计方法与低通类似，但频率特性不同。例如，设计一个截止频率为。带通滤波器需要确定下限截止频
阅读更多2024-10-14
树莓派应用--AI项目实战篇来啦-14.基于OpenCV二维码识别
二维码又称二维条码，常见的二维码为QR Code,QR全称Quick Response，是一个近几年来移动设备上超流行的一种编码方式，它比传统的Bar Code条形码能存更多的信息，也能表示更多的数据
阅读更多2024-10-14
【无标题】
欢迎大家转发，一起传播知识和正能量，帮助到更多人。期待大家提出宝贵改进建议，互相交流，收获更大。辛苦大家转发时注明出处。【小白从小学Python+C+Java】也是咱们公益编程交流群的入口网址。【40
阅读更多2024-10-14
UniApp入门教程
UniApp 是一种用于构建跨平台应用程序的框架，它基于 Vue.js 并通过 UniApp 技术栈支持多种平台，如微信小程序、支付宝小程序、H5、Android 和 iOS。
阅读更多2024-10-14
突破一个强大算法模型，Transformer ！！
今儿和大家再来聊聊 Transformer ，以及给一个简单的代码案例让大家更好的理解~Transformer 是一种深度学习模型架构，最初由 Vaswani 等人在 2017 年提出，它的设计用于解
阅读更多2024-10-14
初识git · 基本操作
Git 是一个开源的分布式版本控制系统，最初由林纳斯·托瓦兹（Linus Torvalds）于2005年开发，目的是为了更好地管理Linux内核的开发过程。与传统的集中式版本控制系统（如SVN）不同，
阅读更多2024-10-14
五大检索模式，精确定位所需专利
2.高级检索：提供多种条件组合，如专利申请人、专利分类、申请日期等，帮助用户深入挖掘特定的专利数据。4.语义检索：通过语义分析技术，用户可以使用自然语言进行查询，平台会智能理解并匹配相关的专利内容。1
阅读更多2024-10-14
C语言指针（test_1_29）
C语言指针（test_1_29）
阅读更多2024-10-14
PyTorch中的with torch.no_grad：节省计算资源与加速推理的关键
with torch.no_grad是一个上下文管理器，它能够在其作用域内禁止计算图的构建。这意味着在推理过程中，PyTorch不会为前向传播操作生成计算图，从而节省显存和计算资源。这对于大型模型或在
阅读更多2024-10-14

大模型常见算子定义

LayerNorm

RMSNorm

SwiGLU/SiLU

RoPE

参考

相关文章