AI大模型架构背后的数学原理和数学公式，基于Transformer架构的数学公式有哪些？

🕗 发布于 2025-01-19 01:43 人工智能 transformer 深度学习

大家好，我是微学AI，今天给大家介绍一下大模型架构大部分是基于Transformer架构的研发出来的，背后的数学原理涉及线性代数、概率论、优化理论等。以下是关键数学原理和公式的详细说明及示例。
在这里插入图片描述

大模型背后隐藏的数学原理

1. 线性变换（Linear Transformation）

大模型的核心操作之一是线性变换，公式为：
$\mathbf{y} = \mathbf{W}\mathbf{x} + \mathbf{b}$

$\mathbf{x}$ 是输入向量（维度 $d_{\text{in}}$ ）。
$\mathbf{W}$ 是权重矩阵（维度 $d_{\text{out}} \times d_{\text{in}}$ ）。
$\mathbf{b}$ 是偏置向量（维度 $d_{\text{out}}$ ）。
$\mathbf{y}$ 是输出向量（维度 $d_{\text{out}}$ ）。

例子：
假设输入向量 $\mathbf{x} = [1, 2, 3]^\top$ ，权重矩阵 $\mathbf{W} = \begin{bmatrix} 1 & 0 & 1 \\ 0 & 1 & 0 \end{bmatrix}$ ，偏置向量 $\mathbf{b} = [0.5, -0.5]^\top$ ，则：
$\mathbf{y} = \mathbf{W}\mathbf{x} + \mathbf{b} = \begin{bmatrix} 1 & 0 & 1 \\ 0 & 1 & 0 \end{bmatrix} \begin{bmatrix} 1 \\ 2 \\ 3 \end{bmatrix} + \begin{bmatrix} 0.5 \\ -0.5 \end{bmatrix} = \begin{bmatrix} 4 \\ 2 \end{bmatrix} + \begin{bmatrix} 0.5 \\ -0.5 \end{bmatrix} = \begin{bmatrix} 4.5 \\ 1.5 \end{bmatrix}$

2. 位置编码（Positional Encoding）

Transformer模型使用位置编码来注入序列的位置信息，公式为：
$PE_{(pos, 2i)} = \sin\left(\frac{pos}{10000^{\frac{2i}{d}}}\right), \quad PE_{(pos, 2i+1)} = \cos\left(\frac{pos}{10000^{\frac{2i}{d}}}\right)$

$p os$ 是位置索引。
$i$ 是维度索引。
$d$ 是嵌入维度。

例子：
假设 $p os = 1$ ， $d = 4$ ，则：
$PE_{(1, 0)} = \sin\left(\frac{1}{10000^{0/4}}\right) = \sin(1), \quad PE_{(1, 1)} = \cos\left(\frac{1}{10000^{0/4}}\right) = \cos(1)$
$PE_{(1, 2)} = \sin\left(\frac{1}{10000^{2/4}}\right) = \sin\left(\frac{1}{100}\right), \quad PE_{(1, 3)} = \cos\left(\frac{1}{10000^{2/4}}\right) = \cos\left(\frac{1}{100}\right)$

3. 注意力机制（Attention Mechanism）

注意力机制的核心是计算查询（Query）、键（Key）和值（Value）之间的相似度，公式为：
$\text{Attention}(\mathbf{Q}, \mathbf{K}, \mathbf{V}) = \text{softmax}\left(\frac{\mathbf{Q}\mathbf{K}^\top}{\sqrt{d_k}}\right)\mathbf{V}$

$\mathbf{Q}$ 是查询矩阵（维度 $\times d_k$ ）。
$\mathbf{K}$ 是键矩阵（维度 $\times d_k$ ）。
$\mathbf{V}$ 是值矩阵（维度 $\times d_v$ ）。
$d_k$ 是键的维度。
$\text{softmax}$ 是归一化函数。

例子：
假设 $\mathbf{Q} = \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}$ ， $\mathbf{K} = \begin{bmatrix} 0 & 1 \\ 1 & 0 \end{bmatrix}$ ， $\mathbf{V} = \begin{bmatrix} 1 & 2 \\ 3 & 4 \end{bmatrix}$ ， $d_k = 2$ ，则：
$\mathbf{Q}\mathbf{K}^\top = \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix} \begin{bmatrix} 0 & 1 \\ 1 & 0 \end{bmatrix} = \begin{bmatrix} 0 & 1 \\ 1 & 0 \end{bmatrix}$
$\text{softmax}\left(\frac{\mathbf{Q}\mathbf{K}^\top}{\sqrt{2}}\right) = \text{softmax}\left(\begin{bmatrix} 0 & 0.707 \\ 0.707 & 0 \end{bmatrix}\right) \approx \begin{bmatrix} 0.5 & 0.5 \\ 0.5 & 0.5 \end{bmatrix}$
$\text{Attention}(\mathbf{Q}, \mathbf{K}, \mathbf{V}) = \begin{bmatrix} 0.5 & 0.5 \\ 0.5 & 0.5 \end{bmatrix} \begin{bmatrix} 1 & 2 \\ 3 & 4 \end{bmatrix} = \begin{bmatrix} 2 & 3 \\ 2 & 3 \end{bmatrix}$

4. 多头注意力机制（Multi-Head Attention）

多头注意力机制通过并行计算多个注意力头来捕捉不同的特征，公式为：
$\text{MultiHead}(\mathbf{Q}, \mathbf{K}, \mathbf{V}) = \text{Concat}(\text{head}_1, \text{head}_2, \dots, \text{head}_h)\mathbf{W}^O$
其中每个注意力头的计算为：
$\text{head}_i = \text{Attention}(\mathbf{Q}\mathbf{W}_i^Q, \mathbf{K}\mathbf{W}_i^K, \mathbf{V}\mathbf{W}_i^V)$

$\mathbf{W}_i^Q, \mathbf{W}_i^K, \mathbf{W}_i^V$ 是每个头的投影矩阵。
$\mathbf{W}^O$ 是输出投影矩阵。
$h$ 是注意力头的数量。

例子：
假设 $h = 2$ ， $\mathbf{Q} = \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}$ ， $\mathbf{K} = \begin{bmatrix} 0 & 1 \\ 1 & 0 \end{bmatrix}$ ， $\mathbf{V} = \begin{bmatrix} 1 & 2 \\ 3 & 4 \end{bmatrix}$ ，投影矩阵为：
$\mathbf{W}_1^Q = \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}, \quad \mathbf{W}_1^K = \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}, \quad \mathbf{W}_1^V = \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}$
$\mathbf{W}_2^Q = \begin{bmatrix} 0 & 1 \\ 1 & 0 \end{bmatrix}, \quad \mathbf{W}_2^K = \begin{bmatrix} 0 & 1 \\ 1 & 0 \end{bmatrix}, \quad \mathbf{W}_2^V = \begin{bmatrix} 0 & 1 \\ 1 & 0 \end{bmatrix}$
则：
$\text{head}_1 = \text{Attention}(\mathbf{Q}\mathbf{W}_1^Q, \mathbf{K}\mathbf{W}_1^K, \mathbf{V}\mathbf{W}_1^V) = \text{Attention}(\mathbf{Q}, \mathbf{K}, \mathbf{V})$
$\text{head}_2 = \text{Attention}(\mathbf{Q}\mathbf{W}_2^Q, \mathbf{K}\mathbf{W}_2^K, \mathbf{V}\mathbf{W}_2^V) = \text{Attention}(\begin{bmatrix} 0 & 1 \\ 1 & 0 \end{bmatrix}, \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}, \begin{bmatrix} 2 & 1 \\ 4 & 3 \end{bmatrix})$

5. 残差连接（Residual Connection）

残差连接用于缓解梯度消失问题，公式为：
$\mathbf{y} = \text{Layer}(\mathbf{x}) + \mathbf{x}$

$\mathbf{x}$ 是输入。
$\text{Layer}(\mathbf{x})$ 是某一层的输出。

例子：
假设 $\mathbf{x} = [1, 2]^\top$ ，某一层的输出 $\text{Layer}(\mathbf{x}) = [0.5, -0.5]^\top$ ，则：
$\mathbf{y} = [0.5, -0.5]^\top + [1, 2]^\top = [1.5, 1.5]^\top$

6. 层归一化（Layer Normalization）

层归一化用于稳定训练过程，公式为：
$\text{LayerNorm}(\mathbf{x}) = \gamma \cdot \frac{\mathbf{x} - \mu}{\sigma} + \beta$

$\mathbf{x}$ 是输入向量。
$\mu$ 是均值， $\sigma$ 是标准差。
$\gamma$ 和 $\beta$ 是可学习的参数。

例子：
假设 $\mathbf{x} = [1, 2, 3]^\top$ ， $\mu = 2$ ， $\sigma = \sqrt{\frac{(1-2)^2 + (2-2)^2 + (3-2)^2}{3}} = \sqrt{\frac{2}{3}}$ ， $\gamma = 1$ ， $\beta = 0$ ，则：
$\text{LayerNorm}(\mathbf{x}) = 1 \cdot \frac{[1, 2, 3] - 2}{\sqrt{\frac{2}{3}}} + 0 \approx [-1.225, 0, 1.225]$

7. GELU激活函数

GELU（Gaussian Error Linear Unit）是一种常用的激活函数，公式为：
$\text{GELU}(x) = x \cdot \Phi(x)$
其中 $\Phi(x)$ 是标准正态分布的累积分布函数，近似计算为：
$\text{GELU}(x) \approx 0.5x \left(1 + \tanh\left(\sqrt{\frac{2}{\pi}}(x + 0.044715x^3)\right)\right)$

例子：
假设 $x = 1$ ，则：
$\text{GELU}(1) \approx 0.5 \cdot 1 \left(1 + \tanh\left(\sqrt{\frac{2}{\pi}}(1 + 0.044715 \cdot 1^3)\right)\right) \approx 0.841$

8. Softmax 函数

Softmax 函数用于将向量转换为概率分布，公式为：
$\text{softmax}(\mathbf{z})_i = \frac{e^{z_i}}{\sum_{j=1}^n e^{z_j}}$

$\mathbf{z}$ 是输入向量。
$z_i$ 是向量的第 $i$ 个元素。

例子：
假设 $\mathbf{z} = [1, 2, 3]^\top$ ，则：
$\text{softmax}(\mathbf{z}) = \left[\frac{e^1}{e^1 + e^2 + e^3}, \frac{e^2}{e^1 + e^2 + e^3}, \frac{e^3}{e^1 + e^2 + e^3}\right] \approx [0.090, 0.245, 0.665]$

9. 损失函数（Loss Function）

大模型通常使用交叉熵损失函数，公式为：
$\mathcal{L}(\mathbf{y}, \hat{\mathbf{y}}) = -\sum_{i=1}^n y_i \log(\hat{y}_i)$

$\mathbf{y}$ 是真实标签（one-hot 编码）。
$\hat{\mathbf{y}}$ 是模型预测的概率分布。

例子：
假设真实标签 $\mathbf{y} = [0, 1, 0]^\top$ ，模型预测 $\hat{\mathbf{y}} = [0.1, 0.7, 0.2]^\top$ ，则：
$\mathcal{L}(\mathbf{y}, \hat{\mathbf{y}}) = - (0 \cdot \log(0.1) + 1 \cdot \log(0.7) + 0 \cdot \log(0.2)) = -\log(0.7) \approx 0.357$

10. Dropout

Dropout是一种正则化方法，训练时随机丢弃部分神经元，公式为：
$\mathbf{y} = \mathbf{m} \odot \mathbf{x}$

$\mathbf{m}$ 是掩码向量，元素为0或1，概率为 $p$ 。
$\odot$ 是逐元素乘法。

例子：
假设 $\mathbf{x} = [1, 2, 3]^\top$ ， $p = 0.5$ ，掩码 $\mathbf{m} = [1, 0, 1]^\top$ ，则：
$\mathbf{y} = [1, 0, 1]^\top \odot [1, 2, 3]^\top = [1, 0, 3]^\top$

11. 反向传播（Backpropagation）

反向传播通过链式法则计算梯度，公式为：
$\frac{\partial \mathcal{L}}{\partial \mathbf{W}} = \frac{\partial \mathcal{L}}{\partial \mathbf{y}} \cdot \frac{\partial \mathbf{y}}{\partial \mathbf{W}}$

$\mathcal{L}$ 是损失函数。
$\mathbf{y}$ 是模型输出。

例子：
假设 $\mathbf{y} = \mathbf{W}\mathbf{x}$ ， $\mathcal{L} = \frac{1}{2}(\mathbf{y} - \mathbf{t})^2$ ，则：
$\frac{\partial \mathcal{L}}{\partial \mathbf{W}} = (\mathbf{y} - \mathbf{t}) \cdot \mathbf{x}^\top$

12. 梯度下降（Gradient Descent）

梯度下降用于优化模型参数，更新公式为：
$\mathbf{\theta} \leftarrow \mathbf{\theta} - \eta \nabla_\theta \mathcal{L}$

$\mathbf{\theta}$ 是模型参数。
$\eta$ 是学习率。
$\nabla_\theta \mathcal{L}$ 是损失函数对参数的梯度。

例子：
假设损失函数 $\mathcal{L}(\theta) = \theta^2$ ，初始参数 $\theta = 3$ ，学习率 $\eta = 0.1$ ，则：
$\nabla_\theta \mathcal{L} = 2\theta = 6$
$\theta \leftarrow \theta - \eta \nabla_\theta \mathcal{L} = 3 - 0.1 \times 6 = 2.4$

13. Adam优化器

Adam优化器结合了动量和自适应学习率，更新公式为：
$\mathbf{m}_t = \beta_1 \mathbf{m}_{t-1} + (1 - \beta_1) \nabla_\theta \mathcal{L}$
$\mathbf{v}_t = \beta_2 \mathbf{v}_{t-1} + (1 - \beta_2) (\nabla_\theta \mathcal{L})^2$
$\hat{\mathbf{m}}_t = \frac{\mathbf{m}_t}{1 - \beta_1^t}, \quad \hat{\mathbf{v}}_t = \frac{\mathbf{v}_t}{1 - \beta_2^t}$
$\mathbf{\theta}_t = \mathbf{\theta}_{t-1} - \eta \frac{\hat{\mathbf{m}}_t}{\sqrt{\hat{\mathbf{v}}_t} + \epsilon}$

$\mathbf{m}_t$ 和 $\mathbf{v}_t$ 分别是动量项和二阶动量项。
$\beta_1, \beta_2$ 是衰减率。
$\eta$ 是学习率。
$\epsilon$ 是平滑项。

例子：
假设 $\nabla_\theta \mathcal{L} = [0.1, -0.2]^\top$ ， $\beta_1 = 0.9$ ， $\beta_2 = 0.999$ ， $\eta = 0.001$ ， $\epsilon = 1e-8$ ，初始 $\mathbf{m}_0 = \mathbf{v}_0 = \mathbf{0}$ ，则：
$\mathbf{m}_1 = 0.9 \cdot \mathbf{0} + 0.1 \cdot [0.1, -0.2]^\top = [0.01, -0.02]^\top$
$\mathbf{v}_1 = 0.999 \cdot \mathbf{0} + 0.001 \cdot [0.1^2, (-0.2)^2]^\top = [0.0001, 0.0004]^\top$
$\hat{\mathbf{m}}_1 = \frac{[0.01, -0.02]^\top}{1 - 0.9^1} = [0.01, -0.02]^\top$
$\hat{\mathbf{v}}_1 = \frac{[0.0001, 0.0004]^\top}{1 - 0.999^1} = [0.0001, 0.0004]^\top$
$\mathbf{\theta}_1 = \mathbf{\theta}_0 - 0.001 \cdot \frac{[0.01, -0.02]^\top}{\sqrt{[0.0001, 0.0004]^\top} + 1e-8} \approx \mathbf{\theta}_0 - [0.1, -0.1]^\top$

以上是大模型架构背后的核心数学原理和公式。这些公式构成了深度学习模型的基础，并在实际应用中通过高效的数值计算库（如PyTorch、TensorFlow、Paddle）实现。

原文地址：https://blog.csdn.net/weixin_42878111/article/details/145211512

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：[Qt] Box Model | 控件样式 | 实现log_in界面
下一篇：MySQL 数据库连接池爆满问题排查与解决

CentOS8安装docker报错：安装的软件包的问题 podman-3.3.1-9.module_el8.5.0+988+b1f0b741.x86_64
安装docker报错：安装的软件包的问题 podman-3.3.1-9.module_el8.5.0+988+b1f0b741.x86_64 - 软件包 podman-3.3.1-9.module
阅读更多2025-01-19
knife4j 文档解析 application/x-www-form-urlencoded表单解析成post json
下载源码1.7 tag 合并这个修复代码打成新包到私有仓库引入修改后的包使用。
阅读更多2025-01-19
WinForm实现无边框拖动的两种方式
Winform作为桌面应用程序的一个代表，可以说是C#初学者快速入门最好的一种方式，然而随着我们的开发能力的提升，我们对UI界面的要求变得越来越高，于是我们开始不断优化、升级我们的UI界面。Winfo
阅读更多2025-01-19
Ansible深度解析：如何精准区分并选用command与shell模块
Ansible，作为一个强大的自动化工具，提供了多种模块来执行不同的任务。其中，command和shell模块是最常用的两个模块，用于在远程主机上执行命令。然而，尽管它们的功能相似，但在使用场景和特点
阅读更多2025-01-19
深度学习加速性能分析与Roofline Model
可以划分为两个瓶颈趋于，包括计算瓶颈（“屋顶”的高度）和带宽瓶颈（“房檐“的斜率）会有两种形态，包括提供更大带宽带来的。所以整个形态类似屋顶形状。Roof-line刻画的计算强度。根据定义可以得到，计
阅读更多2025-01-19
【电商API接口|京东/唯品会比价项目搭建】爬虫如何帮助构建比价系统｜涨姿势
另一种是电商平台内部的比价系统，用来实时查询网上销售的所有同款商品信息，一旦发现有其它网站的商品定价低于自己，系统会自动调低本网同类商品的价格，保持与竞争对手至少10%的价格优势。对于我们来说比价系统
阅读更多2025-01-19
剑指Offer 砍竹子
剑指Offer 砍竹子
阅读更多2025-01-19
拟合算法 (matlab工具箱)
尽管我们可以选择分段的方法避免这种现象，但是更多时候我们更倾向于得到-个确定的曲线，尽管这条曲线不能经过每一个样本点，但只要保证误差足够小即可，这就是拟合的思想。下表给出了近2个世纪的美国人口统计数据
阅读更多2025-01-19
2.1 使用kubectl部署一个简单的nginx-pod
确立目标了解各组件的工作内容对核心模块与引用的库有基本的认识结合源码，掌握kubernetes的核心概念部署nginx的pod。
阅读更多2025-01-19
蓝耘：GPU算力云服务的技术探索与AIGC应用支持
蓝耘作为一家专业的GPU算力云服务提供商，凭借其领先的基础设施、大规模的GPU算力资源以及开放灵活的服务模式，为客户提供了高效、高性价比的算力云服务。无论是AI模型的构建与训练，还是AIGC内容的生成
阅读更多2025-01-19