什么是自回归模型

🕗 发布于 2024-07-07 19:14 回归数据挖掘 人工智能

自回归模型是一种统计模型，它用来描述某个变量的当前值与其自身过去的值之间的关系。这种模型广泛应用于时间序列数据分析，其中一个变量的历史值被用来预测其未来值。在自回归模型中，当前时点的值被视为过去若干时点值的线性函数。

自回归模型的定义

自回归模型（Autoregressive Model, AR模型）是时间序列分析中的一种基本模型，其核心思想是当前观测值可以通过其过去的若干个观测值的加权和来预测，其中的权重参数由数据自身决定。数学上，一个自回归模型可以表示为：

[ $X_t = c + \phi_1 X_{t-1} + \phi_2 X_{t-2} + \cdots + \phi_p X_{t-p} + \epsilon_t$ ]

其中：

( $X_t$ ) 是在时间 ( $t$ ) 的观测值。
( $c$ ) 是常数项（也可以为0）。
( $\phi_1, \phi_2, \ldots, \phi_p$ ) 是模型参数，反映了前 ( p ) 个时间点的观测值对当前值的影响大小。
( $p$ ) 是模型的阶数，指模型中包括多少个时间步的滞后值。
( $ $epsilon_t$ $ ) 是误差项，假设它是白噪声。

自回归模型的特点

依赖性：自回归模型假设时间序列数据的当前值依赖于其历史值。
参数化：模型通过确定参数 ( $\phi_1, \phi_2, \ldots, \phi_p$ ) 来形成对历史数据的依赖关系。
自相关性：这种模型的一个关键特征是自相关性，即序列的当前值与其过去值之间存在相关关系。

自回归模型的局限性

虽然自回归模型在许多场合下表现良好，但它依赖于几个假设：

时间序列是平稳的，即其统计属性如均值、方差和自相关结构不随时间变化。
模型假定过去的值是未来值的唯一决定因素，忽略了可能存在的外部影响因素。

自回归模型在处理具有复杂季节性或非线性特征的时间序列数据时可能需要进行调整或与其他模型（如移动平均模型、差分自回归移动平均模型等）结合使用。

总之，自回归模型是时间序列分析中的一个强大工具，它提供了一种相对简单的方法来模拟和预测序列数据。不过，正确的模型选择和参数估计是实现有效预测的关键。

序列的联合分布通过概率的链式法则的方式，充分展现了如何从基本的概率原则中构建复杂的序列依赖关系。在给出的文本例子中，整个句子“the mouse ate the cheese”的生成可以看作是一步步根据前面的词汇来决定下一个词汇的过程。

概率的链式法则

链式法则是概率论中的一个基本法则，用于**将多变量联合概率分解为条件概率的乘积。**对于序列 ( $x_{1:L}$ ) 而言，每一个词 ( $x_i$ ) 的出现不仅仅依赖于它前面的一个词，而是依赖于它前面所有的词的累积上下文 ( $x_{1:i-1}$ )。这种分解方法非常有用，因为它允许我们逐步构建和计算整个序列的概率，即便是在序列非常长的情况下。
$p(x_{1:L}) = p(x_1) p(x_2 \mid x_1) p(x_3 \mid x_1, x_2) \cdots p(x_L \mid x_{1:L-1}) = \prod_{i=1}^L p(x_i \mid x_{1:i-1}).$

$\begin{align*} p({the}, {mouse}, {ate}, {the}, {cheese}) = \, & p({the}) \\ & p({mouse} \mid {the}) \\ & p({ate} \mid {the}, {mouse}) \\ & p({the} \mid {the}, {mouse}, {ate}) \\ & p({cheese} \mid {the}, {mouse}, {ate}, {the}). \end{align*}$

自回归语言模型

自回归语言模型的特点是，它能够逐一生成序列中的每个词 (x_i)，每个词的生成都是基于之前所有词的条件概率。这种模型通常利用神经网络（如**LSTM、GRU或Transformer）**来计算每个条件概率 ( $p(x_i \mid x_{1:i-1})$ )。

例如，当模型生成文本“the mouse ate the cheese”时：

它首先生成“the”，这是基于 ( $p({the})$ )。
接着生成“mouse”，这是基于 ( $\mid {the})$ )。
然后是“ate”，基于 ( $\mid {the}, {mouse})$ )，以此类推。

温度参数 (T)

在生成文本时，温度参数 (T) 起着调控随机性程度的关键作用：
$\begin{aligned} \text { for } i & =1, \ldots, L: \\ x_i & \sim p\left(x_i \mid x_{1: i-1}\right)^{1 / T}, \end{aligned}$

(T = 0)：模型将完全确定性地选择概率最高的词。这通常会导致非常重复和可预测的文本生成。
(T = 1)：模型按照学习到的条件概率分布进行采样，这通常能够平衡随机性和准确性，生成既自然又多样化的文本。
( $\rightarrow \infty$ )：模型的行为趋向于完全随机，每个词都是从词汇表中均匀随机选取，不考虑上下文，通常不会生成有意义的文本。

在解释退火条件概率分布以及与温度参数 ( T ) 相关的重标准化概念之前，我们先了解温度参数 ( T ) 如何影响概率分布，以及为什么需要重标准化。

温度参数 ( T ) 的作用

温度参数 ( T ) 是在生成模型中使用的一个技术，用于调节生成过程中的随机性。当 ( T ) 的值较低（接近0）时，模型倾向于选择概率最高的输出（令牌），导致生成的文本确定性很强，可能过于重复和缺乏多样性。当 ( T ) 值较高时，概率分布变得更加均匀，增加了随机性，从而产生更多样化的输出。

退火概率分布的需要

直接对条件概率 ( $p(x_i \mid x_{1:i-1})$ ) 应用 ( $1/ T$ ) 的幂运算会导致分布的概率总和不再是1，这是因为概率密度在经过幂运算后会失去其原有的标准化性质。因此，必须对这些新的概率值进行重标准化（即让所有概率值之和重新等于1），以保持概率分布的有效性。这个过程被称为“ $退火$ ”。

退火条件概率分布的计算

假设有原始的条件概率 ( $p(x_i \mid x_{1:i-1})$ )，退火处理后的条件概率分布计算如下：

计算幂调整值：对每个可能的输出 ( $x_i$ ) 的概率应用 ( $1/ T$ ) 的幂：
[
$p'(x_i) = p(x_i \mid x_{1:i-1})^{1/T}$
]
重标准化：将所有调整后的概率值除以它们的总和，确保这些值的和为1：
[
$p_T(x_i \mid x_{1:i-1}) = \frac{p'(x_i)}{\sum_{x_i} p'(x_i)}$
]

例子解释

通过上述的例子，我们看到不同的 ( T ) 值如何显著改变概率分布：

( T=0.5 )：概率变得稍微平均一些，“mouse” 的概率从 0.6 降低到 0.69，而 “cheese” 从 0.4 增加到 0.31。
( T=0.2 )：模型更加偏向于选择概率较高的 “mouse”，导致 “mouse” 的概率增加到 0.88，“cheese” 降低到 0.12。
( T=0 )：模型完全选择概率最高的 “mouse”，使得 “mouse” 的概率为 1，而 “cheese” 为 0。

条件生成

通过指定一个前缀（prompt），模型可以在给定的上下文后生成接下来的文本（completion）。根据 ( T ) 的不同，这个生成过程可以有不同的随机性和多样性，从而生成不同的补全文本。当 ( T = 1 ) 时，生成的文本具有较高的多样性；而 ( T = 0 ) 时，则完全确定性地选择概率最高的续写。

这种基于温度调节的生成策略，允许调整模型生成文本的随机性和多样性，是现代语言模型特别是自回归模型在实际应用中的一种重要技术。

1.2总结

语言模型是序列 $x_{1:L}$ 的概率分布 p。
直观上，一个好的语言模型应具有语言能力和世界知识。
自回归语言模型允许有效地生成给定提示 $x_{1:i}$ 的补全 $x_{i+1:L}$ 。
温度可以用来控制生成中的变异量。

原文地址：https://blog.csdn.net/qq_36372352/article/details/140244588

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：[Python学习篇] Python类
下一篇：30、PHP 实现左旋转字符串、翻转单词顺序列

macOS开发环境配置与应用
在本文中，我们详细介绍了如何在macOS上配置一个强大的开发环境，并通过实际案例展示了如何创建和运行一个简单的Node.js Web应用。通过安装和使用各类工具，您能够实现高效的开发流程。
阅读更多2024-09-27
mac 上配置Jmeter代理进行web脚本录制过程&容易踩坑的点
jmeter启动代理服务器录制脚本、jmeter证书问题
阅读更多2024-09-27
电脑usb接口封禁如何实现？5种禁用USB接口的方法分享！(第一种你GET了吗？）
通过BIOS设置、设备管理器、注册表编辑器、专业的USB端口管理软件以及物理移除USB接口等方法，企业可以根据自身需求和实际情况，选择适合的方法来禁用USB接口。因此，对USB接口进行封闭管理，可以有
阅读更多2024-09-27
Hadoop FileSystem Shell 常用操作命令
HDFS 常用命令
阅读更多2024-09-27
java 解析excel （网络资源）
以下是一个简单的Java程序，用于读取Excel文件中的数据（参数类型为文件路径网络资源如：http://192.168.xx.xx:8080/upload/gjcTemporarySt
阅读更多2024-09-27
Fabric V2.5 通用溯源系统——使用Hyperledger Caliper压力测试
Caliper是一款测试区块链性能的工具，支持Hyperledger Fabric、Ethereum等，支持丰富的测试配置参数，测试完成后将直接输出报告，相较于tape更加专业，但是配置稍微有些复杂。
阅读更多2024-09-27
tauri中加载本地文件图片或者下载网络文件图片后存储到本地，然后通过前端页面展示
有一个需求是需要将本地上传的文件或者网络下载的文件存储到本地，并展示在前端页面上的。要想实现上述需求，需要三个步骤，配置相应的文件和文件夹访问权限，然后将文件存储到软件的相应目录中，再从目录中加载这个
阅读更多2024-09-27
CVE-2024-44902 Thinkphp反序列化漏洞
Thinkphp v6.1.3至v8.0.4版本中存在反序列化漏洞，攻击者可利用此漏洞执行任意代码。
阅读更多2024-09-27
SpringBoot 项目打成 jar 后加载外部的配置文件
其实配置项的动态刷新是通过不断的轮询Consul的HTTP API，检测相关的配置目录是否发生了变化来实现的，轮询的间隔时间可以通过spring.cloud.consul.config.watch.d
阅读更多2024-09-27
【Linux】部署 flask
这样的命令在ssh终端退出后，python进程也会被杀掉需要创建一个自定义的系统服务，来保证python程序能够在后台运行。1.创建系统服务内容如下：[Unit][Service][Install]E
阅读更多2024-09-27