三种时间序列深度学习预测模型

🕗 发布于 2024-10-08 21:33 深度学习 人工智能 语言模型大模型时间序列

转自公众号：地学万事屋

在时间序列预测领域，模型的架构通常依赖于多层感知器（MLP）或Transformer架构。

总体而言，大概有三种时间序列的模型：

基于 MLP 的模型，如N-HiTS、TiDE和TSMixer，可以实现非常好的预测性能，同时保持快速训练。
基于Transformer的模型，如PatchTST和iTransformer也取得了良好的性能，但内存消耗更大，需要更多的时间来训练。
基于CNN的模型，CNN 已应用于计算机视觉，但其在预测方面的应用仍然很少，只有TimesNet和BiTCN是最新的例子。

本文提供一个三种模型的对比代码。

首先简短介绍下这些模型：

N-HiTS

（2023 AAAI）N-HiTS: Neural Hierarchical Interpolation for Time Series Forecasting

这是基于MLP的模型

随着预测长度（Horizon）的增加，NBEATS的速度变慢、参数量变多，而本文提出的N-HiTs则缓解了这两个问题。随着预测长度（Horizon）的增加，NBEATS的误差变大，这也很好理解，要预测很远的未来的话肯定更难预测，但本文提出的N-HiTs则缓解了这个问题。论文用分层次采样预测后插值的思想，用来缓解上述问题。

N-HiTS基于MLP的模型

PatchTST

（2023 ICLR） Time Series is Worth 64 Words: Long-term Forecasting with Transformers

这是基于Transformer的时间序列模型

本文的核心思想就是 Patching，这和 Preformer 中的核心思想很相似。分 patch 的结构如下图所示。对于一个单变量序列，将其划分 patch，每个 patch 的长度为。

然后将每个 patch 视为一个 token，进行 embedding 以及加上位置编码，即可直接输入到普通的 Transformer 中。最后将向量展平之后输入到一个预测头（Linear Head），得到预测的单变量输出序列。

PatchTST基于Transformer

BiTCN

（2023 IJF）Parameter-efficient deep probabilistic forecasting

这是一种基于CNN的时间序列预测模型

BiTCN的架构由许多时间块组成，其中每个块由以下部分组成：

扩张卷积
GELU 激活函数
退出步骤
全连接层

时间块的一般架构如下所示。

BiTCN总体架构

在上图中，我们可以看到每个时间块都会生成一个输出O。最终的预测是通过将堆叠在N层中的每个块的所有输出相加而获得的。

扩张卷积概念图如下，有助于扩大感受野。

扩张卷积概念

然后，输出是来自滞后值和协变量的信息的组合，如下所示。

时间序列预测特征

蓝点代表输入序列，黄点代表输出序列，红点代表未来的协变量。我们可以看到带有扩张卷积的前瞻性时间块如何通过处理来自未来协变量的信息来帮助通知输出。

让我们来看看三种模型的表现：

代码

加载数据和预处理，一个无规律的时间序列数据

df = pd.read_csv('data/medium_views_published_holidays.csv')
df['ds'] = pd.to_datetime(df['ds'])

import os
os.environ["KMP_DUPLICATE_LIB_OK"]="TRUE"

published_dates = df[df['published'] == 1]
holidays = df[df['is_holiday'] == 1]

fig, ax = plt.subplots(figsize=(12,8))

ax.plot(df['ds'], df['y'])
ax.scatter(published_dates['ds'], published_dates['y'], marker='o', color='red', label='New article')
ax.scatter(holidays['ds'], holidays['y'], marker='x', color='green', label='US holiday')
ax.set_xlabel('Day')
ax.set_ylabel('Total views')
ax.legend(loc='best')

fig.autofmt_xdate()

plt.tight_layout()

image-20240503231815396

加载模型：

horizon = len(test)

models = [
    NHITS(
        h=horizon,
        input_size = 5*horizon,
        futr_exog_list=['published', 'is_holiday'],
        hist_exog_list=['published', 'is_holiday'],
        scaler_type='robust'),
    BiTCN(
        h=horizon,
        input_size=5*horizon,
        futr_exog_list=['published', 'is_holiday'],
        hist_exog_list=['published', 'is_holiday'],
        scaler_type='robust'),
    PatchTST(
        h=horizon,
        input_size=2*horizon,
        encoder_layers=3,
        hidden_size=128,
        linear_hidden_size=128,
        patch_len=4,
        stride=1,
        revin=True,
        max_steps=1000
    )
]

训练模型

nf = NeuralForecast(models=models, freq='D')
nf.fit(df=train)

查看模型的效果：

plt.plot(test_df['ds'], test_df['y'], label='ground truth')
plt.plot(test_df['ds'], test_df['NHITS'], label='NHITS')
plt.plot(test_df['ds'], test_df['BiTCN'], label='BiTCN')
plt.plot(test_df['ds'], test_df['PatchTST'], label='PatchTST')
plt.legend()

三种模型的测试结果

在上图中，我们可以看到所有模型似乎都在全局上高估了实际流量。实际上，Transformer模型并没有想象中的那么好，最好的似乎是CNN模型和MLP模型。。。

然后，我们测量平均绝对误差 (MAE) 和对称平均绝对百分比误差 (sMAPE)，以找到性能最佳的模型。

from utilsforecast.losses import mae, smape
from utilsforecast.evaluation import evaluate

evaluation = evaluate(
    test_df,
    metrics=[mae, smape],
    models=["NHITS", "BiTCN", "PatchTST"],
    target_col="y",
)

evaluation = evaluation.drop(['unique_id'], axis=1)
evaluation = evaluation.set_index('metric')

evaluation.style.highlight_min(color='blue', axis=1)

BiTCN竟然是SOTA!

最好的模型是BiTCN，一种基于CNN的模型，其次是NHITS，基于MLP的模型，最后是Transformer模型。

这其实也符合我们的认知，毕竟，Transformer在时间序列上，还不一定有想象的那么好！

延伸阅读~

1 用LSTM对降雨时间序列进行预测分析【代码分享，保姆级教程！】

2 从零搭建深度学习环境Tensorflow+PyTorch（附深度学习入门三大名著）

3 我把数据科学/深度学习资源做了个汇总...（PDF电子书+网课）

4 Transformer vs LSTM 股票时间序列预测（附代码）

5 一文详解Transformer注意力机制，华为盘古大模型Nature正刊方法！

戳我加群学习更多代码（私信小编添加微信群）

地学实践讨论群开放啦！更多数据代码分享，点我进群~

优质实惠的GPT4（师姐AI实习搞的，保障质量）

优质实惠，售后保障的GPT4账号推荐

原文地址：https://blog.csdn.net/weixin_44292902/article/details/142757511

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：全球司库｜基于金融化资源配置的运营类应用
下一篇：Vue3中提到的Tree-shaking

Linux驱动开发(速记版)--单总线
讯为 RK3568
阅读更多2024-10-10
仅将 APO 用作采集存储展示 Trace 数据工具
●APO-one-agent 默认开启并支持全量采集多种类型的可观测数据，包括 Trace、Metrics 和 Logs。用户可根据自身需求，灵活配置 APO-one-agent 的数据采集范围，以适
阅读更多2024-10-10
CSS实现文本超出隐藏并显示省略号
通过结合使用和这三个CSS属性，我们可以轻松地在CSS中实现文本超出隐藏并显示省略号的效果。这一技巧在处理长文本、保持页面整洁和美观方面非常有用。希望本文的介绍和示例能帮助你更好地理解和应用这一技术。
阅读更多2024-10-10
CSS响应式布局
CSS 响应式布局也称自适应布局，是 Ethan Marcotte 在 2010 年 5月份提出的一个概念，简单来讲就是一个网站能够兼容多个不同的终端（设备），而不是为每个终端做一个特定的版本。这个概
阅读更多2024-10-10
非结构化数据管理中的元数据应用与实践
元数据即“数据的数据”，能够为数据提供结构化的信息描述，使得非结构化数据在管理中变得更加有序和高效。通过对元数据的追踪，系统可以自动管理数据的生命周期，例如当数据超过特定的使用期限后，自动触发归档或删
阅读更多2024-10-10
Windows 搭建 Gitea
1. 安装 Git：Gitea 依赖 Git 进行代码管理，所以首先需要确保系统中安装了 Git。2. 安装数据库（可选）默认情况下，Gitea 使用 SQLite 作为内置的轻量级数据库，但如果需要
阅读更多2024-10-10
ElasticSearch搜索引擎
Kibana可以将ElasticSearch的数据通过友好的页面展示出来。随着数据量的增加，solr的搜索效率会变得更低，而ES却没有明显的变化。当建立索引时，solr会产生io阻塞，查询性能较差，E
阅读更多2024-10-10
【数据结构与算法初阶】前言介绍
数据结构是计算机存储，组织数据的方式，指相互存在一种或者多种特殊关系的数据元素的集合。算法就是定义良好的计算过程，他取一个或一组的值为输入，并产生出一个或一组值作为。在大厂和校园招聘中笔试和面试都占比
阅读更多2024-10-10
基于STM32的简易交通灯proteus仿真设计(仿真+程序+设计报告+讲解视频）
基于STM32的简易交通灯proteus仿真设计(仿真+程序+设计报告+讲解视频）仿真图proteus 8.9程序编译器：keil 5编程语言：C语言设计编号：C0091。
阅读更多2024-10-10
Java_Se 容器2（Set 接口）
HashSet是一个不保证元素的顺序且没有重复元素的集合，是线程不安全的。元素在数组中存放时，并不是有序存放的也不是随机存放的，而是对元素的哈希值进行运算决定元素在数组中的位置。通过比较器定义比较规则
阅读更多2024-10-10

三种时间序列深度学习预测模型

N-HiTS

PatchTST

BiTCN

代码

相关文章