基于长短时记忆神经网络的空气质量数据分析与预测的设计与实现

🕗 发布于 2024-12-08 13:37 神经网络 人工智能 深度学习 python 数据分析

研究内容

本文旨在研究和解决气象参数和气象aqi指数实时预测准确度较低和速度较慢的问题，并结合所有空气质量监测站点以及气象监测站点的实际情况，将长短时记忆神经网络应用于气象基本指数的预测中，为日后的政府决策和人类出行活动提供一定的参考依据，与气象数据参考平台（1）跟随研究方案使用python等编程语言完成实验的过程（2）使用echart.js对数据进行可视化（3）对气象维度像进行相关性分析。

采取的研究方法

（1）首先对数据进行清洗整理并且可视化，寻找气象参数和pm2.5和aqi方面的作用（2）采用无监督学习聚类算法对气象数据进行聚类分类型进行AQI和PM2.5预测分析（3）使用ARIMA，长短时记忆神经网络对SO2 NO2 NO NOX PM10 PM1 CO 浓度的总体变化规律和趋势进行分析（4）使用Pearson相关系数， Spearman相关系数，Kendall's tau-b等级相关对气象因素和pm2.5的浓度进行相关性分析

技术路线

（1）对市内SO2 NO2 NO NOX PM10 PM1 CO 浓度的总体变化规律和趋势进行分析，通过年、月、日等时间尺度找寻 PM2.5浓度和AQI指数的分布特征；

（2）将 PM2.5 浓度与气象因子（SO2 NO2 NO NOX PM10 PM1 CO）之间的相关性进行分析，包含温度、气压、湿度等气象参数，并结合兰州市具体地形和地理位置，分析风速及风向对 PM2.5 浓度扩散的影响；

（3）研究并分析预测站点与周围站点 PM2.5浓度和的时空关联性。如果两个空气质量监测站点距离很近，则假设这两个站点所处的大气环境大致类似，所以这两个站点 PM2.5 浓度变化规律也经常一致，因此研究并分析预测站点与该站点的周围站点 PM2.5 浓度变化的时空关联性，并将此时空关联性应用于预测模型当中，提高预测精度；

（4）消除或减少数据集类别不平衡对预测模型性能的影响。本文所使用实际气象数据和空气污染物数据，存在有显著的类别不平衡，对预测模型的性能有一定负面影响，本文从预测方法的层面出发，解决采样带来的缺陷，提高预测精度；

（5）使用无监督算法对空气质量数据集进行聚类，对不同的簇分别建立预测模型，使得模型对同一簇内的数据更有针对性，从而提高预测精度；

实现

pm_data['数据'].plot(figsize=(30,15))

# 设置坐标字体大小
plt.tick_params(labelsize=30)
# 生成刻度线网格
plt.grid()

堆积图

pm_data.plot.area(stacked=True)
pm_data.plot.area(stacked=False)

核密度估计图（KDE图）

pm_data['数据'].plot(kind='kde')

sns.heatmap(pm_data['2020'].resample('M').mean().T)

每个月pm2.5分布箱型图

months = pd.concat([DataFrame(x[1].values) for x in groups_month], axis=1)
months = DataFrame(months)
months.columns = range(1,13)
months.boxplot(figsize=(20,15))
plt.title('每个月pm2.5分布箱型图')

每个月pm2.5分布小提琴图

每个月pm2.5分布热力图

pm2.5分布滞后1期散点图

pm2.5分布滞后3期散点图

pm2.5分布自相关图

对特征进行独热编码

读热向量编码用来将定类数据表示为0-1的二进制，便于输入模型中。

比如，计算机并不认识颜色这一列的“红”、“黄”、“绿”三个分类，所以我们用“是不是红色”、“是不是黄色”、“是不是绿色”三列来分开表示“颜色”这一列特征。

# 使用pandas的get_dummies函数对df2的指定列进行独热向量编码操作 1 0 10 
dummy_df = pd.get_dummies(pm_data2, columns=columns_to_encoding)

线性回归算法

对于这个数据集温数据集，是典型的多元线性回归，有72个自变量，其中包含很多独热向量编码处理后的分类变量（是否周末、是否周六、是否月初，等等）。

从图中可以看出，拟合出的结果是一簇一簇的点，且每一年的同一段时间都是空的或者密集的，模型明显欠拟合了，究其原因，是因为我们输入的72个特征中包含了太多的独热向量编码，其中一些特征的系数较大，就会在每一年同一段时间，也就是某些特征相同的时候取得相同的值，因此就会产生一簇一簇的点。

多项式回归

三次多项式拟合的点与原始数据完全重合，出现了过拟合。在机器学习中，我们希望模型能大而化之的学习到数据的普遍一般规律，而不是对每一个点死记硬背。因此，在线性回归中，二次多项式回归是效果最好的。

随机森林算法

特征重要性分析

多层神经网络

神经网络对输入特征的幅度很敏感，我们首先需要将输入特征归一化。

原文地址：https://blog.csdn.net/weixin_49081159/article/details/144319020

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：视频质量评价算法 DOVER 介绍
下一篇：【北京迅为】iTOP-4412全能版使用手册-第三十三章网络通信-UDP套接字

.NET(C#) 如何配置用户首选项及保存用户设置
.NET(C#) 如何配置用户首选项及保存用户设置
阅读更多2024-12-14
【最新】北大数字普惠金融指数数据集-省市县（2011-2023年）
郭峰,王靖一,王芳,孔涛,张勋,程志云.测度中国数字普惠金融发展:指数编制与空间特征[J].经济学(季刊),2020,19(04):1401-1418.时间跨度：省级和城市级指数时间跨度为2011-2
阅读更多2024-12-14
GESP202412 四级【Recamán】题解（AC）
a11ak−1−kkakak−1−kak−1k小杨想知道 Recamán 数列的前n项从小到大排序后的结果。手动计算非常困难，小杨希望你能帮他解决这个问题。
阅读更多2024-12-14
IDEA遇到EasyConnect中的网络资源无法访问的问题
版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。原文链接：https://blog.csdn.net/wanshanyu_/article/de
阅读更多2024-12-14
双目摄像头标定方法
此时已经完成标定，左下角为反投影误差，右边为外参可视化。将双目左右目拍的图像上传（左右目最好不少于20张）此时回到主页面，即可看到成功导出。把这些误差大的删除即可。
阅读更多2024-12-14
Servlet、omcat服务器架构与工作原理
Servlet是运行在服务器端的Java程序，它的主要职责之一是接收并处理来自客户端（如浏览器）的HTTP请求。当客户端发送一个请求到服务器时，Servlet可以解析请求中的信息，例如请求的URL路径
阅读更多2024-12-14
Vue生命周期钩子函数：深入解析与实践
作为高级Vue前端开发人员，对Vue组件的生命周期钩子函数有着深刻的理解是至关重要的。生命周期钩子函数是指在Vue组件的创建、更新、销毁等过程中，Vue自动调用的一系列方法。通过这些钩子函数，我们可以
阅读更多2024-12-14
安卓开发--使用android studio发布APP
app发布
阅读更多2024-12-14
数据结构与算法学习笔记----拓扑排序
@ author: 明月清了个风。
阅读更多2024-12-14
python 将数据保存到现有的Excel文件的新工作表
out_file = ‘query.xlsx’df1 = pd.DataFrame(out_data)若直接写入：df1.to_excel(out_file, index=False, sheet_n
阅读更多2024-12-14