MATLAB用CNN-LSTM神经网络的语音情感分类深度学习研究

🕗 发布于 2024-11-15 10:23 神经网络 深度学习 matlab cnn lstm

全文链接：https://tecdat.cn/?p=38258

在语音处理领域，对语音情感的分类是一个重要的研究方向。本文将介绍如何通过结合二维卷积神经网络（2 - D CNN）和长短期记忆网络（LSTM）构建一个用于语音分类任务的网络，特别是针对语音情感识别这一应用场景。文中将展示相关代码和实验结果，包括数据处理、模型架构定义、训练以及测试等环节，并对重要步骤和结果进行详细阐述和分析（点击文末“阅读原文”获取完整代码数据）。

方法

（一）数据准备

数据下载
本文使用柏林情感语音数据库（Emo - DB）来训练模型。这个数据集包含了由10个演员说出的535个语句，这些语句被标记为愤怒、无聊、厌恶、焦虑/恐惧、快乐、悲伤或中性这七种情感之一。
提取情感标签
文件名编码了说话者ID、所说文本、情感和版本信息。情感标签的编码如下：“W—愤怒”、“L—无聊”、“E—厌恶”、“A—焦虑/恐惧”、“F—快乐”、“T—悲伤”、“N—中性”。

filepaths = ads.Files;
\[~,filenames\] = fileparts(filepaths);
emotionLabels = extractBetween(filenames,6,6);

这段代码首先获取audioDatastore对象中所有音频文件的路径，然后提取文件名，并从文件名的第六个字符获取情感标签。

标签转换
将单字母代码形式的标签替换为描述性标签，并将标签转换为分类数组。
设置标签属性并查看分布

首先将提取并转换后的情感标签设置为audioDatastore对象的Labels属性。然后，通过绘制直方图来查看不同情感类别的数据分布情况。

读取样本、查看波形和试听

\[audio,info\] = read(ads);
fs = info.SampleRate;
sound(audio,fs)

上述代码从数据存储中读取一个音频样本，获取其采样率，播放该音频。同时，绘制音频的波形图，标题显示其情感类别

数据划分与增强
将数据划分为训练集、验证集和测试集，其中训练集占70%，验证集和测试集各占15%。

\[adsTrain,adsValidation,adsTest\] = splitEachLabel(ads,0.70,0.15,0.15);

为了提高模型的拟合能力，在训练数据有限的情况下，可以通过数据增强的方式增加训练数据量。创建一个audioDataAugmenter对象，指定每个文件的增强次数、音高偏移概率、时间偏移概率和范围、添加噪声概率和信噪比范围等参数。

创建一个新文件夹来存储增强后的数据，然后通过循环遍历数据存储和使用音频数据增强器来增强训练数据。对于每个增强样本，进行归一化处理，并将其保存为WAV文件。

最后，创建增强数据的音频数据存储对象，并将其标签设置为原始训练数据标签的重复元素。

augadsTrain = audioDatastore(agumentedDataFolder);
augadsTrain.Labels = repelem(adsTrain.Labels,augmenter.NumAugmentations,1);

特征提取
使用audioFeatureExtractor对象从音频数据中提取特征，指定窗口长度、跳跃长度、窗口类型和要提取的频谱类型等参数。

设置特征提取器的参数，包括梅尔频带数量和是否禁用窗口归一化。

使用preprocessAudioData函数从训练集、验证集和测试集中提取特征和标签。

绘制一些训练样本的波形和听觉频谱图，如下代码所示：

numPlots = 3;
idx = randperm(numel(augadsTrain.Files),numPlots);
f = figure;
f.Position(3) = 2*f.Position(3);

tiledlayout(2,numPlots,TileIndexing = "columnmajor")

结果如训练样本的波形和频谱图所示。同时查看前几个观测值的大小，以确保网络能够支持训练数据，并计算输入层最短序列的长度。

点击标题查阅往期内容

Python用CEEMDAN-LSTM-VMD金融股价数据预测及SVR、AR、HAR对比可视化

左右滑动查看更多

（二）模型架构定义

定义二维CNN - LSTM网络，用于预测序列的类别标签，网络结构如下所示：

对于序列输入，指定一个序列输入层，其输入大小与输入数据匹配，并设置MinLength选项为训练数据中最短序列的长度。使用二维CNN架构来学习一维图像序列中的空间关系，包括四个重复的卷积、批量归一化、ReLU和最大池化层块，并逐渐增加第三和第四卷积层的滤波器数量。通过包含一个具有256个隐藏单元的LSTM层来学习一维图像序列中的长期依赖关系，并将OutputMode选项设置为"last"，仅输出最后一个时间步。对于分类任务，包含一个全连接层和一个softmax层，最后添加一个分类层。

（三）训练选项指定

使用trainingOptions函数指定训练选项，包括使用Adam优化器、小批量大小、训练轮数、初始学习率、学习率调整策略、L2正则化项、序列填充方向、是否打乱数据、验证频率、是否显示训练进度以及是否在GPU上训练等参数，代码如下：

miniBatchSize = 32;

options = trainingOptions("adam",...
    MaxEpochs = 3,...
    MiniBatchSize = miniBatchSize,...

模型训练与测试

（一）训练网络

使用trainNetwork函数训练网络，如果没有GPU，训练可能会花费较长时间

（二）测试网络

使用训练好的网络对测试数据进行分类，并通过比较预测结果和真实标签来评估模型的分类准确率。首先，对测试数据进行分类。

然后，通过绘制混淆矩阵来可视化预测结果，代码如下：

figure
confusionchart(labelsTest,labelsPred)

结果如混淆矩阵图所示。最后，通过计算预测结果和测试标签相同的比例来评估分类准确率，本次实验得到的准确率为0.6329。

结论

本文详细介绍了基于二维CNN - LSTM网络的语音情感分类模型的构建、训练和测试过程。通过对柏林情感语音数据库的实验，展示了模型在语音情感分类任务上的性能。虽然取得了一定的准确率，但仍有改进的空间，例如进一步优化数据增强策略、调整模型架构或训练参数等，未来的研究可以在此基础上继续深入。同时，本文中的方法和代码也可以为相关领域的研究人员提供参考和借鉴。

参考文献

[1] Burkhardt, Felix, A. Paeschke, M. Rolfes, Walter F. Sendlmeier, and Benjamin Weiss. “A Database of German Emotional Speech.” In Interspeech 2005, 1517–20. ISCA, 2005. https://doi.org/10.21437/Interspeech.2005 - 446.

[2] Zhao, Jianfeng, Xia Mao, and Lijiang Chen. “Speech Emotion Recognition Using Deep 1D & 2D CNN LSTM Networks.” Biomedical Signal Processing and Control 47 (January 2019): 312–23. https://doi.org/10.1016/j.bspc.2018.08.035.

本文中分析的数据、代码分享到会员群，扫描下面二维码即可加群！

资料获取

在公众号后台回复“领资料”，可免费获取数据分析、机器学习、深度学习等学习资料。

点击文末“阅读原文”

获取全文完整代码数据资料。

本文选自《MATLAB用CNN-LSTM神经网络的语音情感分类深度学习研究》。

点击标题查阅往期内容

Python用CEEMDAN-LSTM-VMD金融股价数据预测及SVR、AR、HAR对比可视化

Python注意力机制Attention下CNN-LSTM-ARIMA混合模型预测中国银行股票价格|附数据代码

R语言KERAS用RNN、双向RNNS递归神经网络、LSTM分析预测温度时间序列、 IMDB电影评分情感

Python用CNN-LSTM、ARIMA、Prophet股票价格预测的研究与分析|附数据代码

【视频讲解】线性时间序列原理及混合ARIMA-LSTM神经网络模型预测股票收盘价研究实例

RNN循环神经网络、LSTM长短期记忆网络实现时间序列长期利率预测

结合新冠疫情COVID-19股票价格预测：ARIMA，KNN和神经网络时间序列分析

深度学习：Keras使用神经网络进行简单文本分类分析新闻组数据

用PyTorch机器学习神经网络分类预测银行客户流失模型

PYTHON用LSTM长短期记忆神经网络的参数优化方法预测时间序列洗发水销售数据

Python用Keras神经网络序列模型回归拟合预测、准确度检查和结果可视化

R语言深度学习卷积神经网络 (CNN)对 CIFAR 图像进行分类：训练与结果评估可视化

深度学习：Keras使用神经网络进行简单文本分类分析新闻组数据

Python用LSTM长短期记忆神经网络对不稳定降雨量时间序列进行预测分析

R语言深度学习Keras循环神经网络(RNN)模型预测多输出变量时间序列

R语言KERAS用RNN、双向RNNS递归神经网络、LSTM分析预测温度时间序列、 IMDB电影评分情感

Python用Keras神经网络序列模型回归拟合预测、准确度检查和结果可视化

Python用LSTM长短期记忆神经网络对不稳定降雨量时间序列进行预测分析

R语言中的神经网络预测时间序列：多层感知器（MLP）和极限学习机（ELM）数据分析报告

R语言深度学习：用keras神经网络回归模型预测时间序列数据

Matlab用深度学习长短期记忆（LSTM）神经网络对文本数据进行分类

R语言KERAS深度学习CNN卷积神经网络分类识别手写数字图像数据（MNIST）

MATLAB中用BP神经网络预测人体脂肪百分比数据

Python中用PyTorch机器学习神经网络分类预测银行客户流失模型

R语言实现CNN（卷积神经网络）模型进行回归数据分析

SAS使用鸢尾花(iris)数据集训练人工神经网络(ANN)模型

【视频】R语言实现CNN（卷积神经网络）模型进行回归数据分析

Python使用神经网络进行简单文本分类

R语言用神经网络改进Nelson-Siegel模型拟合收益率曲线分析

R语言基于递归神经网络RNN的温度时间序列预测

R语言神经网络模型预测车辆数量时间序列

R语言中的BP神经网络模型分析学生成绩

matlab使用长短期记忆（LSTM）神经网络对序列数据进行分类

R语言实现拟合神经网络预测和结果可视化

用R语言实现神经网络预测股票实例

使用PYTHON中KERAS的LSTM递归神经网络进行时间序列预测

python用于NLP的seq2seq模型实例:用Keras实现神经网络机器翻译

用于NLP的Python：使用Keras的多标签文本LSTM神经网络分类

原文地址：https://blog.csdn.net/tecdat/article/details/143756259

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Go语言实现将中文转化为拼音
下一篇：一文窥见神经网络

ubuntu设置自启动
3. 在 /etc/systemd/system/multi-user.target.wants 目录下创建 A.service 的软连接。1. 把要启动的程序或者脚本(比如A.sh、A1)放在 /u
阅读更多2024-11-17
Ubuntu从入门到精通（一）系统安装
本文《Ubuntu从入门到精通（一）》主要介绍Ubuntu系统的安装相关知识。首先，用户需根据需求选择合适的Ubuntu镜像版本。接着，详细阐述了如何下载并安装系统镜像以及必要的恢复工具，确保安装过程
阅读更多2024-11-17
前端开发迈向全栈之路：规划与技能
此外，前端开发还需与后端开发人员合作，通过 API 接口与后端服务器进行数据交互，并关注用户体验设计，优化页面加载速度，确保在不同设备和浏览器上的兼容性。同时，随着云计算和容器化技术的普及，全栈开发人
阅读更多2024-11-17
【机器学习】数学知识：欧式距离（Euclidean Distance）和曼哈顿距离（Manhattan Distance）
欧式距离和曼哈顿距离是两种常用的距离度量方法，用于衡量两点之间的相似性或差异性。它们在几何分析、数据挖掘、机器学习等领域有广泛应用。欧式距离（Euclidean Distance）是最常见的直线距离度
阅读更多2024-11-17
Python sys模块介绍
无论是处理命令行参数、管理输入输出流、添加模块搜索路径，还是获取系统信息和退出程序，sys模块都为我们提供了强大的工具。在Python中， sys模块是一个非常重要的内置模块，它提供了一系列与Pyth
阅读更多2024-11-17
unity3d————Resources同步加载
Resources动态加载资源的方法提高了资源的拓展性和灵活性。相对于拖曳操作，更加一劳永逸、方便快捷。重要知识点熟记和等API的使用方法。注意不同资源类型的加载方式和使用方式。预设体加载后需要实例化
阅读更多2024-11-17
Spring Boot应用中的文件压缩与解压技术实践
在选择压缩算法时，了解各种算法的特点和适用场景至关重要。Gzip：一种广泛使用的无损压缩算法，特别适用于网络传输，因为它能有效减小文件大小，同时保持较高的压缩速度和解压速度。Zip：另一种流行的无损压
阅读更多2024-11-17
【数据结构】快速排序——非递归实现快速排序
内存中分了几个区用于存储数据栈区比较小，堆区比较大我们在递归时是在栈区开辟空间所以当递归深度过深时会有栈溢出的风险有时在某些特定情况下我们担心会栈溢出所以采用非递归的方式就是我们自己来模拟函数在栈上递
阅读更多2024-11-17
JavaSE常用API-日期（计算两个日期时间差-高考倒计时）
JavaSE常用API，LocalDate、LocalTime/LocalDateTime/DateFormatter/Date/SimpleDateformat/Calendar
阅读更多2024-11-17
spring boot 常用参数总结
这些参数直接传递给 JVM，用于控制内存、垃圾回收等。-Xms<size>-Xmx<size>：设置JVM初始堆内存大小。例如，-Xms512m表示初始堆内存为512MB。：设
阅读更多2024-11-17