帕金森病（PD）诊断：三种基于语音的深度学习方法

🕗 发布于 2024-07-27 10:27 深度学习 人工智能 机器学习 语言模型

帕金森病（Parkinson’s disease, PD）是世界上第二大流行的神经退行性疾病，全球影响着超过1000万人，仅次于阿尔茨海默症。人们通常在65岁左右被诊断出患有此病。PD的一些症状包括震颤、肌肉僵硬和运动迟缓。这些症状往往出现在较晚的阶段，使得仅基于这些症状的早期诊断变得困难。PD可以影响语音产生的各个方面，包括发音、声音的音调和响度、韵律以及声音的质量，导致语音障碍特征表现为声音嘶哑（dysphonia）和言语障碍（dysarthria）。声音嘶哑意味着产生声音的能力降低，而言语障碍指的是产生单词的困难。这些语音障碍可能在其他症状出现前长达五年就已发生，表明早期PD诊断实际上是可能的。

在前面已经有2篇文章针对帕金森病（PD）诊断进行了阐述，有兴趣的朋友可以直接翻阅以下链接：

首次使用回声状态网络 (ESN) 和语音特征进行帕金森病 (PD) 预测

PPINtonus （深度学习音调分析）帕金森病早期检测系统

本文研究分析了三种基于语音的深度学习方法（端到端学习 (E2E) 、迁移学习 (Transfer Learning, TL) 、深度声学特征 (Deep Acoustic Features, DAF)），讲述各学习方法的性能、挑战及应用情况。

1 端到端学习(E2E)

在E2E方法中，原始语音信号可以直接映射到最终输出，与传统的基于高斯混合模型（GMMs）和隐马尔可夫模型（HMMs）的语音识别流程不同。在传统方法中，必须提取手工设计的特征（如梅尔频率倒谱系数MFCCs），然后使用语言模型将这些特征映射到文本符号，最后进行分类。E2E方法避免了手动特征提取，允许模型学习从输入到输出的直接映射。

1.1 E2E 学习的优势

自动特征提取：E2E 学习可以自动从语音信号中提取具有区分性的特征，无需手动设计特征工程，节省了时间和精力。
减少错误累积：E2E 学习避免了手动特征提取过程中可能出现的错误，例如特征选择不当或特征提取方法不适用等，从而提高了分类的准确率。
模型优化：E2E 学习可以端到端地优化模型参数，使得模型能够更好地学习数据中的规律，并提高分类性能。

1.2 E2E 学习的挑战

数据需求量大：E2E 学习需要大量的训练数据来训练模型，而 PD 语音数据集相对较小，这限制了模型的训练效果和泛化能力。
模型复杂度高：E2E 模型通常比较复杂，需要大量的计算资源进行训练和推理，这增加了模型的部署难度。
可解释性差：E2E 模型的决策过程难以解释，难以理解模型是如何进行分类的，这限制了模型的实际应用。

1.3 E2E 学习在 PD 语音分类中的应用

CNN 架构：卷积神经网络 (CNN) 是 E2E 学习中最常用的模型架构之一，它可以有效地学习语音信号中的局部特征，例如声谱图中的频谱特征。
LSTM 架构：长短期记忆网络 (LSTM) 可以有效地学习语音信号中的长期依赖关系，例如音节的时序特征。
Transformer 架构：Transformer 架构在自然语言处理领域取得了突破性的成果，近年来也被应用于语音信号处理领域，并展现出强大的潜力。

2 迁移学习 (Transfer Learning, TL)

TL方法通过利用在一个大型数据库上预训练的深度神经网络（DNN），然后将这些网络应用到另一个通常数据量较小的任务上。这种方法可以解决数据可用性问题，因为它允许模型利用在源领域学到的知识来提高在目标领域的性能。特别是跨语言的TL方法，已被证明可以增强诊断系统的稳健性，并在不同语言之间提高适用性。

2.1 迁移学习的优势

解决数据稀缺问题:PD 语音数据集通常规模较小，难以训练大型深度学习模型。
TL 允许我们利用在其他大规模语音数据集（如 ImageNet）上预训练的模型，并将其迁移到 PD 语音数据集上进行微调。这样可以显著减少对大量标注数据的依赖，并提高模型的泛化能力。
跨语言应用:不同语言之间存在差异，例如发音、语调等。TL 可以帮助我们将在一个语言上训练好的模型迁移到另一个语言上，从而实现跨语言 PD 分类。
这对于开发通用的 PD 诊断系统具有重要意义，可以方便不同语言人群使用。
提高模型性能:通过迁移学习，模型可以学习到更通用的特征，从而提高在目标语言或任务上的性能。一些研究表明，使用 TL 的模型在 PD 分类任务中取得了比仅使用目标语言数据训练的模型更好的性能。

2.2 迁移学习的挑战

如何选择合适的基础模型和微调策略。
如何处理不同语言之间的差异。
如何评估 TL 模型的性能。

3 深度声学特征 (Deep Acoustic Features, DAF)

DAF方法旨在通过使用深度学习模型从音频信号中自动提取特征，来提高结果的可解释性和解释性。这些特征可以在深度学习模型的最后层中使用，也可以用作更传统机器学习方法的输入。尽管DAF方法可能在性能上不如E2E和TL方法，但它们通过检查深度特征对PD分类的影响，提供了对模型决策过程的更多洞察。

3.1 DAF 的提取方式

从端到端 (E2E) 模型中学习：将原始语音信号输入 E2E 模型，例如卷积神经网络 (CNN) 或 Transformer，模型会自动学习并提取特征，并在最终层进行分类。
使用预训练模型：使用已经在大规模数据集上预训练的模型，例如 Wav2Vec2.0、VGGish 或 SoundNet，生成 DAF。
使用自编码器：使用自编码器学习并提取音频信号的低维表示，作为 DAF。

3.2 DAF 的优势

无需手动特征工程： DAF 的提取过程完全自动化，无需手动设计特征，节省了时间和精力。
更鲁棒： DAF 能够更好地捕捉音频信号中的细微变化，对噪声和说话人差异更鲁棒。
更抽象： DAF 能够捕捉到更高层次的特征，例如说话人的语音风格、语调等，这些特征对 PD 诊断更有价值。

3.3 DAF 的挑战

解释性差：由于 DAF 是自动学习的，其背后的原理和特征含义难以解释，这限制了 DAF 在临床应用中的推广。
性能不如 E2E 和 TL：目前 DAF 的性能通常不如 E2E 和迁移学习 (TL) 方法，这可能是因为 DAF 缺乏对特定任务的针对性。

4 实际应用情况

E2E 学习： CNN 架构通常可以达到 90% 以上的准确率，Transformer 架构也展现出与 CNN 相当的性能。
TL： TL 方法通常可以达到 60% 到 90% 的准确率，跨语言 TL 可以进一步提高准确率。
DAF： DAF 方法可以达到 87% 以上的准确率，并且比传统特征（如 MFCC）表现更好。

5 数据集

数据集名称（年份）	来源 #参与者	语言	总语音时长	数据质量	语音任务	备注
Saarbruecken Voice Database (2006)	1002参与者	德语	±300分钟	麦克风录音	1. 正常、高和低音的元音(i, a, u)。2. 音高变化的元音(i, a, u)。3. "Guten Morgen, wie geht es Ihnen?"句子。	851名健康对照组（HC），平均年龄9-84岁。
PC-GITA (2014)	100	西班牙语	±900分钟	麦克风录音	1. 持续元音。2. 快速重复单词和音节(DDK)。3. 单词和句子的重复。4. 对话阅读。5. 强调特定单词的句子阅读。	50名PD患者，平均年龄33-77岁。
Parkinson Speech Dataset with Multiple Types of Recordings (2014)	68 (40训练，28测试)	土耳其语	未提供	麦克风录音	1. 持续元音(/a/, /o/, /u/)。2. 数字(1到10)。3. 单词。4. 短句。	20名PD患者，平均年龄43-79岁。
Italian Parkinson’s Voice and Speech (2017)	65	意大利语	±116分钟	麦克风录音	1. 阅读语音平衡文本。2. 发音/pa/和/ta/音节。3. 元音/a/, /e/, /i/, /o/和/u/的音调。4. 阅读语音平衡单词。5. 阅读语音平衡句子。	28名PD患者，平均年龄40-89岁。
Parkinson’s Disease Classification (2018)	252	土耳其语	未提供	麦克风录音	持续元音/a/。	188名PD患者，平均年龄33-87岁。
Synthetic Vowels of Speakers with Parkinson’s Disease and Parkinsonism (2019)	83	捷克语	±385分钟	麦克风录音	持续元音/a/和/i/。	22名PD患者，21名多系统萎缩(MSA)患者，18名进行性核上性麻痹(PSP)患者，22名健康对照组。
NeuroVoz (2024)	108	西班牙语	±106分钟	麦克风录音	1. 持续元音3秒。2. DDK 10秒。3. 听后重复的语句。4. 自由独白30秒。	53名PD患者，平均年龄71.13岁。55名健康对照组，平均年龄64.04岁。

原文地址：https://blog.csdn.net/robinfang2019/article/details/140726147

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【Vue】全局组件和局部组件
下一篇：MySQL库操作和表操作

linux线程cp模型，posix信号量，线程池，线程封装，单例模型，懒汉饿汉实现方式，自旋锁，读者写者模型
前面的同步，我们并没有一个很好的场景来模拟同步，只是简单的将有序的现象输出出来；现在我们来讲解一个比较合理且常见的模型——生产者消费者模型；
阅读更多2024-09-07
Qt/C++开源项目 TCP服务器调试助手（源码分享+发布链接下载）
该TCP服务器调试助手是用于测试和监控基于TCP协议的网络通信工具，能够帮助开发者便捷地进行网络通信调试。通过简洁的界面设计，用户可以轻松配置、管理TCP端口的连接，收发消息并进行数据监控分析。123
阅读更多2024-09-07
vue3整合antv x6实现图编辑器快速入门
例如：在上面节点基础上，我们有一个新的需求：给节点加上右键菜单。X6 支持使用 SVG、HTML 来渲染节点内容，在此基础上，我们还可以使用 React、Vue 组件来渲染节点，这样在开发过程中会非常
阅读更多2024-09-07
linux使用samba共享目录，其他虚拟机和windows都可以访问
linux使用samba共享目录，其他虚拟机和windows都可以访问
阅读更多2024-09-07
Linux系统编程实现ls -l | wc -l指令
由于该指令是通过管道的形式实现的，所以我们要使用系统函数pipe。ls -l |wc -l的作用就是统计当前目录有多少文件。由于父子间通过管道实现，所以存在读写阻塞问题，不用担心僵尸进程的产生，所以可
阅读更多2024-09-07
MySQL表操作及约束
MySQL表操作及约束
阅读更多2024-09-07
1.2CubeMAX创建FREERTOS入门示例
内核参数设置，用户根据自己的实际应用来裁剪定制。：相关宏的定义，可以自建一些常量在工程中使用。User Constants（用户常量）：定时器和信号量的创建。：用于查看堆使用情况。：任务与队列
阅读更多2024-09-07
YOLOv9改进策略【注意力机制篇】| PSA极化自我关注：实现高质量像素回归
本文记录的是基于PSA注意力模块的YOLOv9目标检测方法研究。PSA模块。本文将其应用到YOLOv9的检测任务中，使模型能够更好地捕捉图像中的细节信息，以实现目标检测任务中准确识别和定位。
阅读更多2024-09-07
爆改YOLOv8|利用yolov10的SCDown改进yolov8-下采样
yolov8改进，yolov10, 下采样SCDown, 即插即用
阅读更多2024-09-07
PDF样本图册转换为一个链接，随时打开无需印刷
想象一下，您手中有一本厚重的样本图册，里面包含了丰富多样的内容，如产品介绍、项目方案、学术论文等。在过去，您需要逐一翻阅、筛选，甚至为了便于查看，不得不将其印刷出来。如今，借助先进的数字化技术，还能实
阅读更多2024-09-07