自监督学习在言语障碍及老年语音识别中的应用

🕗 发布于 2024-07-23 15:37 学习语音识别 人工智能 语言模型 机器学习

近几十年来针对正常言语的自动语音识别（ASR）技术取得了快速进展，但准确识别言语障碍（dysarthric）和老年言语仍然是一项极具挑战性的任务。言语障碍是一种由多种运动控制疾病引起的常见言语障碍类型，包括脑瘫、肌萎缩侧索硬化、中风和脑损伤。此外，诸如阿尔茨海默病（Alzheimer's disease, AD）之类的神经认知障碍也常常出现在有言语和语言障碍的老年人中。

针对言语障碍和老年用户需求定制的ASR技术不仅可以改善他们的生活质量，还可以实现大规模的神经认知障碍（例如AD）的自动早期诊断。

本文通过探索一系列技术，将最新的单语言和多语言SSL预训练语音基础模型及其特征整合到混合TDNN和Conformer ASR系统中，以提高对言语障碍和老年语音的识别能力。这些技术旨在利用这些模型的多样性和互补性，提高对未见和覆盖不足单词的泛化性能，以及对非常低可懂度的最具挑战性的言语障碍语音数据的性能。

1 相关背景

1.1 失语症和老年语音识别的挑战

与正常语音的差异性: 失语症和老年语音由于运动控制和衰老的原因，与正常语音存在较大差异，例如发音不精确、语音量和清晰度下降、流利度增加等。
数据稀缺: 由于难以从有身体残疾和行动不便的说话者中收集数据，导致失语症和老年语音数据稀缺。
说话者多样性: 失语症和老年说话者之间存在着巨大的差异，这使得 ASR 系统难以泛化到不同的说话者。

1.2 基于传统 ASR 技术的解决方案

数据增强: 为了解决数据稀缺问题，研究人员开发了一系列数据增强技术，例如速度扰动和时间扰动等。
领域自适应: 研究人员还研究了如何将通用的 ASR 系统进行领域自适应，以更好地处理失语症和老年语音。
说话者自适应: 为了解决说话者多样性问题，研究人员研究了各种说话者自适应技术，例如直接参数微调和基于 LHUC 的说话者自适应等。
多模态融合: 研究人员还探索了将视觉和语音运动特征等融入 ASR 系统的方法。

2 SSL模型在ASR中应用

自监督学习是一种无监督学习方法，它尝试从未标记的数据中学习表示，通过预测数据本身的某些属性或结构来作为监督信号。在语音识别的上下文中，SSL模型试图从原始语音信号中学习有用的特征表示，而不依赖于人工标注的转录文本。

2.1 SSL 预训练模型的选择

Wav2vec2.0: 一种基于对比学习的 SSL 预训练模型，可以学习语音表示和离散语音单元。
HuBERT: 一种基于聚类和预测的 SSL 预训练模型，可以学习语音表示和离散语音单元。
WavLM: 与 HuBERT 类似，但使用了门控相对位置偏置和混合语音输入。
Data2vec: 与 Wav2vec2.0 类似，但学习预测完整输入音频序列的潜在语音表示。
XLSR: 一种多语 SSL 预训练模型，可以学习跨语言的语音表示。

2.2 基于自监督学习 (SSL) 的 ASR 技术的优势

自监督学习: SSL 技术可以训练出强大的语音表示，并且对领域不匹配具有鲁棒性。
数据利用: SSL 模型可以有效地利用大量的未标记数据，这有助于解决数据稀缺问题。
泛化能力: SSL 模型在处理未见过的或覆盖不足的词汇时具有更好的泛化能力。

3 ASR系统构建和组合

本文将自监督学习 (SSL) 预训练的语音模型及其特征与传统的 ASR 系统进行组合和构建的方法，以应对失语症和老年语音识别的挑战。

3.1 ASR 系统组合

帧级联合解码: 将使用不同特征训练的 TDNN 系统进行帧级联合解码，将每个系统的输出概率进行加权平均，以提高模型的鲁棒性。例如，可以将仅使用标准语音特征的 TDNN 系统与使用 SSL 特征的 TDNN 系统进行联合解码，利用两者在特征表示方面的互补性。
跨系统多遍解码: 使用域内微调的 SSL 模型对 TDNN 或 Conformer 系统的 N-best 输出进行重新评分，进一步提高模型的准确率。例如，可以将 TDNN 系统的 N-best 输出使用域内微调的 HuBERT 模型进行重新评分，利用 HuBERT 模型在语言建模方面的优势。

3.2 ASR 系统构建

微调后的Wav2vec2.0/HuBERT模型及其特征整合到TDNN/Conformer ASR系统

3.2.1 TDNN 系统

使用 TDNN 架构构建 ASR 系统，该架构由多个时间延迟层组成，可以有效地处理长时程依赖关系。
使用 LHUC 技术进行说话者自适应，根据不同说话者的特征进行参数调整，以提高模型的泛化能力。
使用标准语音特征（例如滤波器组）作为输入，并使用外部语言模型进行解码。

3.2.2 Conformer 系统

使用 Conformer 架构构建 ASR 系统，该架构结合了卷积神经网络和 Transformer 模型，可以有效地提取语音特征并进行序列建模。
使用标准语音特征（例如梅尔频率倒谱系数）作为输入，并使用外部语言模型进行解码。

3.2.3 多模态融合

将 SSL 特征与 A2A 反转生成的语音运动特征进行融合，以构建多模态 ASR 系统。例如，可以使用 HuBERT 模型生成的语音表示作为 A2A 反转的输入，生成更通用的语音运动特征，并将其与标准语音特征进行融合。

4 实验

4.1 实验设置

4.1.1 数据集

UASpeech 数据集: 是一个公开可用的失语症语音数据集，包含 29 名说话者的 148,912 个句子，词汇量为 455 个。数据集被分为三个块，每个块包含一组常见的单词和一组不常见的单词。
TORGO 数据集: 是另一个公开可用的失语症语音数据集，包含 8 名失语症说话者和 7 名健康说话者的 13.5 小时语音数据。
DementiaBank Pitt 数据集: 是一个公开可用的老年语音数据集，包含 292 名老年参与者与临床调查员之间的 33 小时语音数据。数据集被分为训练集、开发集和评估集。
JCCOCC MoCA 数据集: 是一个公开可用的老年语音数据集，包含 256 名老年参与者与临床调查员之间的 32.4 小时语音数据。数据集被分为训练集、开发集和评估集。

4.1.2 基线模型

TDNN 系统: 使用 Kaldi 工具箱进行训练，包含 7 个上下文切片层，使用 40 维 Mel 频率倒谱系数作为输入，并使用外部语言模型进行解码。
Conformer 系统: 使用 ESPNet 工具箱进行训练，包含 12 个 Transformer 块，使用 40 维 Mel 频率倒谱系数作为输入，并使用外部语言模型进行解码。

4.1.3 SSL 模型微调

单阶段微调: 仅使用域外正常语音数据或域内失语症或老年语音数据对 SSL 模型进行微调。
双阶段微调: 首先使用域外正常语音数据对 SSL 模型进行微调，然后使用域内失语症或老年语音数据再次微调。
多任务学习: 将 CTC 损失和注意力损失结合起来进行微调，以提高模型性能。

4.1.4 特征融合

瓶颈模块: 将 SSL 模型的输出通过瓶颈模块进行压缩，以生成更紧凑的语音表示。
特征融合: 将 SSL 特征与标准语音特征（例如滤波器组）进行融合，以利用两者的优势。

4.1.5 A2A 反转

使用基于 MDN 的 A2A 反转模型，将 SSL 特征转换为语音运动特征。

4.2 评估指标

4.2.1 词错误率 (Word Error Rate, WER)

WER 是衡量 ASR 系统识别准确率的指标。
WER 越低，说明 ASR 系统的识别准确率越高。

4.2.2 字符错误率 (Character Error Rate, CER)

CER 是衡量 ASR 系统识别准确率的另一个指标。
CER 越低，说明 ASR 系统的识别准确率越高。

4.2.3 隐蔽语言模型 (Masked Language Model, MLM)

MLM 是一种评估语言模型性能的指标。
MLM 越高，说明语言模型的预测能力越强。

4.2.4 下一句预测 (Next Sentence Prediction, NSP)

NSP 是一种评估语言模型理解能力的指标。
NSP 越高，说明语言模型对句子之间关系的理解能力越强。

4.2.5 AD 诊断准确率

使用 BERT 或 Roberta 模型进行 AD 诊断，评估 ASR 系统对 AD 诊断的支持。
准确率 (Accuracy)、灵敏度 (Sensitivity) 和特异性 (Specificity)。

4.3 实验结论

4.3.1 失语症语音识别

4.3.1.1 UASpeech 数据集

基于域内微调的 HuBERT 模型，使用输入特征融合、帧级联合解码和多遍解码的方法，取得了 20.56% 的 WER，优于其他基线系统，包括单独微调的 HuBERT 模型和 Conformer 系统。
将 HuBERT 特征与 A2A 反转生成的语音运动特征进行融合，进一步提高性能。

4.3.1.2 TORGO 数据集

与 UASpeech 数据集的结果类似，域内微调的 HuBERT 模型结合了多种技术，取得了 18.07% 的 WER，优于其他基线系统。
将 HuBERT 特征与 A2A 反转生成的语音运动特征进行融合，进一步提高性能。

4.3.2 老年语音识别

4.3.2.1 DementiaBank Pitt 数据集

基于域内微调的 wav2vec2-conformer 模型，使用输入特征融合、帧级联合解码和多遍解码的方法，取得了 18.07% 的 WER，优于其他基线系统，包括单独微调的 wav2vec2-conformer 模型和 Conformer 系统。
将 wav2vec2-conformer 特征与 A2A 反转生成的语音运动特征进行融合，进一步提高性能。

4.3.2.2 JCCOCC MoCA 数据集

基于域内微调的 XLSR-128 模型，使用输入特征融合、帧级联合解码和多遍解码的方法，取得了 7.97% 的 CER，优于其他基线系统，包括单独微调的 XLSR-128 模型和 Conformer 系统。
将 XLSR-128 特征与 A2A 反转生成的语音运动特征进行融合，进一步提高性能。

4.3.3 AD 诊断

使用 ASR 系统输出的语音转录，提取文本特征，并使用 BERT 或 Roberta 模型进行 AD 诊断。
基于 TDNN 系统的 ASR 模型，包括域内微调的 wav2vec2-conformer 或 XLSR-128 模型，取得了 83.94% 的 AD 诊断准确率，优于其他基线系统。

主要内容参考：Shujie.H et al., "Self-supervised ASR Models and Features For Dysarthric and Elderly Speech Recognition"

原文地址：https://blog.csdn.net/robinfang2019/article/details/140610604

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：MySQL-----索引
下一篇：每天一个数据分析题（四百四十一）- 数据标签化

Linux系统下svn新建目录
Linux安装svn自行查找。
阅读更多2024-11-14
Scala的不可变Map常用操作
/3.1 get方法：输入key，如果找到，就返回包装数据，如果没有找到，就返回None。val map1 = Map("鄂"->"湖北省","
阅读更多2024-11-14
mqtt学习笔记（一）
mqtt相关笔记（一）之mqtt初探，以提出、解决问题的方式来逐步学习
阅读更多2024-11-14
Ken和Bwk趣说UNIX
[肯汤普森和布莱恩(AWK作者之一)趣说UNIX](https://www.bilibili.com/video/BV1nP411t7gt/ “肯汤普森和布莱恩(AWK作者之一 “肯汤普森和布莱恩(A
阅读更多2024-11-14
【CentOS】中的Firewalld：全面介绍与实战应用（上）
本文深入探讨了CentOS操作系统中Firewalld防火墙的全面功能与实战应用。首先，文章概述了Firewalld的基本概念，强调了它在现代Linux系统中作为动态管理防火墙规则的重要工具的地位。与
阅读更多2024-11-14
新手小白学习docker第七弹------安装redis集群大厂面试
新手小白学习docker第七弹----安装redis集群大厂面试
阅读更多2024-11-14
/// ts中的三斜线指令 | 前端
包），你需要在你的项目中以某种方式告诉TypeScript编译器这些类型定义的存在。三斜线指令是一种在单个文件中这样做的方式，虽然在实际项目中，更常见的是通过。1. 这行代码是TypeScript中
阅读更多2024-11-14
快速掌握——python类封装[私有属性方法]、继承【python进阶】(内附代码)
python类的封装【私有属性、私有方法、属性装饰器】类的继承
阅读更多2024-11-14
2024年5款大屏可视化工具多维分析对比
经过对市场上多款大屏可视化工具的深入研究和对比，强烈推荐FineVis作为您的首选。无论您是希望快速搭建大屏项目、展示复杂3D模型还是实现多屏适应和实时数据分析，FineVis都能满足您的需求。文章中
阅读更多2024-11-14
计算机网络-mac地址与ip地址的区别总结
mac地址在OSI模型中的第二层数据链路层工作，数据链路层基于mac地址进行转发数据帧【交换机基于mac地址表转发数据】ip地址在OSI模型中的第三层网络层工作，网络层基于ip地址转发报文【路由器
阅读更多2024-11-14