语音识别的预训练模型

🕗 发布于 2025-01-15 07:50 语音识别预训练模型连续时序分类序列到序列 CTC

语音识别的预训练模型

语音识别模型

大致分为两类：

连接时序分类（Connectionist Temporal Classification, CTC）：仅编码器（encoder-only）的模型，顶部带有线性分类（CTC）头
序列到序列（Sequence-to-sequence, Seq2Seq）：编码器-解码器（encoder-decoder）模型，编码器和解码器之间带有交叉注意力机制

在 2022 年之前，CTC 是这两种架构中更受欢迎的一种，以 encoder-only 模型为主，例如 Wav2Vec2、HuBERT 和 XLSR 在语音的预训练/微调范式中取得了突破。大公司如 Meta 和 Microsoft 在大量无标签音频数据上对编码器进行了多天甚至数周的预训练。用户采用一个预训练的检查点，并在少至 10 分钟的有标注的语音数据上进行微调，就可以在下游语音识别任务中取得强大的性能。

然而，CTC 模型也有其缺点。在编码器上附加一个简单的线性层可以得到一个小巧、快速

原文地址：https://blog.csdn.net/ARPOSPF/article/details/145149312

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：leetcode131.分割回文串
下一篇：Python进制转换

《淘宝买家秀 API 爬虫：Java 实现与数据解析》
淘宝买家秀 API（item_review_show）允许开发者通过商品 ID 获取该商品的买家秀数据。这些数据包括用户评价内容、图片、视频等，对于分析商品口碑、优化产品设计、提升用户体验等方面都有着
阅读更多2025-01-15
智能复合机器人：开启生产“智”造新时代
随着人工智能、物联网等前沿技术的持续发展，智能复合机器人的应用前景将更为广阔。相信在不久的将来，这些智能 “伙伴” 将深度融入各行各业，成为推动产业升级、提升生产效率的中流砥柱，引领我们迈向更加智能、
阅读更多2025-01-15
【声音场景分类--论文阅读】
Wavegram是我们提出的一个功能这类似于log-mel频谱图，但使用神经网络。波形图具有时间轴和频率轴。然后，波形图可以代替log-mel光谱图作为输入特征，形成我们的WavegramCNN系统。
阅读更多2025-01-15
大数据学习(32)-spark基础总结
3.该模式下Driver运行ApplicattionMaster这个节点上,由Yarn管理，如果出现问题，yarn会重启ApplicattionMaster(Driver)所以在spark on ya
阅读更多2025-01-15
国内源快速在线安装qt5.15以上版本。（10min安装好）（图文教程）
2.1 打开windows Powershell（Win+X），2、将下载好的在线安装工具，放到C盘根目录，1、在国内源上下载qt在线安装工具。弹出来就换源成功，进一步安装吧！
阅读更多2025-01-15
c#2025/1/14 周二
8.《方法的定义、调用与调试_1》
阅读更多2025-01-15
深入Android架构(从线程到AIDL)_30 JNI架构原理_Java与C的对接03
2.4 以C结构表达类(class)，并创建对象(object)认识C函数指针范例2.5 在C函数里存取对象的属性(attribute)范例
阅读更多2025-01-15
个人主页搭建全流程(Nginx部署+SSL配置+DCDN加速)
最近开始准备秋招，打算做一个个人主页，以便在秋招市场上更有竞争力。
阅读更多2025-01-15
例子：WeTextProcessing,如何查看现在已安装的这个模块的版本号呢？查看虚拟环境中模块的版本
您还可以查看`WeTextProcessing`安装的目录，通常在该目录下会有一个`__init__.py`文件，里面可能会包含版本信息。您也可以在 Python 解释器中检查`WeTextProce
阅读更多2025-01-15
【自然语言处理】P1 自然语言处理概述
自然语言指的是人类的语言，如中文、英语等，处理特指使用计算机技术处理，所以自然语言处理（NLP）就是指使用计算机处理人类的语言。自然语言处理属语言学、计算机科学、信息工程和人工智能的交叉领域，涉及的内
阅读更多2025-01-15

语音识别的预训练模型

语音识别的预训练模型

语音识别模型

相关文章