英伟达推新AI语音识别模型Parakeet 号称优于Whisper

🕗 发布于 2024-01-09 04:09 人工智能 语音识别 whisper

领先的开源对话 AI 工具包 NVIDIA NeMo宣布推出 Parakeet ASR 模型系列，这是一系列最先进的自动语音识别（ASR）模型，能够以出色的准确性转录英语口语。Parakeet ASR 模型与 Suno.ai 合作开发，是语音识别领域的一大突破，为实现更自然高效的人机交互铺平了道路。

根据开发人员的说法，这些模型对音乐和静音等非语音片段具有鲁棒性，并且在基准测试中优于 OpenAI 的 Whisper v3。它们还通过预先训练的控制点提供用户友好的集成到项目中。

NVIDIA 宣布推出了四个 Parakeet 模型，这些模型基于 RNN Transducer / Connectionist Temporal Classification 解码器，并且具有0.6-1.1亿参数。它们能够应对各种音频环境，并且在仅使用了64，000小时的数据集进行训练后，在基准数据集上实现了出色的词错误率（WER）表现，优于以往的模型。

Parakeet RNNT1.1B - 最佳识别准确性，推理速度适中。当需要最准确的转录时最适用。

Parakeet CTC1.1B - 推理速度快，识别准确性强。在准确性和推理速度之间取得了很好的平衡。

Parakeet RNNT0.6B - 识别准确性强，推理速度快。适用于有限资源的大规模推理。

Parakeet CTC0.6B - 速度最快，识别准确性适中。在转录速度最重要的情况下非常有用。

Parakeet 模型对非语音片段（包括音乐和静音）具有抗干扰能力，有效防止生成虚构的转录结果。Parakeet 是基于 NVIDIA NeMo 工具包构建的，注重用户友好性和灵活性。预训练的检查点可供直接使用，将模型集成到项目中非常方便。无论是寻求即时推理能力还是针对特定任务进行微调，NeMo 都提供了一个强大而直观的框架，充分发挥模型的潜力。

Parakeet 模型的主要优点包括:

- 最先进的准确性:在各种音频来源和领域上具有出色的 WER 表现，并对非语音片段具有强大的鲁棒性。

- 不同的模型大小:提供了0.6B 和1.1B 参数的两种模型，能够对复杂语音模式进行强大的理解。

- 开源和可扩展性:基于 NVIDIA NeMo 构建，可以无缝集成和自定义。

- 预训练检查点:可用于推理或微调的即插即用模型。

- 宽松的许可证:根据 CC-BY-4.0许可证发布，模型检查点可在任何商业应用中使用。

Parakeet 是对话 AI 发展的重大进步。其出色的准确性，加上 NeMo 提供的灵活性和易用性，使开发人员能够创建更自然、直观的语音应用程序。从提高虚拟助手的准确性到实现无缝的实时通信，无限可能。Parakeet 系列模型在 HuggingFace Leaderboard 上取得了最先进的成绩。用户可以亲自尝试 parakeet-rnnt-1.1b，并在 Gradio 演示中使用。要在本地访问模型并探索工具包，请访问 NVIDIA NeMo 的 Github 页面。

官方博客网址:https://nvidia.github.io/NeMo/blogs/2024/2024-01-parakeet/

原文地址：https://blog.csdn.net/aizhushou/article/details/135458326

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：VD4056H 输入高耐压30V 带OVP反接功能适用于TYPEC口的高浪涌电压
下一篇：软件测试|测试平台开发-Flask 入门：Flask HTTP请求详解

PCL 三维重建 RBF移动立方体三维重建算法
RBF（径向基函数）Marching Cubes算法是一种基于RBF插值的方法，用于从点云数据中提取三维表面。这种算法结合了传统的Marching Cubes算法和径向基函数的优势，能够处理复杂的点云
阅读更多2024-11-19
Argo workflow 拉取git 并使用pvc共享文件
第一个任务（拉取 Git 仓库）：这个任务将使用 git 命令克隆指定的 Git 仓库。第二个任务（读取 Git 文件）：这个任务会读取第一个任务拉取的 Git 仓库中的文件。我们将使用 Argo W
阅读更多2024-11-19
java计算机毕业设计选题参考3000篇
【294】springboot+jpa+layui学生住宿管理系统mysql学生寝室分配系统含文档。基于微信小程序的社区车位租赁系统的设计与实现+springboot后台weixin200。【483】
阅读更多2024-11-19
《Python网络安全项目实战》项目6 编写密码工具程序_练习题(2)答案
《Python网络安全项目实战》项目6 编写密码工具程序_练习题(2)答案
阅读更多2024-11-19
三种方式js的引入
1.js的组成部分：BOM(browser object model)浏览器对象模型、DOM(document object model)文档对象模型、ECMAScript。2.js的引入方式:行内式
阅读更多2024-11-19
使用MQTTX连接新版ONENet
使用mqtt连接新版的onenet 教程包含产品创建设备创建，关键参数获取，token软件获取，token生成，mqttx软件的下载与使用数据流的上传等手把手操作帮助你上云
阅读更多2024-11-19
深度学习之其他常见的生成式模型
自回归模型通过对图像数据的概率分布pdataxpdatax进行显式建模，并利用极大似然估计优化模型。pdatax∏i1npxi∣x1x2xi−1pdataxi1∏npxi∣x1x2..
阅读更多2024-11-19
MySQL表的新增与查询
这里的值要和列的个数和类型相匹配使用'或者"来表示字符串。
阅读更多2024-11-19
Vue-组件三大组成&组件通信
style的默认样式是作用到哪里的？scoped的作用是什么？style中推不推荐加scoped？data写成函数的目的是什么？组件通信，就是指组件与组件之间的数据传递组件的数据是独立的，无法直接访问
阅读更多2024-11-19
Python爬虫学习路线精简大纲！！！
Python爬虫学习路线精简大纲！！！
阅读更多2024-11-19

英伟达推新AI语音识别模型Parakeet 号称优于Whisper

相关文章