实时语音转文字(基于NAudio+Whisper+VOSP+Websocket)

🕗 发布于 2024-10-18 00:02 whisper

今天花了大半天时间研究一个实时语音转文字的程序，目的还包括能够唤醒服务，并把命令提供给第三方。

由于这方面的材料已经很多，我就只把过程中遇到的和解决方案简单说下。源代码开源在AudioWhisper: 实时语音转文字(基于NAudio+Whisper+VOSP+Websocket) (gitee.com)

1、声音录制

这里有三点需要注意的：

1）sampleRate（采样频率）要选择16000，不要选别的，不然Whisper不兼容。

2）声音录制得到的数据是一个个块（block）,每次block大概1500byte左右。

3）WAV文件由文件头（共计45个字节）+ 长度标志+Block组+文件尾（大概6个字节）组成，可以直接看NAudio获得相关信息。

2、Whisper使用

也有几点需要注意：

1）不翻墙很难从huggingface.co下载语音模型，可以从Index of / (ggerganov.com)下载

2）需要Net8 的环境，低版本包括NetFramework会卡在ProcessAsync方法上，当然可以换成Process方法

3）处理100个声音块(Block)，大概需要3~5秒时间，并不能做到给一段语音就解释这段语音，存在明显的处理性能要求，建议选择好电脑去跑。当然我这边没有从GPU等因素去眼睛了。

4）Whisper的语言包有点怪，感觉是从外国电影翻译学习的，会出现大莫名其妙的的结果，但好在不多，可以根据关键字过滤，比如它会误判存在笑，返回结果为“（笑）”。

5）存在繁体中文的情况，可以采用ChineseConverter方法进行处理。

3、VOSP

Whisper可以的系统初始化时间相对还是可以接受的，在5~10秒左右。而VOSP初始化加载模型需要30~50秒，而且初步测试准确率很低，文字中存在空格。

4、实时语音流程

需要分配多个线程，1一个线程听声音，1个线程解释翻译声音。不能把这两个线程合在一起，原因是翻译声音需要高的计算量。

最后，代码已经上传到git，大家可以直接看，也可以参与编写，AudioWhisper: 实时语音转文字(基于NAudio+Whisper+VOSP+Websocket) (gitee.com)

原文地址：https://blog.csdn.net/htsitr2/article/details/142904636

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：crd介绍
下一篇：Spring Boot知识管理：提升信息检索效率

如何用示波器检测次级点火系统（一）
单看标题可能会让你觉得这篇文章的主题是关于检测线圈，火花塞和火花塞插头电线。但我们指的是分析燃烧室内电子的行为。目标是看燃料混合物，阀座，压缩，积碳和其它影响这种特性的症状。最终目的是要学会分析示波器
阅读更多2024-10-18
JavaWeb合集03-Maven
bin：存放的是可执行文件，如：测试、打包、编译等这些指令。conf：存放配置文件的，配置本地仓库和阿里云私服就就在settings.xml文件下配置lib：存放的是maven它所依赖的一些jar包文
阅读更多2024-10-18
[k8s理论知识]2.docker基础（一）
PaaS项目被广泛接受的原因是他们提供了一种应用托管的能力。在PaaS出现之前，虚拟机和云计算已经是很普遍的技术和服务。主流做法是租用一批AWS或openstack的虚拟机，然后像管理物理服务器一样，
阅读更多2024-10-18
Maven概述
Maven【[ˈmevən]】这个词可以翻译为"专家","内⾏"。作为Apache组织中的⼀个颇为成功的开源项⽬，Maven主要服务于基于java平台的项⽬构
阅读更多2024-10-18
docker 初步理解
例如在一些基础层当中，原本有了一些环境，比如java、tomcat、maven，然后我们需要再去安装一些redis、mysql或者是python等等，那么就只需要在层的概念上，添加上一层需要添加的环境
阅读更多2024-10-18
得物iOS函数调用栈及符号化调优实践｜得物技术
伴随得物用户规模和业务复杂度不断提升，应用上线前的隐私合规检测愈发重要；当前得物版本灰度前的合规检测正在向着规模化、自动化发展，其中动态检测的性能和效率瓶颈也越发凸显。因此iOS端符号化堆栈采集的难点
阅读更多2024-10-18
本地项目上传Github+Gitee上传特定分支到Linux服务器（自用）
git init。
阅读更多2024-10-18
JavaWeb合集11-Maven高级
当分模块开发时，需要对项目进行打包，这时就会发现，相关联的模块没有下载到Maven中打包会失败，就需要一个一个模块的进行下载（install）到Maven仓库中，比较繁琐。注意：聚合工程中所包含的模块
阅读更多2024-10-18
【java】docker里的tomcat容器的java程序生成日志时间和日期不对，或者，java程序获取的时间日期不对；解决方案4步解决
【java】docker里的tomcat容器的java程序生成日志时间和日期不对，或者，java程序获取的时间日期不对；解决方案4步解决
阅读更多2024-10-18
mac git管理（新）
1.本地生成ssh key添加到远程gitlab上。3.再git clone 就可以了。本地拉取gitlab地址报错。
阅读更多2024-10-18

实时语音转文字(基于NAudio+Whisper+VOSP+Websocket)

1、声音录制

2、Whisper使用

3、VOSP

4、实时语音流程

相关文章