选择使用whisper.cpp进行语音转文字

🕗 发布于 2024-11-26 21:58 whisper ASR STT 语音识别

需要将一些wav格式的语音文件转成文字（ASR，STT），接到这个任务后，首先上网搜索有没有现成免费的工具或服务可以使用。常用的关键字如“语音转文字免费在线”。

搜到的很多野鸡网站，都可以免注册免费提供短时间（一两分钟或几兆）的文件转文字功能，但时间太短无法满足要求。如果在这些网站注册付费使用，不仅花钱，还可能泄露隐私。

正规网站当然也不少，如讯飞、IBM、腾讯等等。但也都不行或者不够。

比如讯飞，个人感觉有欺诈嫌疑：www.iflyrec.com/html/addMachineOrder.html

看它左上角的网页title，是不是【在线】【免费】几个字很吸引你？

还有更具迷惑性的。

当你添加本地文件后，不管文件多大，数量有几个，它会马上启动文件上传，让你误以为它能够无限制的免费帮你进行转换，最差情况，估计也就是让你这种白嫖党多等一会儿。既然免费，也没啥好抱怨的，等就等吧。

不过实际情况是，当所有这些文件上传完成，点击提交后，它就告诉你需要收费啦。当然也不能说它没提醒你，网页右侧的【资费】图标其实早就说明了一切。

它的机翻价格是19.8元/小时，而且还没有免费体验时长。几十个小时就得花个几百块钱，性价比太低了，再见。

但已经上传的文件最后讯飞如何处理，是不是拿去喂给AI训练呢？不得而知。

如果是的话，就是你想白嫖它，而反而被它白嫖了。。。

IBM的服务不错，www.ibm.com/products/speech-to-text

它明确告诉你，每个月有500分钟的免费额度。不过即使是free，也要求你输入信用卡号。

但是本人没有信用卡，也只能byebye了。

然后是腾讯云，语音文件每月有10小时的免费额度。

console.cloud.tencent.com/asr/demonstrate

试用了一下，还可以。另外还有SDK和API两种方式来访问它的服务，也可以选择本地文件或网络文件（又诱导人买你的云存储服务吧？），但这得学它们API文档来写代码，不方便。

目前看来腾讯最靠谱，但根本问题是免费额度太少不够用。

如果另外把百度、阿里等大厂的白嫖资源都用上，一个月也许加起来会有二三十个小时。但这样太麻烦，而且时间限制如悬在头上的利剑，让人不安心。

所以还是放弃buy（白嫖）这条路，改为build。

Github上语音转文字主题下，star最多的是 whisper.cpp。github.com/topics/speech-to-text

它是openAI的whisper开源项目的cpp实现，按照其主页说明，在win10下的WSL Ubuntu ，只要几个步骤就能跑起来，也不要求有gpu。

1、确保已安装c++编译
2、下载/克隆 whisper.cpp源码
3、下载模型，tiny和base识别不太行，至少要small。电脑不太差的都选medium或large吧。

huggingface.co/ggerganov/whisper.cpp/tree/main 如果不能访问，可以去镜像网站hf-mirror.com/ggerganov/whisper.cpp/tree/main。

4、编译，以small为例，make -j small

5、得到可执行程序main，然后就可以进行转换了。例如 ./main -m models/ggml-small.bin -l zh -f ../sound/test.wav。

还有很多参数可用，例如输出到各种格式的文件。如果要转换的语音文件多，自己写个脚本批处理即可。

转换后的结果还是需要人工纠错，而且有时会有些稀奇古怪的内容，比如

【请不吝点赞订阅转发打赏支持明镜与点点栏目】【转发打赏支持明镜与点点栏目】等等

估计是ai的幻觉。

原文地址：https://blog.csdn.net/baluzju/article/details/144023933

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

Web 学习笔记 - 网络安全
作为前端开发者，了解一点 Web 安全方面的基本知识是有很必要的，未必就要深入理解。本文主要介绍常见的网络攻击类型，不作深入探讨。CSRF（Cross-site request forgery跨站请
阅读更多2024-11-26
14 —— Webpack解析别名
— 在webpack.config.js中配置解析别名@来代表src绝对路径。这么使用相对路径不安全。
阅读更多2024-11-26
【eNSP】动态路由协议RIP和OSPF
动态路由RIP（Routing Information Protocol，路由信息协议）和OSPF（Open Shortest Path First，开放式最短路径优先）是两种常见的动态路由协议，它们
阅读更多2024-11-26
【多线程-第一天-多线程的技术方案-pthread演示 Objective-C语言】
【多线程-第一天-多线程的技术方案-pthread演示 Objective-C语言】
阅读更多2024-11-26
如何定制谷歌浏览器的外观主题
无论是更改背景颜色、开启文本光标模式还是解决上传文件失败的问题，这些定制选项都能帮助你打造更加个性化的浏览体验。随着技术的不断发展，我们相信谷歌浏览器将会提供更多丰富和实用的定制选项，以满足用户日益增
阅读更多2024-11-26
即时通讯平台-音视频即时通讯平台就选WorkPlus
在现代社会，企业和组织对沟通的需求日益增加，尤其是在瞬息万变的商业环境中，音视频即时通讯已成为沟通的主流形式。WorkPlus作为一款专注于音视频即时通讯的平台，凭借其强大的功能和出色的用户体验，成为
阅读更多2024-11-26
vue中el-table合并单元格
1.在el-table中添加 :span-method=“handdelSpanMethod”2.handdelSpanMethod方法。
阅读更多2024-11-26
2022年计算机网络408考研真题解析
题目中提到了下发二字，如果这题不会的话，可以直接蒙个南向接口，因为上北下南。。。SDN控制器有控制层面和数据层面上下两个层面，通过北向API控制网络控制应用层序，通过南向API控制分组交换机。综上所述
阅读更多2024-11-26
滑动窗口最大值(java)
给你一个整数数组nums，有一个大小为k的滑动窗口从数组的最左侧移动到数组的最右侧。你只可以看到在滑动窗口内的k个数字。滑动窗口每次只向右移动一位。返回滑动窗口中的最大值。滑动窗口的位置
阅读更多2024-11-26
（原创）Android Studio新老界面UI切换及老版本下载地址
这两天下载了一个新版的Android Studio，发现整个界面都发生了很大改动：但是对于一些急着开发的小伙伴来说，没有时间去适应，那么怎么办呢？只能先下回老的，或者看有没有版本支持新老ui界面的切换
阅读更多2024-11-26

选择使用whisper.cpp进行语音转文字

相关文章