【ASR技术】WhisperX安装&使用

🕗 发布于 2024-11-18 10:14 ASR whisper

介绍

WhisperX 是一个开源的自动语音识别（ASR）项目，由 m-bain 开发。该项目基于 OpenAI 的 Whisper 模型，通过引入批量推理、强制音素对齐和语音活动检测等技术。提供快速自动语音识别（large-v2 为 70 倍实时），具有单词级时间戳和说话人分类。
WhisperX 的核心技术包括：
批量推理：利用 faster-whisper 后端，实现了高效的批量推理，大幅提升了转录速度。
强制音素对齐：通过 wav2vec2 对齐模型，提供了精确的单词级时间戳。
说话人识别：集成了 pyannote-audio 进行说话人分割，实现了多说话人 ASR。
语音活动检测（VAD）：预处理阶段使用 VAD，减少了幻听现象，同时不影响转录准确性。

安装

官网：https://github.com/m-bain/whisperx?tab=readme-ov-file
参考安装：https://www.bilibili.com/opus/902027713218347033
上面介绍的比较详细了，下面只描述一下个人安装过程遇见的问题

conda安装国内镜像源

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud//pytorch/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/pro/

#设置搜索时显示通道地址
conda config --set show_channel_urls yes

直接运行whisperx会有Timeout连接错误，程序第一次运行会去下载镜像，需要使用HuggingFace镜像源，添加到环境变量中去

HF_ENDPOINT = "https://hf-mirror.com"

遇见报错：找不到cudnn_ops64_9.dll
cudnn和cuda重新安装了一次，还是报错，最后还是手动添加到环境变量中去。

到安装目录中，手动搜索【cudnn_ops64_9.dll】，找到路径之后添加到环境变量中去

最好使用管理员身份运行【Anaconda Powershell Prompt】

使用

whisperx 1.mp3 --model large --language zh

在这里插入图片描述
精确到毫秒级的单词识别（json文件）

原文地址：https://blog.csdn.net/PROGRAM_anywhere/article/details/143835749

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：51单片机基础05 实时时钟-思路及代码参考2、3
下一篇：红日靶场-1详细解析（适合小白版）

【MySQL实战45讲笔记】基础篇——事务隔离
简单来说，**事务就是要保证一组数据库操作，要么全部成功，要么全部失败**。在 MySQL 中，事务支持是在**引擎层**实现的。但并不是所有的存储引擎都支持事务，比如MySQL 原生的 MyISAM
阅读更多2024-11-23
MySQL之索引与事务
介绍了MySQL索引的分类，索引的底层数据结构，聚簇索引与非聚簇索引，非聚簇索引导致的回表，索引失效的场景。介绍了事务的特性，事务的隔离级别。
阅读更多2024-11-23
15天大厂真题带刷day1
小美对偶数因子很感兴趣，她将进行 𝑇T 次询问，每次都会给出一个正整数 𝑥x，请你告诉她 𝑥x 是否存在至少一个偶数因子。在一行上输入一个整数 𝑥 (1≤𝑥≤109)x (1≤x≤109) 代表小美询
阅读更多2024-11-23
Fakelocation Server服务器/专业版 Windows11
任务一打开 PowerShell（以管理员身份）命令安装 Chocolatey。任务三打开Fakelocation开源文件 | 查看IP地址。任务四写入Hosts地址文件。任务二可能遇到的错误
阅读更多2024-11-23
Elasticsearch客户端在和集群连接时，如何选择特定的节点执行请求的？
Elasticsearch客户端在和集群连接时，如何选择特定的节点执行请求的？
阅读更多2024-11-23
muduo库的使用
muduo库的使用及其基本原理
阅读更多2024-11-23
Node基本使用
Node基本使用
阅读更多2024-11-23
11 —— 打包模式的应用
需求：在开发模式下想让webpack使用style-loader进行css样式的处理；让它把css代码内嵌在js中；在生产模式下提取css代码。mini-css-extract-plugin插件：提取
阅读更多2024-11-23
04_HDMI20协议解析_General_Control
当通过HDMI传输音频信号时，General_Control是必须要传输的数据包之一, 如果没有，可能会有部分显示器有兼容性问题；General_Control 可以打开或者关闭静音功能；
阅读更多2024-11-23
本地安装YAPI
项目中用到很多的RESTAPI，光靠人工管理或者普通文档肯定是不行的，翻了很多的RESTAPI管理工具，还是选择了YAPI，原因有2，一个是接口位于内网，外网网站上管理测试不到内网接口，另外一个是使用
阅读更多2024-11-23

【ASR技术】WhisperX安装&使用

介绍

安装

使用

相关文章