使用开源 Whisper 视频转文字

🕗 发布于 2024-09-22 06:39 whisper 音视频 深度学习

Whisper 是 OpenAI 开源的语音到文字的模型，支持多语言，Whisper 模型是基于 Transformer 架构，音频输入、文字输出，具体架构如下图。

在这里插入图片描述
Whisper 支持多种参数，模型的文档中说中等尺寸的模型不支持多语言，我测试的结果是支持中文的。

不同模型的下载地址，测试我使用了 Medium 和 Large 尺寸，模型文件已经上传，链接在文末。


_MODELS = {
    "tiny.en": "https://openaipublic.azureedge.net/main/whisper/models/d3dd57d32accea0b295c96e26691aa14d8822fac7d9d27d5dc00b4ca2826dd03/tiny.en.pt",
    "tiny": "https://openaipublic.azureedge.net/main/whisper/models/65147644a518d12f04e32d6f3b26facc3f8dd46e5390956a9424a650c0ce22b9/tiny.pt",
    "base.en": "https://openaipublic.azureedge.net/main/whisper/models/25a8566e1d0c1e2231d1c762132cd20e0f96a85d16145c3a00adf5d1ac670ead/base.en.pt",
    "base": "https://openaipublic.azureedge.net/main/whisper/models/ed3a0b6b1c0edf879ad9b11b1af5a0e6ab5db9205f891f668f8b0e6c6326e34e/base.pt",
    "small.en": "https://openaipublic.azureedge.net/main/whisper/models/f953ad0fd29cacd07d5a9eda5624af0f6bcf2258be67c92b79389873d91e0872/small.en.pt",
    "small": "https://openaipublic.azureedge.net/main/whisper/models/9ecf779972d90ba49c06d968637d720dd632c55bbf19d441fb42bf17a411e794/small.pt",
    "medium.en": "https://openaipublic.azureedge.net/main/whisper/models/d7440d1dc186f76616474e0ff0b3b6b879abc9d1a4926b7adfa41db2d497ab4f/medium.en.pt",
    "medium": "https://openaipublic.azureedge.net/main/whisper/models/345ae4da62f9b3d59415adc60127b97c714f32e89e936602e85993674d08dcb1/medium.pt",
    "large-v1": "https://openaipublic.azureedge.net/main/whisper/models/e4b87e7e0bf463eb8e6956e646f1e277e901512310def2c24bf0e11bd3c28e9a/large-v1.pt",
    "large-v2": "https://openaipublic.azureedge.net/main/whisper/models/81f7c96c852ee8fc832187b0132e569d6c3065a3252ed18e56effd0b6a73e524/large-v2.pt",
    "large-v3": "https://openaipublic.azureedge.net/main/whisper/models/e5b1a55b89c1367dacf97e3e19bfd829a01529dbfdeefa8caeb59b3f1b81dadb/large-v3.pt",
    "large": "https://openaipublic.azureedge.net/main/whisper/models/e5b1a55b89c1367dacf97e3e19bfd829a01529dbfdeefa8caeb59b3f1b81dadb/large-v3.pt",
}

mp3 转文字

本文将从 mp4 中提取音频 mp3，并将 mp3 转为文字，运行环境为 ModelScope 容器镜像

mp4 中提取 mp3

通过 ffmpeg 提取 mp3。

ffmpeg -i ~/a.mp4 ~/a.mp3

whisper

通过 whisper 转换音频至文字

#安装依赖

pip install -U openai-whisper

# 加载模型
import whisper
model = whisper.load_model("medium", download_root="/notebook/whisper")

## 转换音频
result = model.transcribe("a.mp3", language="zh")
print(result["text"])

在这里插入图片描述
这里我们看到一明显的问题，第一是繁体、第二是没有标点符号。通过添加提示词来解决，Whisper 的提示词不是起到指令的作用，这个提示词是要告诉模型怎么对音频转换出来的内容做处理，针对上面的两个问题，我们的提示词要指定为简体并添加标点符号。

model.transcribe("a.mp3",  language="zh", initial_prompt="更有网友表示,澳门葡记并未在澳门开设门店,同时其加工生产商为珠海葡记食品有限公司,除了品牌名称外似乎与澳门并无直接关联.跨地区注册、内地贴牌代工的模式几乎与导致小杨哥售后口碑崩盘的美诚月饼一致,引发大量关注.")

提示词，随便引用网上的一段新闻，结果虽然不是那么准确，但是足够用了。
在这里插入图片描述

总结

Whisper 音频转文字，meduim 尺寸模型的效果就可以满足大部分需求了，如果音频文件比较大，需要分段处理，例如 10 秒一个分段。

模型文件已经上传 ModelScope，有需要的同学可以下载。

https://www.modelscope.cn/models/model1001/whisper/files

原文地址：https://blog.csdn.net/hawk2014bj/article/details/142415528

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：How can I integrate OpenAI Whisper model into a Kotlin app?
下一篇：如何有效检测住宅IP真伪?

【STM32】TIM定时器定时中断与定时器外部时钟的使用
定时器可以对输入的时钟进行计数，并在计数值达到设定值时触发中断16位计数器、预分频器、自动重装寄存器的时基单元，在72MHz计数时钟下可以实现最大59.65s的定时72M/65536/65536 =
阅读更多2024-09-23
记一次Meilisearch轻量级搜索引擎使用
以前使用的是mysql的全文索引、最开始还行。后续觉得就不好用了，但是服务器资源有限，没法上ES，只好找一个轻量级的搜索引擎、找了半天，决定使用这一个，目前效果还不错的。参考网址官网：https://
阅读更多2024-09-23
水果识别系统Python+卷积神经网络算法+人工智能+深度学习+计算机课设项目+TensorFlow+模型训练
水果识别系统。本项目使用Python作为主要编程语言，基于TensorFlow搭建卷积神经网络算法模型，通过对收集到的5种常见的水果（圣女果、梨、芒果、苹果、香蕉）等图片数据集进行训练，最终得到一个识
阅读更多2024-09-23
Qt开发技巧（七）动态换图，QVideoWidget视频闪烁，Qt日志打印，系统消息处理，编译前后的操作，QSettings配置文件，屏幕自适应
Qt开发技巧（七）动态换图，QVideoWidget视频闪烁，Qt日志打印，系统消息处理，编译前后的操作，QSettings配置文件，屏幕自适应
阅读更多2024-09-23
PYCHARM 使用笔记（一）：常见功能和快捷键
如果智能补全不能满足需求，则显示补全提供所有的补全可能。在你输入某些方法时编辑器会自动提供补全建议。查看简略信息，如注释等。
阅读更多2024-09-23
【后端开发】JavaEE初阶—Theard类及常见方法—线程的操作（超详解）
本期讲解了关于线程的某些重要属性和方法，例如线程的启动，终止，等待以及常见的属性的获取方法和构造方法，并附上代码供小伙伴们参考
阅读更多2024-09-23
[WMCTF2020]Make PHP Great Again 2.01
又是php代码审计,开始吧.这不用审吧，啊喂.意思就是我们要利用require_once()函数和传入的file的value去读取flag的内容.，貌似呢require_once()已经被用过一次了，
阅读更多2024-09-23
Elasticsearch的实战应用
Elasticsearch作为一个分布式、实时全文搜索引擎，在实战应用中展现出了强大的搜索和分析能力。通过合理的安装与配置、性能优化、集群管理以及与Logstash和Kibana的集成，可以充分发挥E
阅读更多2024-09-23
【60天备战2024年11月软考高级系统架构设计师——第21天：系统架构设计原则——高内聚低耦合】
高内聚指的是模块内部的功能相关性强，模块内部的各个功能应紧密关联、协同工作。一个高内聚的模块通常有明确的职责，只负责完成一类具体任务，而不会涉及其他不相关的功能。这样设计的好处是模块内部的修改不会影响
阅读更多2024-09-23
实用好软-----电脑端全能音视频转换器转换各种音视频格式
是一款免费的视频格式转换软件，支持几乎所有视频格式的转换，基本的有DVD, AVI, MP4, 3GP, WMV, ASF等格式。对于一些特殊格式的视频，不用担心看不到，除了保证转换质量，还能转换为你
阅读更多2024-09-23

使用开源 Whisper 视频转文字

mp3 转文字

mp4 中提取 mp3

whisper

总结

相关文章