使用Python和OpenAI Whisper为视频生成字幕

🕗 发布于 2024-11-30 08:24 python whisper 音视频字幕

安装正确的 OpenAI Whisper 包：

pip install openai-whisper

这里是一个完整的可工作的代码示例：

import whisper
import os
from moviepy.editor import VideoFileClip
from datetime import timedelta
import torch

def extract_audio(video_path, audio_path):
    """从视频中提取音频"""
    try:
        video = VideoFileClip(video_path)
        video.audio.write_audiofile(audio_path)
        video.close()
    except Exception as e:
        print(f"音频提取错误: {str(e)}")
        raise

def generate_srt(segments, output_srt):
    """生成SRT格式字幕文件"""
    with open(output_srt, 'w', encoding='utf-8') as f:
        for i, segment in enumerate(segments, start=1):
            # 转换时间格式
            start = str(timedelta(seconds=int(segment['start']))) + ',000'
            end = str(timedelta(seconds=int(segment['end']))) + ',000'
            
            # 写入SRT格式
            f.write(f"{i}\n")
            f.write(f"{start} --> {end}\n")
            f.write(f"{segment['text'].strip()}\n\n")

def main(video_path, output_srt):
    """主函数"""
    try:
        # 检查CUDA是否可用
        device = "cuda" if torch.cuda.is_available() else "cpu"
        print(f"使用设备: {device}")

        # 加载模型
        print("加载Whisper模型...")
        model = whisper.load_model("base", device=device)

        # 直接使用视频文件进行转录
        print("开始转录...")
        result = model.transcribe(video_path, language="zh")

        # 生成字幕文件
        print("生成字幕文件...")
        generate_srt(result["segments"], output_srt)

        print(f"字幕已生成: {output_srt}")

    except Exception as e:
        print(f"处理过程中出错: {str(e)}")
        raise

if __name__ == "__main__":
    # 设置输入输出路径
    video_path = "your_video.mp4"  # 替换为你的视频文件路径
    output_srt = "output.srt"      # 输出的字幕文件路径
    
    main(video_path, output_srt)

这段代码是用于加载 OpenAI 的 Whisper 模型的。在语音识别中，Whisper 是 OpenAI 提供的一个开源模型，专门用于语音转文字（ASR，Automatic Speech Recognition）。

解析代码：

print("加载Whisper模型...")
model = whisper.load_model("base", device=device)

1. `whisper.load_model("base", device=device)`

whisper.load_model: 这是调用 Whisper 库中的 load_model 函数，用来加载一个预训练的 Whisper 模型。
"base": 这是所选模型的名称。在 Whisper 中，有多个预训练模型，它们的大小和性能有所不同。"base" 是其中一个中等规模的模型（不是最小的，也不是最大的）。Whisper 提供了不同规模的模型，如：
- "tiny": 最小的模型，速度最快，但准确率相对较低。
- "base": 中等规模的模型，速度和准确率之间有一个平衡。
- "small": 更大一些，提供更好的准确性，但速度较慢。
- "medium" 和 "large": 这些是最大规模的模型，准确率非常高，但需要更多计算资源，速度较慢。

选择 "base" 模型通常是因为它在 速度和准确率 之间有一个良好的平衡。适用于大多数日常应用。

2. `device=device`

device=device: 这部分代码指定了模型运行的硬件设备。通常，device 可以是 "cpu"（中央处理器）或 "cuda"（如果有支持 CUDA 的 NVIDIA GPU）。根据你的设备配置，Whisper 会在 CPU 或 GPU 上运行模型。使用 GPU 进行计算可以大大加速模型推理的过程，特别是在较大的模型时。

例如：
- 如果你的计算机有 GPU 并且已经安装了 CUDA，device="cuda" 会让 Whisper 使用 GPU 来加载和执行模型。
- 如果没有 GPU 或者没有配置 CUDA，Whisper 会默认使用 CPU。

为什么使用 `"base"` 模型？

选择 "base" 模型的原因通常是以下几个考虑：

平衡性："base" 模型相较于 tiny 模型更为准确，但计算资源需求又不如 large 或 medium 模型那么高。它是很多用户的常见选择，因为它在准确性和处理速度之间达到了较好的折中。
性能：对大多数普通应用（例如实时语音识别）来说，"base" 模型通常能提供足够的准确率，同时不会太耗费硬件资源。
硬件要求：比起更大的模型，"base" 模型需要的显存和计算资源较少，因此适合于那些没有特别强大硬件的设备。

选择其他模型：

如果你的硬件支持，且对识别准确度要求较高，你可以选择 "small"、"medium" 或者 "large" 模型，这样可以获得更高的识别准确率，但可能会牺牲一定的速度。
如果硬件性能有限，或者你需要快速响应，可以选择 "tiny" 模型，尽管它的识别准确度相对较低。

总结：

这段代码的作用是加载 Whisper 模型，并指定使用的设备（CPU 或 GPU）。
"base" 模型是中等规模的模型，通常适用于多数需要平衡准确性和速度的场景。

使用说明：

将 video_path 替换为你的实际视频文件路径
确保有足够的磁盘空间
如果有 NVIDIA GPU，会自动使用 CUDA 加速

可能需要的额外依赖：

pip install torch torchvision torchaudio
pip install moviepy

如果想要更详细的进度显示，可以添加进度条：

from tqdm import tqdm

def generate_srt_with_progress(segments, output_srt):
    """带进度显示的字幕生成"""
    with open(output_srt, 'w', encoding='utf-8') as f:
        for i, segment in tqdm(enumerate(segments, start=1), 
                             desc="生成字幕", 
                             total=len(segments)):
            start = str(timedelta(seconds=int(segment['start']))) + ',000'
            end = str(timedelta(seconds=int(segment['end']))) + ',000'
            
            f.write(f"{i}\n")
            f.write(f"{start} --> {end}\n")
            f.write(f"{segment['text'].strip()}\n\n")

添加错误处理和日志：

import logging
import sys

# 配置日志
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(levelname)s - %(message)s',
    handlers=[
        logging.FileHandler('subtitle_generation.log'),
        logging.StreamHandler(sys.stdout)
    ]
)

def main(video_path, output_srt):
    """带有完整错误处理和日志的主函数"""
    try:
        if not os.path.exists(video_path):
            raise FileNotFoundError(f"视频文件不存在: {video_path}")

        logging.info(f"开始处理视频: {video_path}")
        
        # 检查CUDA
        device = "cuda" if torch.cuda.is_available() else "cpu"
        logging.info(f"使用设备: {device}")

        # 加载模型
        logging.info("加载Whisper模型...")
        model = whisper.load_model("base", device=device)

        # 转录
        logging.info("开始转录...")
        result = model.transcribe(video_path, language="zh")

        # 生成字幕
        logging.info("生成字幕文件...")
        generate_srt_with_progress(result["segments"], output_srt)

        logging.info(f"字幕生成完成: {output_srt}")

    except FileNotFoundError as e:
        logging.error(f"文件错误: {str(e)}")
        raise
    except Exception as e:
        logging.error(f"处理错误: {str(e)}")
        raise

如果需要处理长视频，可以添加分段处理：

def process_long_video(video_path, output_srt, segment_duration=300):
    """分段处理长视频"""
    from moviepy.editor import VideoFileClip
    
    video = VideoFileClip(video_path)
    duration = video.duration
    segments = []
    
    for start in range(0, int(duration), segment_duration):
        end = min(start + segment_duration, duration)
        
        # 提取片段
        segment = video.subclip(start, end)
        temp_audio = f"temp_{start}_{end}.wav"
        segment.audio.write_audiofile(temp_audio)
        
        # 处理片段
        result = model.transcribe(temp_audio, language="zh")
        segments.extend(result["segments"])
        
        # 清理临时文件
        os.remove(temp_audio)
    
    # 生成完整字幕
    generate_srt(segments, output_srt)
    video.close()

Whisper 可以实现将英文语音翻译成中文。Whisper 是一个多语言语音识别模型，支持语音识别和翻译任务，包括将英语语音翻译成中文。

如何实现英文语音翻译成中文：

在使用 Whisper 时，你可以通过以下步骤来实现英文语音的翻译：

加载模型并进行转录
使用 whisper.load_model 加载模型（例如，base 或 small 等），然后使用 transcribe 方法来识别英文语音。为了进行翻译，你需要设置 task="translate" 参数。
指定翻译目标语言为中文
设置 language="en" 来告知模型输入语言是英语，Whisper 会自动将识别到的英文语音翻译成你指定的目标语言（中文）。

示例代码：

import whisper

# 加载模型
model = whisper.load_model("base")

# 设置视频或音频文件路径
audio_path = "path_to_audio_or_video"

# 进行语音翻译，英文语音翻译成中文
result = model.transcribe(audio_path, language="en", task="translate")

# 打印翻译结果
print(result["text"])

解释：

language="en"：告诉 Whisper 输入的语言是英文。
task="translate"：启用翻译模式，Whisper 会将识别到的英文语音翻译成中文。
result["text"]：这是翻译后的中文文本。

注意事项：

翻译质量：Whisper 的翻译能力比较强，但它的翻译质量受限于模型的规模与训练数据。因此，翻译结果可能不是完美的，特别是针对某些复杂的句子或语境。
语音识别和翻译：Whisper 结合了语音识别与翻译功能，适合直接从语音中获得翻译文本，而不需要分开执行语音识别和翻译步骤。

总结：

Whisper 能够处理英文语音，并将其翻译成中文，直接通过设置 task="translate" 来实现。

原文地址：https://blog.csdn.net/jsyzliuyu/article/details/144130762

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Ubuntu下安装nginx和redis
下一篇：IvorySQL与pg_failover_slot插件：如何实现逻辑复制槽的高可用主备同步

.NET(C#) 如何配置用户首选项及保存用户设置
.NET(C#) 如何配置用户首选项及保存用户设置
阅读更多2024-12-14
【最新】北大数字普惠金融指数数据集-省市县（2011-2023年）
郭峰,王靖一,王芳,孔涛,张勋,程志云.测度中国数字普惠金融发展:指数编制与空间特征[J].经济学(季刊),2020,19(04):1401-1418.时间跨度：省级和城市级指数时间跨度为2011-2
阅读更多2024-12-14
GESP202412 四级【Recamán】题解（AC）
a11ak−1−kkakak−1−kak−1k小杨想知道 Recamán 数列的前n项从小到大排序后的结果。手动计算非常困难，小杨希望你能帮他解决这个问题。
阅读更多2024-12-14
IDEA遇到EasyConnect中的网络资源无法访问的问题
版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。原文链接：https://blog.csdn.net/wanshanyu_/article/de
阅读更多2024-12-14
双目摄像头标定方法
此时已经完成标定，左下角为反投影误差，右边为外参可视化。将双目左右目拍的图像上传（左右目最好不少于20张）此时回到主页面，即可看到成功导出。把这些误差大的删除即可。
阅读更多2024-12-14
Servlet、omcat服务器架构与工作原理
Servlet是运行在服务器端的Java程序，它的主要职责之一是接收并处理来自客户端（如浏览器）的HTTP请求。当客户端发送一个请求到服务器时，Servlet可以解析请求中的信息，例如请求的URL路径
阅读更多2024-12-14
Vue生命周期钩子函数：深入解析与实践
作为高级Vue前端开发人员，对Vue组件的生命周期钩子函数有着深刻的理解是至关重要的。生命周期钩子函数是指在Vue组件的创建、更新、销毁等过程中，Vue自动调用的一系列方法。通过这些钩子函数，我们可以
阅读更多2024-12-14
安卓开发--使用android studio发布APP
app发布
阅读更多2024-12-14
数据结构与算法学习笔记----拓扑排序
@ author: 明月清了个风。
阅读更多2024-12-14
python 将数据保存到现有的Excel文件的新工作表
out_file = ‘query.xlsx’df1 = pd.DataFrame(out_data)若直接写入：df1.to_excel(out_file, index=False, sheet_n
阅读更多2024-12-14

使用Python和OpenAI Whisper为视频生成字幕

解析代码：

1. whisper.load_model("base", device=device)

2. device=device

为什么使用 "base" 模型？