FunASR语言识别的环境安装、推理

🕗 发布于 2025-01-19 11:00 r语言 xcode 开发语言

一、环境配置

源码地址：FunASR

FunASR/README_zh.md at main · alibaba-damo-academy/FunASR · GitHub

1、创建虚拟环境

conda create -n funasr python==3.9 -y

conda activate funasr

2、模型下载

实时语音识别模型地址：FunASR语音识别模型下载

测试音频（中文，英文）

二、推理识别模型

1、实时语音识别

from funasr import AutoModel

chunk_size = [0, 10, 5] #[0, 10, 5] 600ms, [0, 8, 4] 480ms
encoder_chunk_look_back = 4 #number of chunks to lookback for encoder self-attention
decoder_chunk_look_back = 1 #number of encoder chunks to lookback for decoder cross-attention

model = AutoModel(model="paraformer-zh-streaming")

import soundfile
import os

wav_file = os.path.join(model.model_path, "example/asr_example.wav")
speech, sample_rate = soundfile.read(wav_file)
chunk_stride = chunk_size[1] * 960 # 600ms

cache = {}
total_chunk_num = int(len((speech)-1)/chunk_stride+1)
for i in range(total_chunk_num):
    speech_chunk = speech[i*chunk_stride:(i+1)*chunk_stride]
    is_final = i == total_chunk_num - 1
    res = model.generate(input=speech_chunk, cache=cache, is_final=is_final, chunk_size=chunk_size, encoder_chunk_look_back=encoder_chunk_look_back, decoder_chunk_look_back=decoder_chunk_look_back)
    print(res)

注：chunk_size为流式延时配置，[0,10,5]表示上屏实时出字粒度为10*60=600ms，未来信息为5*60=300ms。每次推理输入为600ms（采样点数为16000*0.6=960），输出为对应文字，最后一个语音片段输入需要设置is_final=True来强制输出最后一个字。

2、非实时语音识别

from funasr import AutoModel
from funasr.utils.postprocess_utils import rich_transcription_postprocess

model_dir = "iic/SenseVoiceSmall"

model = AutoModel(
    model=model_dir,
    vad_model="fsmn-vad",
    vad_kwargs={"max_single_segment_time": 30000},
    device="cuda:0",
)

# en
res = model.generate(
    input=f"{model.model_path}/example/en.mp3",
    cache={},
    language="auto",  # "zn", "en", "yue", "ja", "ko", "nospeech"
    use_itn=True,
    batch_size_s=60,
    merge_vad=True,  #
    merge_length_s=15,
)
text = rich_transcription_postprocess(res[0]["text"])
print(text)

参数说明：

model_dir：模型名称，或本地磁盘中的模型路径。
vad_model：表示开启VAD，VAD的作用是将长音频切割成短音频，此时推理耗时包括了VAD与SenseVoice总耗时，为链路耗时，如果需要单独测试SenseVoice模型耗时，可以关闭VAD模型。
vad_kwargs：表示VAD模型配置,max_single_segment_time: 表示vad_model最大切割音频时长, 单位是毫秒ms。
use_itn：输出结果中是否包含标点与逆文本正则化。
batch_size_s 表示采用动态batch，batch中总音频时长，单位为秒s。
merge_vad：是否将 vad 模型切割的短音频碎片合成，合并后长度为merge_length_s，单位为秒s。
ban_emo_unk：禁用emo_unk标签，禁用后所有的句子都会被赋与情感标签

未完...

参考：https://github.com/modelscope/FunASR/blob/main/README_zh.md

原文地址：https://blog.csdn.net/m0_60657960/article/details/145224489

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【QT用户登录与界面跳转】
下一篇：【统计的思想】假设检验（一）

USB3020任意波形发生器4路16位同步模拟量输出卡1MS/s频率阿尔泰科技
数字信号处理技术的出现改变了信息与信号处理技术的整个面貌，而数据采集作为数字信号处理的必不可少的前期工作在整个数字系统中起到关键性、乃至决定性的作用，其应用已经深入到信号处理的各个领域中。我公司推
阅读更多2025-01-19
【C++】list容器
list容器，你搞懂了吗？
阅读更多2025-01-19
贪心算法（题1）区间选点
ed 上一个点的下标。
阅读更多2025-01-19
leetcode88. 合并两个有序数组，倒着做
leetcode88. 合并两个有序数组，倒着做
阅读更多2025-01-19
MS SQL Server partition by 函数实战三成绩排名
关键语句：row_number() over (partition by zwmc order by kszcj desc,kscj1 desc,kscj2 desc)，按 zwmc （职位名称）分区
阅读更多2025-01-19
UI自动化测试框架之PO模式+数据驱动
什么是 PO模式？PO（PageObject）设计模式将某个页面的所有元素对象定位和对元素对象的操作封装成一个 Page 类，并以页面为单位来写测试用例，实现页面对象和测试用例的分离。PO 模式的设计
阅读更多2025-01-19
SpringBoot3 + Flowable7 工作流引擎使用笔记
Flowable 由 Activiti 项目分支演变而来，用于构建和管理各种业务流程。其核心是一个通用的流程引擎，支持 BPMN 2.0（Business Process Model and Nota
阅读更多2025-01-19
基于SSM实现的乡村振兴文化平台系统功能实现六
本章功能：景点信息数据层Dao、景点信息mapper.xml、景点相册信息数据层Dao、景点相册信息mapper.xml、景点评论信息数据层Dao、景点评论信息mapper.xml、景点评论回复信息数
阅读更多2025-01-19
Golang Gin系列-4：Gin Framework入门教程
在本章中，我们将深入研究Gin，一个强大的Go语言web框架。我们将揭示制作一个简单的Gin应用程序的过程，揭示处理路由和请求的复杂性。此外，我们将探索基本中间件的实现，揭示精确定义路由和路由参数的技
阅读更多2025-01-19
【2024年华为OD机试】 (B卷,200分)- 区间交集（Java & JS & Python&C/C++）
如何高效地求出任意两个区间的交集。如何合并重叠的公共区间。通过排序和合并区间的算法，可以高效地解决这个问题。华为OD（Outsourcing Developer，外包开发工程师）是华为针对软件开发工程
阅读更多2025-01-19

FunASR语言识别的环境安装、推理

一、环境配置

二、推理识别模型

相关文章