百度智能云千帆部署流程---语音识别和合成

🕗 发布于 2024-11-29 05:57 python 开发语言

一、前期准备

二、语音合成

三、语音识别

实现整个流程如下图，但是我们的工作量并不是很多，我们可以在官网找到示例代码

一、前期准备

这里我们使用到3个代码

API_KEY.py 填写我们的API

xzarm_asr.py 语音识别

xzarm_tts.py 语音合成

# API_KEY.py
# 小智-学长 2024-10-19

# 百度智能云千帆AppBuilder-SDK
#https://console.bce.baidu.com/ai_apaas/secretKey
APPBUILDER_TOKEN = "bce-v3/ALTAK-zQsH6******"#语音合成

# 百度智能云千帆ModelBuilder
# https://console.bce.baidu.com/ai/#/ai/speech/overview/index
APPBUILDER_token = "25.548acf45ed740******"#语音识别

后期我们可能用到这两个网站，我们先暂时放置在这里，分别使用到百度智能云千帆AppBuilder-SDK、ModelBuilder，对应着语音合成和语音识别。

百度智能云千帆AppBuilder-SDKhttps://console.bce.baidu.com/ai_apaas/secretKey

语音合成：百度智能云千帆AppBuilder-SDK

百度智能云千帆ModelBuilderhttps://console.bce.baidu.com/ai/#/ai/speech/overview/index

语音识别：百度智能云千帆ModelBuilder

我们先安装用到的库

pip install --upgrade appbuilder-sdk

下载速度慢可能是由于网络连接不稳定或者与 PyPI 的服务器距离较远。你可以尝试以下几种方法来加快下载速度：

国内的 PyPI 镜像源速度通常更快，可以通过指定源来加速下载。例如，使用阿里云镜像

pip install --upgrade nodezator -i https://mirrors.aliyun.com/pypi/simple/

其他常见的国内镜像源：

清华大学：https://pypi.tuna.tsinghua.edu.cn/simple/
豆瓣：https://pypi.doubanio.com/simple/

将以上 URL 替换到 -i 后即可。

二、语音合成

打开我们的网址百度智能云千帆AppBuilder，点击“密钥管理”，没有密钥的话就新建一个

记录这个值，填写到API_KEY.py 的APPBUILDER_TOKEN

需要填写：xzarm_tts_tts(TEXT=' ', tts_wav_path = ' ')

运行代码将保存语音文件wav到指定的文件夹下

# xzarm_tts.py
# 小智-学长 2024-5-23
# 语音合成

print('导入语音合成模块')

import os
import appbuilder
from API_KEY import *
os.environ["APPBUILDER_TOKEN"] = APPBUILDER_TOKEN
tts_ab = appbuilder.TTS()


def xzarm_tts_tts(TEXT='我是小智大模型AI机械臂，您可以说出你的要求，我会一一完成要求', tts_wav_path = 'temp/xzarm_tts_tts.wav'):
    '''语音合成TTS，生成wav音频文件'''
    inp = appbuilder.Message(content={"text": TEXT})
    out = tts_ab.run(inp, model="paddlespeech-tts", audio_type="wav")
    with open(tts_wav_path, "wb") as f:
        f.write(out.content["audio_binary"])
    print("TTS语音合成，导出wav音频文件至：{}".format(tts_wav_path))
xzarm_tts_tts(TEXT='我是大模型AI机械臂，您可以说出你的要求，我会一一完成要求哦', tts_wav_path = 'temp/xzarm_tts_tts.wav')

三、语音识别

打开我们的网址语音技术 - 百度智能云控制台，点击“应用列表” “创建应用”

我们点击“API在线调试”，找到refresh_token的值，填到API_KEY.py 的APPBUILDER_token

记录这个值，填写到API_KEY.py 的APPBUILDER_token

运行代码将显示出识别的结果，如果不是，请查看错误码对应的问题。

# xzarm_asr.py
# 小智-学长 2024-10-19
# 录音+语音识别

print('导入录音+语音识别模块')
import os,json,base64,requests
from API_KEY import *

def xzarm_asr_recognition(audio_path='temp/speech_record.wav'):
    """
    录音文件的语音识别，返回识别结果
    :param audio_path: 需要识别的音频文件路径
    :return: 语音识别结果文本
    """
    url = "https://vop.baidu.com/server_api"
    
    # 读取音频文件并进行Base64编码
    with open(audio_path, "rb") as f:
        content = base64.b64encode(f.read()).decode("utf8")
        size = os.path.getsize(audio_path)

    # 准备请求数据
    payload = json.dumps({
        "format": "pcm",
        "rate": 16000,
        "channel": 1,
        "cuid": "Hy5qg1neIBkl8ltIHWefF6uwTtNBmF49",
        "token": APPBUILDER_token,
        "speech": content,
        "len": size
    })
    headers = {
        'Content-Type': 'application/json',
        'Accept': 'application/json'
    }
    
    # 发起POST请求
    response = requests.post(url, headers=headers, data=payload)
    response_data = response.json()
    
    # 解析并返回识别结果
    if 'result' in response_data:                
        text = response_data['result'][0]
        print('语音识别结果：:', text)
        return text
    else:
        print("识别失败:", response_data)
        return None
xzarm_asr_recognition(audio_path='temp/xzarm_tts_tts.wav')

结果：

原文地址：https://blog.csdn.net/weixin_45477686/article/details/144097359

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：网安瞭望台第6期：XMLRPC npm 库被恶意篡改、API与SDK的区别
下一篇：没有了

JS听到了天行健的回响
有点小逆天，进度居然这么快，让我有点季度但是感觉没东西比cpp难学了保存用户信息用之前学过的数据类型不方便所以先描述再组织就有对象了对象是一种数据类型，无序数据的集合可以详细的描述某个事物。
阅读更多2024-11-29
贝叶斯统计：高斯分布均值μ的后验分布推导
在贝叶斯统计中，后验分布表示在观察到数据后，对参数的更新后的信念。
阅读更多2024-11-29
动态内存管理的知识点笔记总结
动态内存的函数：malloc，calloc，realoc，free等知识点笔记
阅读更多2024-11-29
一款适用于教育行业的免费word插件
这个插件特别适合用于Word和WPS，提供了多种实用功能，如批量编号、快速插入标志、文件转换、答案清除、内容中转站、图片高度统一调整和填空答案快速提取等。安装简便，通过百度网盘链接即可下载。它能显著提
阅读更多2024-11-29
BAT WPS OFFICE免登录工具
新版WPS OFFICE 需要登陆后才可以使用基础功能，此软件来免登录就可以使用WPS OFFICE基础功能。
阅读更多2024-11-29
网站怎么防御https攻击
企业需要从多个层面入手，构建全面的安全防护体系，保障网站的数据安全、用户隐私和业务稳定运行。5.采用HTTP/2：HTTP/2协议具有较好的性能和安全性，能够有效降低HTTPS攻击的风险。1.SSL劫
阅读更多2024-11-29
linux基础2
声明！学习视频来自B站up主有兴趣的师傅可以关注一下，如涉及侵权马上删除文章，笔记只是方便各位师傅的学习和探讨，文章所提到的网站以及内容，只做学习交流，其他均与本人以及泷羽sec团队无关，切勿触碰法律
阅读更多2024-11-29
LeetCode—74. 搜索二维矩阵（中等）
因为矩阵具有单调性，所以可以将问题转化为一维数组的查找问题。每行中的整数从左到右按非严格递增顺序排列。每行的第一个整数大于前一行的最后一个整数。给你一个满足下述两条属性的。，则表示没有找到目标值，返回
阅读更多2024-11-29
Java 语言的起源发展与基本概念(JDK,JRE,JVM)
JVM，全称Java虚拟机（Java Virtual Machine），是一个能够运行Java字节码的虚拟计算机。它并不是一种具体的硬件设备，而是一种基于计算机的软件系统，能够模拟硬件环境来执行Jav
阅读更多2024-11-29
【docker 拉取镜像超时问题】
在上安装docker，使用命令。
阅读更多2024-11-29

百度智能云千帆部署流程---语音识别和合成

一、前期准备

二、语音合成

三、语音识别

相关文章