语音识别语音识别项目相关笔记内容

🕗 发布于 2024-07-23 16:32 语音识别笔记 xcode

语音识别语音识别项目相关笔记内容

语音识别应用范畴
语音识别框架
语音基本操作
音频特征相关内容
RNN相关内容
卷积模块
语音识别小项目（音频事件检测）
语音特征提取——动态时间规整（Dynamic Time Warping，简称 DTW）

语音识别应用范畴

在这里插入图片描述

语音识别框架

在这里插入图片描述

语音基本操作

在这里插入图片描述

使用scipy.io.wavfile读取wav音频文件获取采样率、长度、通道数

import scipy.io.wavfile as wavfile

# 读取 WAV 文件
file_path = 'path_to_your_audio_file.wav'
sampling_rate, data = wavfile.read(file_path)

# 获取采样率
print(f'Sampling Rate: {
     sampling_rate} Hz')

# 获取音频长度
# 音频长度 = 样本数 / 采样率
audio_length = data.shape[0] / sampling_rate
print(f'Audio Length: {
     audio_length:.2f} seconds')

# 获取通道数
# 如果音频是单声道，data.shape 将返回 (样本数,)
# 如果音频是多声道，data.shape 将返回 (样本数, 通道数)
if len(data.shape) == 1:
    channels = 1
else:
    channels = data.shape[1]

print(f'Number of Channels: {
     channels}')

使用numpy读取pcm格式音频文件

在这里插入图片描述

import numpy as np

# 定义PCM文件的路径
pcm_file_path = 'path/to/your/audio.pcm'

# 定义采样率和采样深度
sample_rate = 44100  # 例如，44.1 kHz
sample_depth = 16    # 例如，16-bit PCM

# 读取PCM文件
def read_pcm(file_path, sample_rate, sample_depth):
    # 根据采样深度设置数据类型
    if sample_depth == 16:
        dtype = np.int16
    elif sample_depth == 32:
        dtype = np.int32
    else:
        raise ValueError("Unsupported sample depth: {}".format(sample_depth))

    # 读取二进制PCM数据并转换为NumPy数组
    pcm_data = np.fromfile(file_path, dtype=dtype)

    # 返回音频数据和采样率
    return pcm_data, sample_rate

# 读取PCM文件数据
audio_data, sr = read_pcm(pcm_file_path, sample_rate, sample_depth)

# 打印音频数据和采样率
print("Sample Rate: {} Hz".format(sr))
print("Audio Data: ", audio_data)

在这里插入图片描述

读取wav音频文件，并绘制图像

import numpy as np
import matplotlib.pyplot as plt
from scipy.io import wavfile

# 读取 WAV 文件
sample_rate, audio_data = wavfile.read('your_audio_file.wav')

# 如果音频是立体声，将其转换为单声道
if audio_data.ndim > 1:
    audio_data = audio_data.mean(axis=1)

# 创建时间轴
time_axis = np.linspace(0, len(audio_data) / sample_rate, num=len(audio_data))

# 绘制音频波形
plt.figure(figsize=(15, 5))
plt.plot(time_axis, audio_data, label='Audio waveform')
plt.xlabel('Time [s]')
plt.ylabel('Amplitude')
plt.title('Waveform of the audio file')
plt.legend()
plt.show()

读取双声道的wav音频文件，分别绘制不同声道的波形图

import numpy as np
import matplotlib.pyplot as plt
from scipy.io import wavfile

# 读取 WAV 文件
sample_rate, audio_data = wavfile.read('your_stereo_audio_file.wav')

# 检查是否为双声道音频
if audio_data.ndim != 2 or audio_data.shape[1] != 2:
    raise ValueError("音频文件不是双声道文件")

# 分离左右声道
left_channel = audio_data[:, 0]
right_channel = audio_data[:, 1]

# 创建时间轴
time_axis = np.linspace(0, len(left_channel) / sample_rate, num=len(left_channel))

# 绘制左声道波形
plt.figure(figsize=(15, 5))
plt.subplot(2, 1, 1)
plt.plot(time_axis, left_channel, label='Left Channel', color='blue')
plt.xlabel('Time [s]')
plt.ylabel('Amplitude')
plt.title('Left Channel Waveform')
plt.legend()

# 绘制右声道波形
plt.subplot(2, 1, 2)
plt.plot(time_axis, right_channel, label='Right Channel', color='red')
plt.xlabel('Time [s]')
plt.ylabel('Amplitude')
plt.title('Right Channel Waveform')
plt.legend()

# 显示波形图
plt.tight_layout()
plt.show()

读取一个采样率为16k的音频，分别绘制出其时域与频域的图

import numpy as np
import matplotlib.pyplot as plt
from scipy.io import wavfile
from scipy.fftpack import fft

# 读取 WAV 文件
sample_rate, audio_data = wavfile.read('your_audio_file.wav')

# 检查采样率是否为16k
if sample_rate != 16000:
    raise ValueError("音频文件的采样率不是16k")

# 如果是立体声，取第一个通道
if audio_data.ndim == 2:
    audio_data = audio_data[:, 0]

# 创建时间轴
time_axis = np.linspace(0, len(audio_data) / sample_rate, num=len(audio_data))

# 绘制时域图
plt.figure(figsize=(12, 6))
plt.subplot(2, 1, 1)
plt.plot(time_axis, audio_data, label='Time Domain', color='blue')
plt.xlabel('Time [s]')
plt.ylabel('Amplitude')
plt.title('Time Domain Signal')
plt.legend()

# 计算音频的 FFT（快速傅里叶变换）
n = len(audio_data)
audio_fft = fft(audio_data)
audio_fft = np.abs(

原文地址：https://blog.csdn.net/guoqingru0311/article/details/140494995

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：C++学习笔记
下一篇：Python 之 os、open、json、pickle 模块的“疯狂”探险记

GOLANG笔记第四周
原本的本地函数放到另一个服务器上运行，但是引入了很多新问题Call 的id映射序列化和反序列化网络传输。
阅读更多2024-11-16
redis集群主备模式的快速搭建
redis主备集群可以有效的实现节点的冗余备份，提高redis的负载压力的同时，又有效的实现了故障切换。
阅读更多2024-11-16
Python实现贪吃蛇经典解压小游戏！附源码
大家应该都玩过诺基亚上面的贪吃蛇吧，那是一段美好的童年回忆，本文将带你一步步用python语言实现一个snake小游戏！版本：Python3●系统：Windows●相关模块：pygamepip ins
阅读更多2024-11-16
Unity中HDRP设置抗锯齿
在Unity的高清渲染管线（HDRP）中，Post Anti-Aliasing（后期抗锯齿）提供了几种不同的抗锯齿选项，以减少图像中的锯齿效果并提升视觉质量。FXAA是一种基于像素的抗锯齿方法，通过模
阅读更多2024-11-16
嘎嘎快充php版服务端部署配置注意玉阳软件
6、需要移除PHP禁用函数：proc_open、pcntl_alarm、pcntl_fork、pcntl_wait、pcntl_signal、pcntl_signal_dispatch。7、不需要cd
阅读更多2024-11-16
Docker 容器常见故障排查及处理
Docker 容器常见故障排查及处理。
阅读更多2024-11-16
Python实现人脸识别算法并封装为类库（续）
本文将介绍如何使用Python实现一个人脸识别系统，并将其封装为一个类库。我们将逐步扩展和完善这个类库，增加代码优化、人脸照片存储到数据库、对特殊场景（如戴口罩、眼镜）的优化，以及灵活的识别距离设置。
阅读更多2024-11-16
CentOS虚拟机使用记录
1.安装 Vmtool ,重启后可显示U盘2.安装minicomcentOs 安装使用yum minicom ,没有apt-get 命令通过ssh网口root 2440ssh root@192.16
阅读更多2024-11-16
MATLAB中的绘图技巧
综上所述，MATLAB凭借其强大的绘图功能，为用户提供了丰富多样的可视化选择。从基础的二维图形到复杂的三维动画，MATLAB都能够胜任。掌握这些绘图技巧，不仅能够提升数据分析的可读性，也能够增强报告和
阅读更多2024-11-16
Win11 终端执行 python xxx.py 没反应
在 Win11 上写了一段 Python 代码来分析日志文件，发现执行没反应。是在 VSCode 里的终端中执行的。, 是 PowerShell；也尝试了 cmd，情况一样。WindowsApps
阅读更多2024-11-16

语音识别 语音识别项目相关笔记内容

语音识别 语音识别项目相关笔记内容

语音识别应用范畴

语音识别框架

语音基本操作

使用scipy.io.wavfile读取wav音频文件获取采样率、长度、通道数

使用numpy读取pcm格式音频文件

读取wav音频文件，并绘制图像

读取双声道的wav音频文件，分别绘制不同声道的波形图

读取一个采样率为16k的音频，分别绘制出其时域与频域的图

相关文章

语音识别语音识别项目相关笔记内容

语音识别语音识别项目相关笔记内容