音频入门（一）：音频基础知识与分类的基本流程

🕗 发布于 2025-01-22 10:49 音频分类时域信号频域 soundfile librosa

音频信号和图像信号在做分类时的基本流程类似，区别就在于预处理部分存在不同；本文简单介绍了下音频处理的方法，以及利用深度学习模型分类的基本流程。

一、音频信号简介

1. 什么是音频信号

2. 音频信号长什么样

二、音频的深度学习分类基本流程

一、音频信号简介

1. 什么是音频信号

音频信号是声音波形的电学表示，它可以捕捉声音的频率、幅度和时间特性。音频信号可以是模拟的，也可以是数字的：

模拟音频信号：
- 模拟音频信号是连续变化的电信号，它模拟了原始声音波形的物理特性。
- 它可以通过麦克风捕获，并通过扬声器、耳机或放大器进行播放。
- 模拟信号可以被录制在磁带、黑胶唱片等介质上。
数字音频信号：
- 数字音频信号是通过将模拟信号转换为一系列数字值来表示的，这个过程称为模数转换（ADC）。
- 数字音频信号通常以文件形式存储，如MP3、WAV、AAC等格式。
- 数字音频可以方便地进行编辑、处理和传输，且不受模拟信号的退化问题影响。

音频信号的基本属性包括：

采样率（Sampling Rate）：每秒内捕获的样本数量，单位是赫兹（Hz）。常见的采样率有44.1 kHz（CD质量）、48 kHz等。
位深度（Bit Depth）：每个样本的量化精度，单位是比特（bit）。常见的位深度有16位、24位等。
通道数（Channels）：音频信号的声道数量，如单声道（Mono）、立体声（Stereo）或环绕声（Surround Sound）。
频率内容（Frequency Content）：音频信号包含的频率范围，通常以赫兹（Hz）为单位。
幅度（Amplitude）：信号的强度或大小，通常影响声音的响度。

2. 音频信号长什么样

我们送入计算机的，肯定是数字音频信号了。那么，如何读取一段音频，并看看它是如何表示的呢？

和图像领域用Opencv或PIL等库读取图片类似，音频领域也有些专门的库可以读取/处理音频。

常用的库有soundfile、librosa等。下面我们使用soundfile读取一段音频，并展示其波形图、频谱图：

import soundfile
import resampy
import numpy as np
import matplotlib.pyplot as plt
from scipy.signal import stft


if __name__ == '__main__':
    audio_path = "/data/datasets/Audios/Golf_sound/1_batting/batting_240725_36.MP3"
    audio, sample_rate = soundfile.read(audio_path)
    print(audio.shape)
    print(sample_rate)

    audio_mean = np.mean(audio, 1)
    audio_resampled = resampy.resample(audio_mean, sample_rate, 16000, filter="kaiser_best")
    print(audio_resampled.shape)

    # 计算STFT
    freqs, times, spectrogram = stft(audio_resampled, sample_rate)


    # 绘制波形图
    plt.figure(figsize=(10, 2))
    plt.title('Audio Waveform')
    plt.xlabel('Time (seconds)')
    plt.ylabel('Amplitude')
    plt.plot(audio[:, :])


    # 绘制频谱图
    plt.figure(figsize=(10, 4))
    plt.title('Audio Spectrogram')
    plt.xlabel('Time (seconds)')
    plt.ylabel('Frequency (Hz)')
    plt.imshow(np.abs(spectrogram), aspect='auto', origin='lower')
    plt.colorbar()

运行后会绘制两个图：音频的波形图和STFT频谱图。

可以看到，原始音频是多通道的（示例音频是2通道，不同可能会有不同通道数），每个通道都可以看成是个一维的时序信号。

二、音频的深度学习分类基本流程

那么我们如何对音频信号进行分类呢？在信号处理领域，通常会将原始信号转换为更容易捕获特征的频域信号，然后利用一些手工设计特征或者深度学习方法捕获的特征，送入分类器，然后得到各个类别的概率。

下面是一个从原始信号到最终类别概率的深度学习算法流程：

相关的深度学习模型有CAMPPlus、ResNetSE、Res2Net等，它们可以从频域特征提取更为高级的语义特征，然后利用一个FC层分类得到各个类别的概率。

模型论文（引自参考3）：

参考：

1. Librosa： https://librosa.org/

2. python-soundfile — python-soundfile 0.11.0 documentation

3. https://github.com/yeyupiaoling/AudioClassification-Pytorch

原文地址：https://blog.csdn.net/oYeZhou/article/details/140720215

免责声明：本站文章内容转载自网络资源，如侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：（计算机毕设选题推荐）基于大数据的城市交通流量分析与预测
下一篇：OFD实现在线预览的几种方式

构建沉浸式汉语学习环境
系统通过API网关与现有教育平台（如Moodle）无缝集成，支持快速部署。持续学习机制确保内容与时俱进，每月自动更新流行语库与文化热点。的技术三角，构建沉浸式汉语学习环境。
阅读更多2025-01-22
弹框上传预览
【代码】弹框上传预览。
阅读更多2025-01-22
Python 字符串处理深度解析：高级操作技巧、性能优化与实用案例全解
在Python中，字符串（str）是用于表示文本数据的不可变序列类型。其定义方式灵活多样，既可以使用单引号'...'、双引号"..."也可借助三引号'''...'''或"
阅读更多2025-01-22
SELF-RAG: 通过自我反思学习检索、生成和批判——图文并茂总结
SELF-RAG 是一种创新的框架，通过按需检索和自我反思来提高 LLM 的生成质量和事实准确性。实验结果表明，SELF-RAG 在多个任务上均优于现有的 LLM 和 RAG 方法。SELF-RAG
阅读更多2025-01-22
【Nginx系列】Nginx配置超时时间
检查配置是否在正确的上下文中设置。确保没有其他与超时相关的指令冲突。确保每次修改后重载配置，并测试是否正确。检查错误日志了解更多超时信息。尝试这些步骤后，如果仍然无法生效，可以分享更详细的配置或错误日
阅读更多2025-01-22
机器学习-核函数（Kernel Function）
核函数（Kernel Function）是一种数学函数，主要用于将数据映射到一个更高维的特征空间，以便于在这个新特征空间中更容易找到数据的结构或模式。核函数的主要作用是在不需要显式计算高维特征空间的情
阅读更多2025-01-22
Android系统开发（二十）：字体活起来，安卓自定义字体改造指南
在安卓系统中，字体不仅是UI设计的基础，更是品牌和文化的延伸。过去，修改字体需要通过复杂的系统更新，甚至涉及底层操作，风险和成本极高。再到Android 15，可变字体支持和动态实例化技术大大提升了字
阅读更多2025-01-22
【力扣系列题目】不同路径组合总和最大连续1个数打家劫舍{持续更新中...}
【代码】【力扣系列题目】不同路径组合总和最大连续1个数打家劫舍{持续更新中...}
阅读更多2025-01-22
【专题】为2025制定可付诸实践的IT战略规划报告汇总PDF洞察（附原数据表）
在当今瞬息万变的商业环境中，制定有效的IT战略规划对于企业的成功与可持续发展至关重要。本报告深入探讨了制定IT战略规划的关键活动，旨在为企业和决策者提供全面且实用的指导。Gartner的《为2025制
阅读更多2025-01-22
stm32使用MDK5.35时遇到*** TOOLS.INI: TOOLCHAIN NOT INSTALLED
mdk5.35出现***TOOLS.INI:TOOLCHAINNOTINSTALLED的问题！以管理员身份重新打开MDK5.35.0.0，用keygen破解密码，但是一直提示我是没有破解成功。targ
阅读更多2025-01-22

音频入门（一）：音频基础知识与分类的基本流程

一、音频信号简介

1. 什么是音频信号

2. 音频信号长什么样

二、音频的深度学习分类基本流程

参考：

相关文章