音频3A——初步了解音频3A

🕗 发布于 2024-09-24 07:08 音视频

文章目录

前言
一、3A使用的场景和原理
二、3A带来的问题
三、开源3A算法
总结

前言

在日常的音视频通话过程中，说话的双端往往会面对比较复杂的场景，比如：环境存在较大的噪声，扬声器需要开启外放导致麦克风重新采集到，麦克风固定而人物需要走来走去等等的场景。

而为了面对这些复杂的场景，音频通话不得不引入算法对于声音进行预处理，再进行发送给远端。而3A是对于音视预处理的三种算法的统称。这三种算法分别是：

AEC（Acoustic Echo Cancellation）：声学回声消除
AGC (Automatic Gain Control)：自动增益控制

以及硬件3A和软件3A中不同的降噪技术：

ANS (Automatic Noise Suppression) ：自动噪声抑制（软件噪声抑制算法）
ANR（Active Noise Reduction）：主动噪声消除（硬件噪声抑制算法）

本篇文章中，会对3A的应用场景、基本原理、一些开源的3A库、以及引入3A会带来哪些问题做详细的介绍

|版本声明：山河君，未经博主允许，禁止转载

一、3A使用的场景和原理

1.AEC

解决问题：消除回声，尤其是在通话或会议过程中，扬声器声音被麦克风拾取，导致反复回传形成回声。
应用场景：视频会议、电话会议、语音助手等涉及麦克风和扬声器同时使用的场景。
工作原理：AEC 技术通过比较输入音频信号和输出信号，识别并减弱回声部分，确保只有原始的语音信号被传输。

2.AGC

解决问题：自动调节音量，使得音频信号的强度保持在一个稳定的范围内，防止声音过大或过小。
应用场景：语音通信、录音、音频采集系统中，用于在距离、音量差异较大的情况下确保音量一致性。
工作原理：AGC 监测输入信号的电平，当声音过弱时自动提高增益，过强时降低增益，从而保证输出信号的音量在适当范围内。

3.ANS/ANR

ANS和ANR虽然目的都是为了降低音频通话过程中产生的噪声，但是两者在使用时机和原理上，存在很大的区别，具体

解决问题：抑制背景噪声，如风声、键盘声、交通噪声等，以提高语音的清晰度和质量。
应用场景：语音通信、会议、录音、语音识别等场景，特别是在嘈杂环境中进行的音频处理。
工作原理：ANS 技术通过分析音频信号中的噪声成分并将其过滤，保留清晰的语音部分，从而提高音质。而ANR是通过使用麦克风捕捉环境噪声，并产生与噪声相位相反的声音信号来进行噪声抵消。

4.硬件3A和软件3A的区别

1）层级不同

硬件3A是通过专用的音频处理芯片或设备在硬件层面实现的音频增强功能，如自动增益控制、回声消除和噪声抑制。
软件3A通过音频处理算法和数字信号处理（DSP）在软件层面实现，包括在移动设备或电脑上运行的音频增强功能。

2）处理顺序不同

硬件3A处理顺序：AEC->ANR->AGC
软件3A处理顺序：AEC->AGC->ANS

产生不同的原因：
硬件3A往往需要处理实时性高的任务，因此ANR被提前应用，因为硬件可以更高效地处理环境噪声，减少低频噪声干扰，再进行增益控制。

而软件3A通常以灵活性为目标，处理复杂的噪声场景，因此优先进行增益控制，然后再通过算法进行噪声抑制，以确保语音信号在处理前后的一致性。

3）优缺点

	硬件3A	软件3A
延迟	低延迟: 由于硬件直接处理信号，通常具有较低的延迟	由于音频信号需要经过处理器的计算，可能会带来一定的延迟
成本	开发和制造专用硬件需要较高的成本，且设备升级或维修困难	依赖现有的处理器和硬件，不需要额外的音频处理芯片，从而降低了成本
性能	专用硬件可以更有效地处理音频信号，节省系统的CPU和电源资源，特别在移动设备或嵌入式系统中表现更好	软件处理音频通常需要占用设备的CPU和内存资源，可能影响其他应用的运行
扩展性	硬件方案较为固定，不容易根据不同场景需求进行调整或升级	软件可以通过更新或升级实现新功能，而无需更换硬件设备
维护	硬件处理通常是固定的，保证了一定的一致性和稳定性	软件算法可以根据不同的需求进行调整和优化

5.处理过程

这里以硬件3A举例

在这里插入图片描述

整体3A工作流程如下：

近端麦克风采集到Noise， Speaker和人声
AEC通过AF(滤波器)模拟回声通道，再通过NLP进行非线性回声消除
通过ANR进行噪声抑制
通过AGC进行音量增益
通过EQ和CNG增加语音舒适度（非必须）再发送到远端

二、3A带来的问题

既然3A能够带来那么多的好处，为什么使用场景上通常只是在音频通话中使用呢？例如演唱会、音乐会等等不使用呢？并且在实际场景中，还要根据环境不同进行调节参数呢？

下面来看一看3A引入的一些问题：

AEC（声学回声消除）相关问题：

误消除问题：在回声和语音信号难以区分时，AEC可能误将真实语音当作回声进行消除，导致语音部分被削弱或失真。
延迟引发的失效：AEC依赖于精确的时间同步，如果延迟过大，回声消除器可能无法及时捕捉并处理回声，导致回声仍然存在。
双讲问题：当两个人同时说话时，AEC 可能无法准确处理双向回声，从而导致语音不清晰或部分对话丢失。

AGC（自动增益控制）相关问题：

过度增益调整：AGC可能会导致音量波动过大，特别是在安静的环境下，它会试图放大背景噪声，导致不必要的噪声变得明显。
语音动态损失：在音乐或情感丰富的对话中，AGC可能削减声音的动态范围，使得声音显得过于平淡，失去了原有的情感表现。
慢速反应：AGC可能会对快速变化的音量反应不及时，导致声音过大会有突然的削弱，或者在突然安静后有一段时间声音仍然较高。

ANS（自动噪声抑制）相关问题：

语音质量下降：ANS在过度抑制背景噪声时，可能会削减语音的自然部分，导致语音失真或听起来不自然、机械化。
残留噪声或伪影：在抑制噪声时，ANS有时会留下残余噪声或产生伪影音效（如“嗡嗡”声），特别是在环境噪声复杂或变动较大的情况下。
适应性不足：对于突发性或非持续性的噪声，ANS可能不够灵敏，导致这些噪声在处理时被漏过或抑制效果较差。

综合问题：

处理延迟：音频3A技术的处理通常需要一些计算时间，特别是对于实时通话应用，这些延迟可能会影响自然的对话流畅性，导致讲话者之间出现不自然的停顿。
复杂环境表现不足：在非常复杂的音频环境下（例如同时存在回声、噪声和音量差异），音频3A系统可能无法同时应对所有问题，导致回声未完全消除、噪声仍然存在或音量波动不稳定。
算法适应问题：音频3A技术往往需要根据不同的环境和设备进行优化。如果没有正确调校，音频质量反而可能受到负面影响，尤其在不同设备（如不同品牌麦克风、扬声器）或不同声学环境中，可能会表现不一致。

三、开源3A算法

下面介绍一些常用的3A开源算法库

	介绍	功能	优点	缺点	git地址
webrtc	最为广泛使用的实时音频处理库之一	AEC、AGC、ANS 、VAD（语音检测技术）	功能丰富（不仅仅是3A）、跨平台、社区活跃、低延迟场景	使用复杂度高、性能高、调节困难	webrtc地址
SpeexDSP	轻量级的开源音频处理库，适合低功耗或嵌入式设备	AEC、AGC、ANS	轻量级、易于集成、低功耗和低延迟	功能不如 WebRTC 丰富、更新较少、高噪音环境表现一般	SpeexDsp地址
PulseAudio AEC Module	Linux 上常用的音频管理系统，它的模块中集成了回声消除功能，可以结合 WebRTC AEC 模块	AEC（基于 WebRTC）	无缝集成到桌面和应用程序中、基于 WebRTC、易用性	局限于 Linux 平台、使用体验有时受限于 PulseAudio 的整体设置、仅提供回声消除功能	PulseAudio 地址
RNNoise	基于深度学习的噪声抑制库,通过机器学习模型有效减少环境噪音	ANS（基于神经网络）	在复杂的噪声环境中效果非常好，特别适合高噪声背景下的语音通信,高效且低延迟，可以根据不同场景进行模型的训练和微调	只支持噪声抑制，训练模型难度，平台支持有限	RNNoise地址

总结

WebRTC Audio Processing：功能全面，适合复杂的实时音频通信应用，但复杂且资源占用较大。
SpeexDSP：轻量、简单，适合嵌入式和低功耗设备，但功能较为基础。
PulseAudio AEC：适合 Linux 桌面应用，集成简单，但功能相对较少。
RNNoise：神经网络噪声抑制效果好，适合高噪声环境，但需要与其他库结合使用。

总结

本篇文章是先对音频3A的概念和一些常用的开源算法的介绍，后面博主会结合实际一一对3A中的算法进行介绍，实际上个人也是从事音视频开发工作后才慢慢了解到这些知识，为了梳理和避免遗忘才坚持在写博客，如果有些不足的地方还希望读者能够指点出来。

如果对您有所帮助，请帮忙点个赞吧！

原文地址：https://blog.csdn.net/qq_42956179/article/details/142457342

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：跳蚤市场小程序|基于微信小程序的跳蚤市场(源码+数据库+文档)
下一篇：ubuntu、linux安装redis（使用tar包的方式）

Diffusion Transformer模型结构解析（DiT、SD3、Flux）
从 UNet 迁移到 DiT，可以利用 Transformer 模型的 scaling 能力，通过增大参数量来提升出图的质量。在这个迁移过程中，我们需要考虑 Transformer 应用于扩散模型时的
阅读更多2024-11-19
PHP 表单 - 必需字段
在PHP中处理表单的必需字段涉及到创建具有必需属性的表单，以及在服务器端验证这些字段。通过结合客户端和服务器端验证，可以确保用户填写了所有必要的信息，同时提供良好的用户体验。
阅读更多2024-11-19
基于Java Springboot电商个性化推荐系统
项目编号：springbootA076伴随着我国社会的发展，人民生活质量日益提高。于是对电商个性化推荐进行规范而严格是十分有必要的，所以许许多多的信息管理系统应运而生。此时单靠人力应对这些事务就显得有
阅读更多2024-11-19
基于KNN的旋转机械故障诊断Matlab实现
在文本分类领域有很多应用比较广泛的模型，例如决策树，支持向量机等等，当然像决策树这样的模型与 KNN 模型相比来说其规则比较简单，但他们只适用于较小尺寸的文档，而 KNN 模型对于较大尺寸的文档也有很
阅读更多2024-11-19
代码随想录刷题学习日记
39. 组合总和
阅读更多2024-11-19
ZYNQ程序固化——ZYNQ学习笔记7
1、对ZYNQ进行配置添加Flash2、添加SD卡3、重新生成硬件信息4、创建vitis工程文件5、勾选板级支持包6、对系统工程进行整体编译，生成两个Debug文件，如图所示。7、插入SD卡，格式化为
阅读更多2024-11-19
java笔试练习题笔记（9）
java面试练习题笔记（9）
阅读更多2024-11-19
AWTK-WIDGET-WEB-VIEW 实现笔记 (3) - MacOS
MacOS 上实现 AWTK-WIDGET-WEB-VIEW 有点麻烦，主要原因是没有一个简单的办法将一个 WebView 嵌入到一个窗口中。所以，我们只能通过创建一个独立的窗口来实现。
阅读更多2024-11-19
springboot的社区团购系统设计录像
springboot的社区团购系统设计
阅读更多2024-11-19
PostgreSQL学习总结（13）—— PostgreSQL 15.8 如何成就数据库性能王者？
在当今数据驱动的时代，数据库的性能无疑是企业和开发者最为关注的焦点之一。而 PostgreSQL 15.8 的横空出世，犹如一颗璀璨的明星，在数据库性能的苍穹中闪耀着耀眼的光芒，引得无数人为之侧目。今
阅读更多2024-11-19