webrtc音频模块(三) windows Core Audio API及声音的播放

🕗 发布于 2024-12-26 00:45 webrtc 音视频 windows

在前面介绍了ADM(Audio Device Module)，它用于抽象音频设备管理和音频数据采集/播放接口。windows的实现是AudioDeviceWinowCode，它封装了Core Audio APIs实现了对音频设备的操作。

Core Audio APIs

windows提供了多种音频操作API，比如最常用的是 waveXxx系列API，DirectSound等。而Core Audio APIs是这些API的基础，这些API使用Core Audio APIs提供了更通用的功能。

如下图是Core Audio APIs的架构图：

Core Audio APIs是一些高阶API（例如MME，DirectSound等）的基础。
箭头的方向表示了音频数据的流向。
它有两种工作模式，共享模式和独占模式。共享模式就是大家(多个应用程序)同时播放声音(声音被混音)，独占模式就是只能有一个程序播放，我一播，就没其他程序的声音了。
共享模式下，会有一个Audio Service进行协调各应用程序间的音频数据处理。这个很容易理解，多路声音，总该需要一个大管家来协调使用设备。
独占模式下，音频数据就直接到内核的驱动了。

Core Audio APIs特点是音频处理更高效，延时更低。对webrtc 这种RTC系统来说，正是需要其低延时的保证。

它四类子API

从上图中可以看到Core Audio APIs是一系列API的集合，它包括四类子API。

MMDevice API(用于检索播放采集设备)

用于应用程序检索音频终端设备，枚举出所有可使用的音频设备属性及确定其功能，并为这些设备创建驱动程序实例，是最基本的Core Audio API，服务于其它3个APIs。

WASAPI(控制播放和采集流)

应用程序可以通过它管理程序和音频终端设备之间音频数据的流。比如采集，回放音频。

DeviceTopology API(webrtc中没用到)

应用程序可以遍历音频适配器设备和音频终端设备的内部拓扑，并单步执行将设备链接到另一台设备的连接。通过 DeviceTopology API 中的接口和方法，客户端程序可直接沿着音频适配器 (audio adapters) 的硬件设备里的数据通道进入布局特征(例如，沿着音频终端设备的数据路径上进行音量控制) 。

EndpointVolume API(控制音量)

应用程序可以控制和监视音频终端设备的音量。

它们都以COM组件的方式提供，应用程序需要创建对应COM组件的实例，获取接口对象，再使用它们提供的方法。

`AudioDeviceWindowCore`

在webrtc中使用Core Audio APIs以下四个功能：

检索音频回放设备。
检索音频采集设备。
使用指定的音频设备回放声音。
使用指定的音频设备采集声音。
音频回放。
音频采集。

类图如下：

它直接管理Core Audio APIs的COM对象

以**I**开头的都是对象接口类：

IMMDevice代表一个音频设备。
IMMDeviceCollection音频设备集。
IMMDeviceEnumerator用于枚举音频设备。
IMMEndpoint代表一个音频终端设备。

功能实现

检索音频设备

如下图，系统中一般都会有扬声器和麦克风，在声音设置中可以看到它们。

在AudioDeviceWindowCore::Init方法中实现检索回放和采集设备，需要使用的接口对象是IMMDeviceEnumerator，检索出来的结果保存在 IMMDeviceCollection对象中。

音频设备有名字，音频参数(如:声道数，采样率等)等属性，这些都会一并获取到。

IMMDeviceCollection* pCollection = NULL;
hr = _ptrEnumerator->EnumAudioEndpoints(
      dataFlow,  // data-flow direction (input parameter)
      DEVICE_STATE_ACTIVE | DEVICE_STATE_DISABLED | DEVICE_STATE_UNPLUGGED,
      &pCollection);
hr = pCollection->GetCount(&count);
for (ULONG i = 0; i < count; i++)  {
   //遍历每个设备，获取对应的属性
}

调用EnumAudioEndpoints方法检索指定状态的设备，通过GetCount获取数量，再遍历设备获取属性。

播放声音

指定回放设备

首先要指定要使用的回放设备，通过序号指定，在IMMDeviceCollection中检索，通过index获取到IMMDevice对象，它就代表了一个音频设备。

回放声音需要使用WASAPI模块的IAudioClient接口，它通过IMMDevice获取

hr = _ptrDeviceOut->Activate(__uuidof(IAudioClient), CLSCTX_ALL, NULL,
    (void**)&_ptrClientOut);

根据设备支持的音频参数，确定一个输出格式。

音频，有采样率，声道，位率这些参数，不同的值决定了声音的质量及数据大小。WASAPI中用这个结构体来描述

在回放声音时，要指定这些参数，就是告诉WASAPI怎么去播放声音，但是首先要知道的是，音频设备支持怎样的播放参数。

hr = _ptrClientOut->GetMixFormat(&pWfxOut);

获取到的信息如下：

[017:755][95740] (audio_device_core_win.cc:1851): Audio Engine’s current rendering mix format:

[017:755][95740] (audio_device_core_win.cc:1853): wFormatTag : 0xfffe (65534)

[017:755][95740] (audio_device_core_win.cc:1857): nChannels : 2

[017:755][95740] (audio_device_core_win.cc:1859): nSamplesPerSec : 48000

[017:755][95740] (audio_device_core_win.cc:1861): nAvgBytesPerSec: 384000

[017:755][95740] (audio_device_core_win.cc:1863): nBlockAlign : 8

[017:755][95740] (audio_device_core_win.cc:1865): wBitsPerSample : 32

[017:755][95740] (audio_device_core_win.cc:1866): cbSize : 22

在webrtc中以采用率及声道数为标准现找一个与需求最贴合的参数，如下信息：

[017:802][95740] >>>>

[017:802][95740] (audio_device_core_win.cc:1927): VoE selected this rendering format:

[017:802][95740] (audio_device_core_win.cc:1928): wFormatTag : 0x1 (1)

[017:802][95740] (audio_device_core_win.cc:1931): nChannels : 2

[017:802][95740] (audio_device_core_win.cc:1932): nSamplesPerSec : 48000

[017:802][95740] (audio_device_core_win.cc:1933): nAvgBytesPerSec : 192000

[017:802][95740] (audio_device_core_win.cc:1934): nBlockAlign : 4

[017:802][95740] (audio_device_core_win.cc:1935): wBitsPerSample : 16

[017:802][95740] (audio_device_core_win.cc:1936): cbSize : 0

[017:802][95740] (audio_device_core_win.cc:1937): Additional settings:

[017:802][95740] (audio_device_core_win.cc:1938): _playAudioFrameSize: 4

[017:802][95740] (audio_device_core_win.cc:1939): _playBlockSize : 480

[017:802][95740] (audio_device_core_win.cc:1940): _playChannels : 2

确定了这些参数，就可以确定喂入设备的音频数据量大小。

获取流输出控制接口IAudioRenderClient

通过IAudioClient获取IAudioRenderClient，它就是控制音频流的接口。

hr = _ptrClientOut->GetService(__uuidof(IAudioRenderClient),
                                 (void**)&_ptrRenderClient);

相关代码在AudioDeviceWindowsCore::InitPlayout方法中。

播放

在webrtc使用的Core Audio API的共享模式，在共享模式下将会有一个Audio Service(在上面的图中可以看出来)，应用程序将通过Enpoint Buffer与Service交互。

播放声音，就是往这个buffer中写入音频数据，应用程序写入数据，Audio Service读取数据。

一端写，一端读，就需要判断buffer的空间，所以需要程如下几步：

先通过IAudioClient的 GetBufferSize接口获取buffer大小。
再通过IAudioClient的 GetCurrentPadding接口，获取buffer待Audio Service的处理的数据。
计算可用空间：buffer size - padding data size 就是buffer中可用的空间。
通过IAudioRenderClient的GetBuffer接口获取buffer的地址。
往buffer中写数据。

完整的流程可以看看AudioDeviceWindowsCore::DoRenderThread()方法。

需要注意一点，这里的buffer size不是以字节为单位，而是以audio frame为单位，通过API获取的是buffer可存放的audio frame数，及可用的frame空间。

audio frame的大小由采样率和采样时长决定，在webrtc中以10ms作为采样时长，那么48000HZ的采样率，一个audio frame的大小就是480采样点(换算成字节数：每个采样点2个字节，10ms的数据960个字节)。

播放线程

音频数据是不停的往Audio Service的buffer中写入，webrtc通过一个线程实现取应用层音频数据到写入buffer流程，如下流程图:

播放线程不会停，会持续不断的取数据，写入Audio Service Buffer，线程对应的方法为 AudioDeviceWindowsCore::DoRenderThread()。

原文地址：https://blog.csdn.net/m0_74823336/article/details/144703519

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【数据库原理】数据增删改查，DML、单表查询、多表连接查询
下一篇：编写Linux系统rhel9的网络配置脚本

Vivado常用IP例化1
本文主要列举Vivado中一些常用IP的例化。
阅读更多2024-12-26
Flink中并行度和slot的关系——任务和任务槽
Flink的每一个TaskManager是一个JVM进程，在其上可以运行多个线程（任务task），那么每个线程可以拥有多少进程资源呢？任务槽就是这样一个概念，对taskManager上每个任务运行所占
阅读更多2024-12-26
ASN.1 轻松入门2
BIT STRING、OCTET STRING、UTCTime、GeneralizedTime 还有各种字符串类型既可以是单一字段，也可以是复合字段，在 BER 中编码者可以自行决定，但在 DER
阅读更多2024-12-26
STM32 SPI读取SD卡
HAL库使用SPI模式读取SD卡的方法
阅读更多2024-12-26
webpakc介绍
因为不确定打出的前端包所访问的后端IP，需要对项目中IP配置文件单独拿出来，方便运维部署的时候对IP做修改。因此，需要用webpack单独打包指定文件。
阅读更多2024-12-26
前端工作中问题点拆分
├── build --------------------------------- 项目构建(webpack)相关配置文件，配置参数什么的，一般不用动│ ├── build.js --------
阅读更多2024-12-26
每天40分玩转Django：Django类视图
2.2 URL配置三、通用类视图实现3.1 列表视图和详情视图3.2 创建和编辑视图四、Mixin机制实现五、类视图流程图6.2 表单处理视图七、类视图最佳实践视图分组和组织通用功能抽象权限控制八、测
阅读更多2024-12-26
WebPack3项目升级webpack5的配置调试记录
在GitHub上找了一个webgl实现地图引擎的开源项目，项目最后一次更新是2016年，当时的webpack是3的版本，原定思路是按照package.json文件进行环境配置，原以为把对应版本的包装好
阅读更多2024-12-26
Python语言的文件操作
在本文中，我们探讨了Python语言的文件操作，包括如何打开、读取、写入和关闭文件，以及上下文管理、二进制文件操作、异常处理、文件指针、文件信息和目录操作等。Python提供了简单易用的文件操作功能，
阅读更多2024-12-26
华为堆叠的多主检测
在堆叠成员间特别插一根多主检测线，要保证两两直接互联或者都接在一个中间交换机上（需要开启二层透传）平常MAD口不互相发送MAD报文，当检测到堆叠分裂后每隔1S向对方发送MAD报文，分裂的交换机进行PK
阅读更多2024-12-26