WebRTC音频 03 - 实时通信框架

🕗 发布于 2024-10-20 06:22 webrtc 音视频媒体

WebRTC音频01 - 设备管理
 WebRTC音频 02 - Windows平台设备管理
WebRTC音频 03 - 实时通信框架(本文)
WebRTC音频 04 - 关键类
 WebRTC音频 05 - 音频采集编码

一、前言：

前面介绍了音频设备管理，并且以windows平台为例子，介绍了ADM相关的类，以及必须用到的重要API，本文我们分析下，在一个音视频呼叫过程中，音频是如何参与其中的，都有哪些成员参与其中。

二、呼叫时序图：

先回顾下总体呼叫流程，由大到小分析，避免看半天代码不知道自己在哪儿！

在这里插入图片描述

可以看出，呼叫过程中，先要创建非常重要的类PeerConnection，接着进行媒体协商，最后选择进行p2p或者turn这条路；我们现在要分析，这个过程中音频要做哪些事，这件事分别是在上面总流程的哪个位置。

三、音频数据流转：

我们先猜想下，整个过程中应该做什么？是不是下图这样？

在这里插入图片描述

标注红色的就是我们关心的。

四、具体到每个音频模块：

在这里插入图片描述

初始化阶段（图中粉色线）：
1. 这个流程之前分析过，从Session层开始创建一个会话，就会创建一个PeerConnection，然后就是创建音频引擎，接着创建ADM；
2. adm创建过程中会创建AudioDeviceModuleGeneric的具体对象（windows平台就是AudioDeviceWindowsCore，下文本人全都写AudioDeviceModuleGeneric，就代表AudioDeviceWindowsCore）；
数据发送阶段（图中绿色线）：
1. AudioDeviceModuleGeneric对象从麦克风采集到数据，并送给AudioDeviceBuffer，等待发送；
2. 交给AudioTransport模块处理；（这里面主要是经过 AudioProcess 模块进行3A处理)
3. 交给Call模块的 AudioSendStream；
4. 交给ACM模块的Encoder进行编码；
5. 交给网络模块Transport进行发送；
数据接收阶段（图中蓝色线）：
1. 从网络模块接收数据，送给Call模块的队列Queue进行缓存；
2. 慢慢交给AudioReceiveStream进行处理；
3. 交给ACM模块的Decoder进行解码；
4. 解码之后交给在AudioReceiveStream模块继续缓存起来；（因为音频播放有一个单独的线程，扬声器会定时来缓存里面取，而不是我们主动送）
数据播放阶段（图中黑色线）：
1. AudioDeviceModuleGeneric对象调用AudioDeviceBuffer相关接口获取数据；
2. 调用AudioTransport相关接口获取数据（这里面主要是混音模块Mixer，可能同时获得1路或者多路音频，混成1路）；
3. AudioTransport调用1个或者多个AudioReceiveStream中分别取出一定长度的PCM数据；（webrtc就是10ms）
4. 上面三步完成了调用之后，数据就会按照AudioReceiveStream->AudioTransport(mixer)->AudioDeviceBuffer->AudioDeviceModuleGeneric对象，最终通过扬声器播放出来；

总结：

Call模块是每个session一个；
ADM和AudioTransport里面的AudioProcess、Mixer都是全局唯一的，因为Mixer这种是瞬间处理的，不保存数据，因此，所有的Call模块共用同一个；
使用AudioState（可以理解成引擎层的上下文）管理AudioTransport和ADM虽然增加了一层，但是对于上层使用媒体引擎的人来说就非常简单了，我只需要和AudioState打交道；

五、类图：

关键模块类图如下：

在这里插入图片描述

adm_：就是AudioDeviceModule，对音视频设备进行管理，比如，从麦克风采集音频，让扬声器播放数据；
encoder_factory_：音频编码器工厂，创建编码器时候使用；
decoder_factory_：音频解码器工厂；
audio_mixer_：音频混音器，比如将多路输入流混成一路，送给扬声器播放；
apm_：专门用来处理3A问题；
audio_state_：表面看是音频状态管理，实则为音频流的管理；
send_codecs：音频编码器管理；
recv_codecs：音频解码器管理；
channels：WebRtcMediaVoiceChannel的集合；一个对应SDP中一个m行；

六、关键类对象创建时机：

在我们开始呼叫音视频通话时候，点击PeerConnectionClient弹出的connect按钮时候，会调用Conductor::InitializePeerConnection()，先看看引擎的初始化时机：

在这里插入图片描述

然后再看看PeerConnectionFactory::Create再调用 ConnectionContext::Create，而ConnectionContext::Create之后主要干了下面几件事情：

在这里插入图片描述

备注：

发现扬声器和麦克风ADM这一层逻辑基本一致。
并且adm和AudioDeviceWindowsCore中间还有个传话筒AudioDeviceModuleImpl我没有画出来，就是转手调用AudioDeviceWindowsCore而已。
向adm注册一个回调 audio_state()->audio_transport，用于接收将来产生的音视频数据；
创建PeerConnectionFactory之前已经创建了四个编解码器的Factory；
构造Denpendenices的时候，就实例化了一个APM模块，并进行了初始化；
我们前面构造的MediaEngineDependencies是PeerConnectionFactoryDependencies的一个成员，使用media_engine保存；（里面主要是三大线程、call_factory、media_engine（看后面代码，这个主要是接收MediaDependecies的））；
然后是创建音视频引擎；
引擎创建好之后，对引擎做一些必要的初始化CreateModularPeerConnectionFactory：
1. 对pc_factory进行初始化；
  1. BasicNetworkManager：主要是管理网卡的；
  2. BasicPacketSocketFactory：也就是Socekt工厂，主要创建各种各样的socket；
  3. 创建ChannelManager（它是连接编解码器的），同时会调用Init，里面会调用media_engine->Init来初始化之前创建的媒体引擎；

七、总结：

本文主要是介绍了音频各个模块在整个呼叫过程中所处的角色，以及何时创建（创建时机）、创建的什么样（类图）；主要从总体分析，如果要具体到每个类，后续会根据业务场景再做分析，比如：采集过程中用到哪几个类，具体调用哪个函数等等，关注我，不迷路！

扫描关注，最早拿到一手资源：
在这里插入图片描述

原文地址：https://blog.csdn.net/Ziwubiancheng/article/details/142932121

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：鸿蒙网络编程系列28-服务端证书锁定防范中间人攻击示例
下一篇：神经网络量化基础

leetcode289:生命游戏
根据，简称为，是英国数学家约翰·何顿·康威在 1970 年发明的细胞自动机。给定一个包含m × n个格子的面板，每一个格子都可以看成是一个细胞。每个细胞都具有一个初始状态：1即为（live），或0即为
阅读更多2024-10-20
MongoDB数据恢复
注意：两个MongoDB的版本要一致，本文使用的是mongo:4.2.24。先把K8S上面的MongoDB 容器停止（可以把副本改成0）。1、将容器挂载MongoDB的数据目录备份到本地。经常是数据文
阅读更多2024-10-20
C#中实现事务
C#中实现事务
阅读更多2024-10-20
【LeetCode每日一题】——560.和为 K 的子数组
给你一个整数数组 nums 和一个整数 k ，请你统计并返回该数组中和为 k 的子数组的个数。子数组是数组中元素的连续非空序列。
阅读更多2024-10-20
「漏洞复现」满客宝智慧食堂系统 selectUserByOrgId 未授权访问漏洞
请勿利用文章内的相关技术从事非法测试，由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失，均由使用者本人负责，作者不为此承担任何责任。工具来自网络，安全性自测，如有侵权请联系删除。本次
阅读更多2024-10-20
React面试题目（从基本到高级）
React前端面试常见题目涵盖了React的基础概念、组件、状态管理、生命周期、性能优化等多个方面。
阅读更多2024-10-20
12.个人博客系统（Java项目基于spring和vue）
1 在校学习的学生，可用于日常学习使用或是毕业设计使用 2 毕业一到两年的开发人员，用于锻炼自己的独立功能模块设计能力，增强代码编写能力。 3 亦可以部署为商化项目使用。 4 需要完整资料及源码
阅读更多2024-10-20
YoloV8改进策略：注意力改进|DeBiFormer，可变形双级路由注意力|引入DeBiLevelRoutingAttention注意力模块（全网首发）
本次改进的核心在于将DeBiLevelRoutingAttention模块嵌入到YoloV8的主干网络中，具体位置是在SPPF（Spatial Pyramid Pooling Fast）模块之后。这一
阅读更多2024-10-20
word取消自动单词首字母大写
情况说明：在word输入单词后首字母会自动变成大写取消单词首字母大写步骤：（1）点击菜单栏文件（2）点击“更多”——>“选项”（3）点击“校对”——>“自动更正选项”（4）取消“句首字母大
阅读更多2024-10-20
web前端网页用户注册页面
【代码】web前端网页用户注册页面。
阅读更多2024-10-20

WebRTC音频 03 - 实时通信框架

一、前言：

二、呼叫时序图：

三、音频数据流转：

四、具体到每个音频模块：

五、类图：

六、关键类对象创建时机：

七、总结：

相关文章