音视频基本概念

🕗 发布于 2024-07-11 05:33 音视频

文章目录

录制的大概流程

在这里插入图片描述
摄像头采集到图像帧一帧一张静态的图片帧数就是在1秒钟时间里传输的图片的量
一秒的图片可能有25张甚至更多如果一张的大小是3m 那么一秒的视频量可能就有75m左右这样的量很大需要进行图像处理放入图像帧队列视频编码的主要作用是把图片进行一个压缩处理压缩后成为一个视频包队列进行保存
麦克风也是一样的流程
用pcm来保存采集回来的pcm数据音频是按照采集点来计算的比如说一秒去采样44k的采集点如何用最少的采集点去完成最完整的数据的保存完全去采集也可以但是可能会造成较大的延迟比如20ms 去做一帧的压缩

时钟的作用是用来保证音画同步的共用同一个数据源来播放数据才能做到音画同步

播放的大概流程

在这里插入图片描述
和刚才的录制是相反的说明播放是录制的反向的过程
经过解复用器解析出音频包队列和视频包队列通过音视频解码器将包解析成采样帧对队列和图像帧队列在经过同步控制进行音频处理图像处理在扬声器和显示器中进行同步播放播放

视频的主要概念

视频码率：kb/s 指的是视频文件在单位时间内使用的数据流量，也叫做码流率。码流越大。说明单位时间内取样率越大，数据流的精度越高
视频帧率：fps，通常说一个视频的25帧。就是视频每秒会显示25张图画，帧率越高，给人的感觉就越流畅。
视频分辨率：分辨率就是常说的分辨率，分辨率越高，我们能看到的画面越精细

I帧（Intra coded frames）

I 帧： I帧不需要参考其他画面而生成，解码的时候仅靠直接就重构完整的图像；
I帧图像采用帧内编码的方式
I帧所占数据的信息量比较大
I帧图像是周期性出现在图像序列中的，出现频率可有编码器选着
I帧是P帧和B帧的参考帧(其质量直接影响到同组以后各帧的质量)
I帧是帧组GOP（一组连续的画面）中的基础帧，在一组中只有一个I帧
i帧不需要考虑运动矢量

P (Predicted frames)帧

根据本帧与其相邻的前一帧(I帧或者P帧)的不同点来压缩本帧数据，同时利用了空间和时间上的相关性。
p帧属于向前预测的帧间编码。它需要参考前面最靠近它的I帧或P帧来解码

B(Bi-directional predicted frames)帧

B帧图像采用双向时间预测，可以大大提高压缩倍率

音频常见概念

比特率: 每秒传输的bit数，单位为：bps（bit Per Second）间接衡量声音质量的一个标准。
没有压缩的音频数据的比特率 = 采样频率 * 采样精度 * 通道数
码率：压缩后的音频数据的比特率。常见的码率：
96kbps： FM质量 —广播质量
128-160kbps：一般质量音频
192kbps ; CD质量
256-320kbps：高质量音频
码率越大，压缩效率越低，音质越好，压缩后数据越大
码率 = 音频文件大小/时长。

比如采样频率44100，采样精度16bit，2通道(声道)，采集4分钟的数据
44100162460 =338688000bit
大约40m字节
比特率是 44100 * 16 * 2

帧：每次编码的采样单元数，比如MP3 通常是1152个采样点，AAC通常是1024个取样点作为一个编码单元。
帧长:

指的是每帧播放的持续时间：每帧播放时间 = 每帧采样点数 / 采样频率
比如 mp3 48k 1152个采样点每帧则为 24毫秒
1152/48000 = 0.024 = 24 毫秒
可以指压缩后每帧的数据长度
讲到帧的时候注意它的场合

数据帧信号的存储方式

交错模式：数字音频信号存储的方式。数据以连续帧的方式存放，即首先记录帧1左声道样本和右声道样本，再开始帧2的记录
非交错模式：首先记录的是一个周期内所有帧的左声道样本，再记录所有的右声道样本

数字音频信号如果不压缩直接传送将会占用极大的代码，
1M代码在阿里云服务器的价格就是100元/月
需要对音频进行压缩减少音频数据的带宽占用
数字音频压缩编码在保证听觉不产生失真的前提下。对音频数据信号进行可能大的压缩，降低数据量。数字音频压缩编码采取去除声音信号中冗余成分的方法来实现。
冗余成分：不能被人耳感知的信号，它们对确定声音的音色音调等信息没有任何帮助

冗余信号的两个表现

频谱掩蔽效应和时域掩蔽效应

频谱掩蔽效应：当声音小于某个阈值后人耳会听不见不同频率的声音阈值不一样
时域掩蔽效应强音和弱音同时出现的时候一般弱音会被掩盖掉
这些因为各种机制被掩盖掉被忽略掉的信号就叫做冗余信号

编码方案和实现方式

在这里插入图片描述
对于每一个音频声道中的音频采样信号：
1：可通过子带滤波器去映射从时域到频域的。每个声道中的音频采样块首先要根据心理声学模型来计算掩蔽门限值
2：由计算出来的掩蔽门限值来决定从公共比特池中分配该声道不同频率域多少比特数，接下来进行量化以及编码操作
3:将控制参数及辅助数据加入数据之中，产生编码后的数据流。

封装格式的概念

封装格式也叫做容器 就是将已经编码压缩号的视频流，音频流及字幕按照一定的方案放到一个文件中，便于播放软件去播放
视频文件的后缀名就是它的封装格式
封装格式不一样后缀名不一样
同样的音视频流可以用不同的容器来承载
H264 +AAC封装为FLV或MP4是最流行的模式

音视频同步概念

DTS(Decoding Time Stamp) : 即解码时间戳，这个时间戳的意义在于告诉播放器什么时候应该解码这一帧的数据。
PTS(Presentation Time Stamp) ：即显示时间戳，这个时间戳用来告诉播放器应该在什么时间显示这一帧数据

音视频同步方式：

1: Audio Master :同步视频到音频
2: Video Master: 同步音频到视频
3: External Clock Master :同步音频和视频到外部时钟

一般情况下 1 》 3 》 2 选择同步的方式

原文地址：https://blog.csdn.net/weixin_52243202/article/details/140289726

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：视图库对接系列(GA-T 1400)十四、视图库对接系列(本级)新增、修改订阅
下一篇：如何将HEVC格式的视频转换为无损、未压缩的MP4格式视频？

【计网】数据链路层笔记
计算机网络数据链路层部分笔记
阅读更多2024-11-11
crond 任务调度（Linux相关指令：crontab）
接着输入任务到调度文件，如：*/1 * * * * ls –l /etc/ > /tmp/to.txt（意思说每小时的每分钟执行ls –l /etc/ > /tmp/to.txt 命令，把
阅读更多2024-11-11
昇思大模型平台打卡体验活动：项目3基于MindSpore的GPT2文本摘要
GPT2（Generative Pretrained Transformer 2）是由OpenAI开发的语言模型，它通过大规模无监督预训练和微调（Fine-tuning）在多个自然语言处理任务中取得了
阅读更多2024-11-11
llamaindex实战-Agent的长期记忆(内存)演示
本文使用本地嵌入大模型来演示llamaindex的Agent长期内存记忆：VectorMemory如何使用。
阅读更多2024-11-11
CMS垃圾回收流程的理解
CMS垃圾回收流程的理解
阅读更多2024-11-11
DreamCut：AI驱动的视频编辑与屏幕录制工具
正如Sapien的联合创始人Pranav Ravella所说：“创建初创公司的关键是与值得信赖的人合作，利用你们共同的激情去构建改变游戏规则的产品。” Sapien正在这条道路上稳步前行，用其创新的A
阅读更多2024-11-11
前端开发程序员的理想显示器：高素质屏幕与人性化设计的完美结合
本人从事前端开发工作多年，每天工作时间都是坐在电脑面前进行办公，一直对显示器的要求都有，再在此之前也使用过多款不同品牌、不同型号的显示器，但几乎使用感觉没有那么好，每天在工作后眼睛都会感到干涩会忍不住
阅读更多2024-11-11
API接口精准获取商品详情信息案例
在电商平台中，用户在浏览商品时，往往需要查看商品的详细信息，如价格、库存、规格、用户评价等。这些信息的准确性和及时性直接影响用户的购买决策。因此，开发一个稳定、高效的API接口，对于提升用户体验和增强
阅读更多2024-11-11
社区居家养老服务平台的设计与实现
近年来，随着国家的发展，人口年龄结构也在发生着变化，截止至2021年底，中国60岁以上老年人已存在2.67亿，约占总人口的18.9%。庞大的老人群体为养老服务业带来了巨大的潜力，同时也面临着当前养老服
阅读更多2024-11-11
RAGulator：如何识别和缓解大模型所谓的“忠实幻觉”
实时检测大型语言模型（LLM）生成的与上下文不符的输出问题，这对于希望安全采用基于检索增强生成（RAG）应用的企业来说至关重要。具体来说，本篇论文的目标是训练轻量级模型来区分LLM生成的语义上与检索到
阅读更多2024-11-11