自学内容网 自学内容网

视频理解模型

LSTM

视频分解成图片帧分别进行特征提取,最后把提取到的特征放到LSTM网络里提取时序信息。

3D-ConvNet

把一组图片帧作为一个整体输入到3D卷积网络中,由于多了一个维度,参数变得多,模型变深,但当时没有大量的视频数据训练该模型,所以导致该模型的表现并不好。

Two stream

顾名思义,双流即把视频分成两个数据流来处理。一个空间流:单纯的单张图片或多张图片组成的序列,一个时间流从视频中提取出来的光流信息。
前者负责提取场景信息,后者负责提取视频中的时序信息。二者都用2D卷积网络来提取特征,之后对于结果进行加权平均。
需要注意的是:由于视频处理成光流信息之后,光流信息本身就相当于是一种对于视频中运动序列的特征表示,所以在该网络中就没有专门用来处理时序信息的部分。

3D-Fused Two stream

在Two stream的基础上把加权平均的部分换成一个较简单的3D-CNN来处理。不同的是Two stream是把分类结果进行加权,而3D-CNN是将提取出来的特征作为输入,直接预测分类结果。

Two stream 3D-ConvNet

在Two stream的基础上把2D-CNN替换成3D-CNN,前提是有足够多的数据来训练模型。


原文地址:https://blog.csdn.net/weixin_51397022/article/details/142796735

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!