视频理解模型

🕗 发布于 2024-10-10 07:29 人工智能

LSTM

视频分解成图片帧分别进行特征提取，最后把提取到的特征放到LSTM网络里提取时序信息。

3D-ConvNet

把一组图片帧作为一个整体输入到3D卷积网络中，由于多了一个维度，参数变得多，模型变深，但当时没有大量的视频数据训练该模型，所以导致该模型的表现并不好。

Two stream

顾名思义，双流即把视频分成两个数据流来处理。一个空间流：单纯的单张图片或多张图片组成的序列，一个时间流从视频中提取出来的光流信息。
前者负责提取场景信息，后者负责提取视频中的时序信息。二者都用2D卷积网络来提取特征，之后对于结果进行加权平均。
需要注意的是：由于视频处理成光流信息之后，光流信息本身就相当于是一种对于视频中运动序列的特征表示，所以在该网络中就没有专门用来处理时序信息的部分。

3D-Fused Two stream

在Two stream的基础上把加权平均的部分换成一个较简单的3D-CNN来处理。不同的是Two stream是把分类结果进行加权，而3D-CNN是将提取出来的特征作为输入，直接预测分类结果。

Two stream 3D-ConvNet

在Two stream的基础上把2D-CNN替换成3D-CNN，前提是有足够多的数据来训练模型。

原文地址：https://blog.csdn.net/weixin_51397022/article/details/142796735

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：使用 llamafile 以单个文件运行本地大模型
下一篇：Linux的环境与历史

Vue 项目中的自适应布局：px 转换成 vw/vh
在移动设备上，不同分辨率的屏幕对应的界面大小不同，这就需要。
阅读更多2024-10-13
【JS】消除头尾的换行符、空格符
删除 ckeditor 生成的文本的开头和结尾的额外换行符、空格符，但不删除文本本身之间的空格、换行内容。CKeditor的html标签包裹的内容处理
阅读更多2024-10-13
第六课 Vue中的条件语句指令
v-if指令与v-show的功能在部分场景重叠，常用语条件判断。
阅读更多2024-10-13
mysql隐藏索引
在 MySQL 8 中，隐藏索引（Invisible Indexes）是指一种特殊类型的索引，它并不真正被删除，而是被标记为“不可见”。当索引被标记为不可见时，查询优化器在生成查询计划时将忽略这个索引
阅读更多2024-10-13
网络安全（黑客）2024小白自学必看
。
阅读更多2024-10-13
安装rstudio-server
ROOT权限安装rstudio-server
阅读更多2024-10-13
小程序上传图片报错uploadFile:fail createUploadTask:fail url not in domain list怎么解决
我在碰到这个问题之后寻求多方询问了解到你请求接口数据写的是request合法域名,但是上传图片还要再uploadFile合法域名上面写,大意了哈哈哈哈哈,仅供大家参考。大家有时候会遇到这种错误束手无措
阅读更多2024-10-13
《使用Gin框架构建分布式应用》阅读笔记：p1-p19
执行go get 或者 go install 命令后package会被安装到哪里？参考：https://go.dev/ref/mod#go-installVSCode结合WSL使用后，路径把人绕晕了。
阅读更多2024-10-13
Elasticsearch介绍和使用
与传统的正向索引（如书籍的目录，根据内容的位置来查找内容）不同，倒排索引是根据内容来查找其位置。在文本搜索领域，倒排索引将每个词（或称为“词条”“术语”）与包含该词的文档列表相关联。在实际应用中，可以
阅读更多2024-10-13
在SpringBoot+VUE中实现登录-RSA的加密解密
【代码】在SpringBoot+VUE中实现登录-RSA的加密解密。
阅读更多2024-10-13