[大模型]视频生成-Sora简析

🕗 发布于 2024-11-06 08:51 人工智能

参考资料：

Sora技术报告https://openai.com/index/video-generation-models-as-world-simulators/4分钟详细揭密！Sora视频生成模型原理https://www.bilibili.com/video/BV1AW421K7Ut

一、概述

相较于Gen-2、Stable Diffusion、Pika等生成模型的前辈，Sora有更出众的一镜到底能力（超过60s）。一镜到底的实现中，难点在于让模型正确的理解两帧之间的逻辑性，使生成的视频具备连贯性。

二、Diffusion模型

Diffusion（扩散模型），会基于随机过程，从噪声图像中逐步祛除噪声来满足生成满足要求的图像。分为两个部分：前向扩散和反向扩散。

前向扩散会将一张清晰的图像逐步添加噪声，生成一张充满噪声的图像。而反向扩散则会从一堆噪声中逐步生成一张符合要求的清晰图片。通过反复迭代训练，模型能更好的从噪声中重建高质量的图像数据。

三、Transformer模型

这里的Transformer主要用于进行文本生成，而非图像识别领域的特征提取。当使用文本作为输入时，连续的文本会被token化，拆分为数个单词并附加位置信息。

接下来token会被编码器(Encoder)转换为更抽象的特征向量，而解码器(Decoder)则会根据特征向量来生成目标序列。需要注意的是，解码器会同时将特征向量和已生成的文本作为输入以保证上下文的连贯性。

四、Diffusion Transformer模型

Diffusion Transformer(DiT)模型借鉴了二、三的优势，为了保证生成内容的连贯性和一致性，Sora引入了时空patch的概念。类似于Transformer中的token，将原始视频通过视觉编码器被压缩为一组低维度特征向量。

通过这种方式，模型可以同时关注视频中对象在当前帧中的空间位置和整个视频中的时间位置。

得益于视觉编码器的压缩，Sora可以很简单的在低维空间中进行训练。经过训练后，Sora会根据噪声patch和提示词生成清晰的patch。但这个patch实际上也是一个无法被人理解的低维表示。需要解码器将其还原成视频。

原文地址：https://blog.csdn.net/weixin_37878740/article/details/143520639

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：19. 架构重要需求
下一篇：Kubernetes的概述与架构

[SDX35]SDX35 dtsi配置GPIO_108不生效问题分析及解决方案
SDX35设备是一种多模调制解调器芯片,支持 4G/5G sub-6 技术。它是一个4nm芯片专为实现卓越的性能和能效而设计。它包括一个 1.9 GHz Cortex-A7 应用处理器。
阅读更多2024-11-06
MFC图形函数学习06——画椭圆弧线函数
绘制椭圆弧线函数是MFC基本绘图函数，这个函数需要的参数比较多，共四对坐标点。前两对坐标点确定椭圆的位置与大小，后两对坐标确定椭圆弧线的起点与终点。
阅读更多2024-11-06
数据分析的基本过程
数据分析是一个复杂但极具潜力的过程。通过明确分析目标、有效采集和处理数据、利用可视化技术探索数据，并通过科学的建模方法分析数据，企业可以从中获得关键的商业洞察。在这过程中，获得行业认可的认证如CDA（
阅读更多2024-11-06
前端根据模版生成PPT
前端开源生成PPT的工具：PptxGenJS。
阅读更多2024-11-06
C#实现傅里叶变换算法
在C#中实现傅里叶变换（Fourier Transform）算法，通常有两种主要的方法：自己编写实现代码，或者利用现有的数学和信号处理库。由于傅里叶变换算法涉及复杂的数学运算，特别是快速傅里叶变换（F
阅读更多2024-11-06
STM32G4 拉高boot0后usb无法进入dfu模式
在一次使用网页通过dfu输入固件时出现异常，拔掉板子后再次按下boot按键再也无法进入dfu模式，另外一块板子一切正常，通过st-link将正常板子中flash的应用程序全部读出后写入有问题的板子中，
阅读更多2024-11-06
【51单片机】DS1302实时时钟
【51单片机】DS1302实时时钟
阅读更多2024-11-06
青训1_1105_02 DNA序列编辑距离(动态规划_不好理解)
左->右，只有增加、删除、替换。
阅读更多2024-11-06
(一)＜江科大STM32＞——软件环境搭建+新建工程步骤
江科大stm32入门教程资料/固件库/STM32F10x_StdPeriph_Lib_V3.5.0/Libraries/CMSIS/CM3/Devicesupport/ST/STM32F10X/sta
阅读更多2024-11-06
python基础学习笔记
注意: 和C/C++ 等语言不同, Python 变量的类型不需要显式指定, 而是在赋值的时候确定的.a = 101. = 为赋值运算符, 表示把 = 右侧的数据放到 = 左侧的空间中.2. a 为变
阅读更多2024-11-06