探索开源多模态视频生成模型：CogVideoX1.5-5B

🕗 发布于 2024-11-28 16:45 开源音视频 人工智能 计算机视觉 机器学习

随着人工智能技术的快速发展，多模态学习逐渐成为研究热点之一。多模态学习旨在通过整合不同类型的感知数据（如文本、图像、音频等），以提高机器学习模型的性能和泛化能力。在这一背景下，由智谱AI开发的 CogVideoX1.5-5B 模型应运而生，它是一个强大的多模态视频生成模型，能够根据给定的文字描述生成高质量的视频片段。

模型概述

基本信息

模型名称: CogVideoX1.5-5B
提供者: ZhipuAI
框架: PyTorch
架构: Transformer
许可证: 其他@ZhipuAI
最新更新日期: 2024-11-18

特点

多模态融合: 结合了文本与视觉信息，支持从文字描述生成视频。
高分辨率输出: 支持最高分辨率为1360 * 768的视频生成。
灵活的数据类型支持: 支持BF16、FP16、FP32等多种精度的数据处理。
优化的计算效率: 针对不同的GPU配置提供了详细的内存使用指导，确保模型能够在各种硬件上高效运行。

技术细节

模型结构

CogVideoX1.5-5B 主要由三个部分组成：

文本编码器: 使用预训练的T5编码器对输入文本进行编码。
变换器模型: 负责将文本特征转换为视频帧特征。
VAE解码器: 将视频帧特征解码为实际的视频帧。

运行环境要求

单GPU显存需求: BF16精度下至少需要9GB显存。
多GPU显存需求: BF16精度下建议使用24GB显存的GPU。
推理速度: 在单个NVIDIA A100 GPU上，每步大约需要1秒（5帧视频）；而在H100上则可达到约0.55秒/步。

性能优化技巧

为了进一步提升模型的运行效率，开发者推荐使用以下几种方法：

pipe.enable_sequential_cpu_offload(): 减少GPU内存占用。
pipe.vae.enable_slicing(): 提高VAE解码器的处理速度。
pipe.vae.enable_tiling(): 对于大尺寸图像，使用平铺技术减少内存消耗。

示例代码

以下是使用Python调用CogVideoX1.5-5B模型生成视频的一个简单示例：

import torch
from diffusers import AutoencoderKLCogVideoX, CogVideoXTransformer3DModel, CogVideoXImageToVideoPipeline
from transformers import T5EncoderModel
from torchao.quantization import quantize_, int8_weight_only

# 定义量化策略
quantization = int8_weight_only

# 加载文本编码器并应用量化
text_encoder = T5EncoderModel.from_pretrained("THUDM/CogVideoX1.5-5B", subfolder="text_encoder", torch_dtype=torch.bfloat16)
quantize_(text_encoder, quantization())

# 加载变换器模型并应用量化
transformer = CogVideoXTransformer3DModel.from_pretrained("THUDM/CogVideoX1.5-5B", subfolder="transformer", torch_dtype=torch.bfloat16)
quantize_(transformer, quantization())

# 加载VAE解码器并应用量化
vae = AutoencoderKLCogVideoX.from_pretrained("THUDM/CogVideoX1.5-5B", subfolder="vae", torch_dtype=torch.bfloat16)
quantize_(vae, quantization())

# 创建管道并设置优化选项
pipe = CogVideoXImageToVideoPipeline.from_pretrained(
    "THUDM/CogVideoX1.5-5B",
    text_encoder=text_encoder,
    transformer=transformer,
    vae=vae,
    torch_dtype=torch.bfloat16,
)
pipe.enable_model_cpu_offload()
pipe.vae.enable_tiling()
pipe.vae.enable_slicing()

# 设置生成参数
prompt = "A little girl is riding a bicycle at high speed. Focused, detailed, realistic."
video = pipe(
    prompt=prompt,
    num_videos_per_prompt=1,
    num_inference_steps=50,
    num_frames=81,
    guidance_scale=6,
    generator=torch.Generator(device="cuda").manual_seed(42),
).frames[0]

# 导出生成的视频
from diffusers.utils import export_to_video
export_to_video(video, "output.mp4", fps=8)

结语

CogVideoX1.5-5B 是一款功能强大且易于使用的多模态视频生成模型，它不仅具备高效的计算性能，还能生成高质量的视频内容。对于那些希望探索多模态学习或视频生成领域的研究人员和开发者来说，这无疑是一个非常有价值的工具。

原文地址：https://blog.csdn.net/a736377724/article/details/144073189

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：pnpm的menorepo项目配置eslint和prettier
下一篇：npm install -g@vue/cli报错解决：npm error code ENOENT npm error syscall open

Flink 任务启动脚本-V2（包括ck启动）
备注：由于Flink checkpoint 个别情况下，不一定能保证落地的checkpoint文件一定有效，所以需要人工介入支持。本次新增一个不从 ck 启动的选择，默认从最新 ck 启动，用法 s
阅读更多2024-11-29
UML的相关介绍
UML作为一种标准化的建模语言，在软件开发中扮演着重要的角色。通过一套丰富的图表和符号，UML为复杂系统的设计和分析提供了强大的支持。这种通用性和标准化使得UML成为各类软件项目中不可或缺的工具。
阅读更多2024-11-29
23种设计模式-外观(Facade)设计模式
软考中级-软件设计师外观模式
阅读更多2024-11-29
RabbitMQ学习-Four
昨天我们通过Linux命令，创建好了角色，那么我们就可以登录管理端的web页面，然后进行响应的操作；今天来学习一下RabbitMQ的具体的。
阅读更多2024-11-29
ftdi_sio应用学习笔记 5 - SPI
SPI的SCK/MOSI/MISO分别对应（A/B)D0/D1/D2，其他IO作为CS。和I2C一样，最大支持2路MPSSE通道，一路MPSSE最大13路SPI。定义spi设备的信息结构体。
阅读更多2024-11-29
＜＜WTF-Solidity＞＞学习笔记(part 5-8)
尤其是如果返回数据类型是变长的情况下，必须加memory修饰，例如：string, bytes, array和自定义结构。在不同存储类型相互赋值时候，有时会产生独立的副本（修改新变量不会影响原变量），
阅读更多2024-11-29
大数据实战之Zookeeper集群
zookeeper集群部署
阅读更多2024-11-29
word2vec
无监督训练模式 model 可选 'skipgram'(默认) or 'cbow'print(f'donkey的词向量类型是{type(result)}')print(f'donkey的词向量形状是{
阅读更多2024-11-29
vue element-ui的el-image 和 el-table冲突层级冲突问题问题preview-teleported
image-viewer 是否插入至 body 元素上。嵌套的父元素属性会发生修改时应该将此属性设置为。解决代码:preview-teleported。
阅读更多2024-11-29
CTF-RE 从0到N:Chacha20逆向实战 2024 强网杯青少年专项赛 EnterGame WP (END)
化简,因为i + j + a4 等价于 a4[i + j]直接定位到比较函数,在此处动态调试抽取s2的值。建立数组使用插件dump数组备用。无视换位直接动态调试在此句断下。
阅读更多2024-11-29