linux conda 配置 stable video diffusion

🕗 发布于 2024-01-26 08:02 linux conda

在这里插入图片描述

安装教程

1 下载仓库源码

git clone https://github.com/Stability-AI/generative-models.git

2 创建conda环境

conda create -n svd python=3.10
conda activate svd

3 安装pytorch gpu

cuda和cudnn请参考其他链接配置，使用 conda 或者 pip 安装 pytorch

# 使用conda 安装 pytorch ，推荐该方式，防止gpu版本安装不上，出现import torch错误
conda install pytorch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 pytorch-cuda=11.8 -c pytorch -c nvidia

# 使用 pip 安装 pytorch
pip install torch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 --index-url https://download.pytorch.org/whl/cu118

4 安装其他依赖包

cd generative-models
# pip联网安装依赖库
pip install -r requirements/pt2.txt
# 编译安装本地sgm
pip install .
# 安装sdata用于训练，贫民显卡3090也训练不起，无需安装
pip3 install -e git+https://github.com/Stability-AI/datapipelines.git@main#egg=sdata

--------------------------------------------安装结束-----------------------------------------

图片转视频教程

SVD: This model was trained to generate 14 frames at resolution 576x1024 given a context frame of the same size.

SVD-XT: Same architecture as SVD but finetuned for 25 frame generation.

下载权重文件：svd.safetensors 和 svd_image_decoder.safetensors 放到 checkpoints/ 文件夹下

方案一：streamlit 网页可视化

streamlit run scripts/demo/video_sampling.py

方案二：python 脚本执行

python scripts/sampling/simple_video_sample.py

可能遇到的问题

1 pip安装时import torch报错

使用conda 安装，会自动配置cuda版本

2 显存不足报错

将 decoding_t 调小

decoding_t: int = 2,  # Number of frames decoded at a time! This eats most VRAM. Reduce if necessary.

3 opencv报错

错误信息：OpenCV: FFMPEG: tag 0x5634504d/‘MP4V’ is not supported with codec id 12 and format ‘mp4 / MP4 (MPEG-4 Part 14)’
解决：将 cv2.VideoWriter_fourcc(*"MP4V") 改为 cv2.VideoWriter_fourcc('m', 'p', '4', 'v')

原文地址：https://blog.csdn.net/lanlinjnc/article/details/135774670

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Dlearning
下一篇：【力扣 50】Pow(x, n) C++题解（数学+递归+快速幂）

TiDB 概念简述
TiDB 是一个适用于互联网和传统行业大规模数据处理需求的分布式数据库解决方案。它结合了传统 RDBMS 的易用性和 NoSQL 的可扩展性，提供了一种新的数据库技术选择。
阅读更多2024-11-06
记录一个跳跃的小游戏
【代码】记录一个跳跃的小游戏。
阅读更多2024-11-06
优化文本嵌入，大幅提升RAG检索速度
大家好，文本嵌入技术能够将文字信息转换成高维向量表示的数字，提供了一种理解和处理文本数据的新方式，帮助我们更好地理解和处理文本数据。这些向量能够捕捉文本的深层特征，进而支持多种应用，比如理解语义、进行
阅读更多2024-11-06
Ubuntu22.04在Docker下安装Mysql5.7
使用Ubuntu22.04在docker下安装mysql5.7的详细过程
阅读更多2024-11-06
SpringFactoriesLoader
SpringFactoriesLoader类的主要作用是通过类路径下的文件获取工厂类接口的实现类，初始化并保存在缓存中，以供Springboot启动过程中各个阶段的调用。Spring的自动化配置功能，
阅读更多2024-11-06
深度学习基础—双向RNN和深层RNN
要识别Teddy是否是人名的一部分，普通RNN在第3个时间步时只能学习到Teddy以前的内容，而比较关键的词在第4个时间步，因此要想解决这个问题，就需要让网络有预知“未来”的能力，双向循环神经网络正是
阅读更多2024-11-06
Python软体中使用Pandas库读取数据并绘制柱状图的实用指南
通过本教程，我们学习了如何使用Pandas库读取CSV文件，并利用Matplotlib库绘制柱状图。我们从数据读取、处理到可视化的整个过程进行了详细的讲解，并提供了优化图表的技巧和保存图表的方法。数据
阅读更多2024-11-06
如何使用python完成时间序列的数据分析？
时间序列是指在时间上有序的一组数据点。时间序列数据可以是定期收集的（如每日、每月、每年）或不定期收集的。时间序列的主要特征包括趋势、季节性、周期性和随机性。
阅读更多2024-11-06
数据结构 C/C++(实验一:线性表)
1．掌握线性表的顺序存储表示和链式存储表示。2．掌握顺序表和链表的基本操作算法，包括创建、取值、查找、插入、删除等基本操作的实现。3．了解线性表两种不同存储结构的特点，会灵活运用线性表解决某些实际问题
阅读更多2024-11-06
数据库-＞视图
视图是⼀个虚拟的表，它是基于⼀个或多个基本表或其他视图的查询结果集。视图本⾝不存储数据，⽽是通过执⾏查询来动态⽣成数据。⽤⼾可以像操作普通表⼀样使⽤视图进⾏查询、更新和管理。视图本⾝并不占⽤物理存储空
阅读更多2024-11-06