LatentSync数字人,一键批量,口型同步,MPS加速(WIN/MAC)

🕗 发布于 2025-01-21 06:37 macos AIGC 人工智能 数字人

分享一个最近还不错的数字人项目——LatentSync。该项目由字节开源，上传一段音频和视频，即可生成数字人视频。

我对该项目做了些更改，增加了批量和MAC版本的支持，用MAC的小伙伴再也不用遗憾了…

看下我生成的效果。

https://live.csdn.net/v/460345

简单介绍下如何使用

上传一段人物视频和你要生成人物说话的音频。

点击处理视频等待视频生成

https://live.csdn.net/v/460346

批量模式的使用也相同，支持上传多个文件。

批量模式下音频数量一定要和视频数量保持一致，如果缺少是会报错的。

配置需求

WIN

WindowsN卡需8G显存

如果整合包运行报错，需要安装cuda12.4

https://developer.nvidia.com/cuda-12-4-0-download-archive

MAC

MAC Apple Silicon M1/M2/M3/M4 芯片

8G内存

这里MAC用户需注意📢

针对MAC版本我增加了运行模式，两者的区别在于所需要的内存、处理的速度不同。

默认是cpu执行，考虑到有低内存的小伙伴，该模式下8G内存就能跑，但是速度较慢。

MPS针对16G内存以及以上小伙伴，推荐选择该模式，可以达到一个较快的处理速度。

一些问题

该项目目前只在英文数据集上训练过，所以中文效果比较差，但是还是可以用的，没到完全不能看的地步。

关于中文效果不好，可以通过使用中文数据集来训练解决。目前syncnet可以在4090显卡上进行训练，unet则需要50G显存…

别的没啥啦，简单、好用。干就完事了！

整合包获取

👇🏻👇🏻👇🏻下方下方下方👇🏻👇🏻👇🏻

夸夸夸盘：
https://pan.quark.cn/s/90d2784bc502

度度度盘:
https://pan.baidu.com/s/1HwN1k6v-975uLfI0d8N_zQ?pwd=gewd

制作不易，如果本文对您有帮助，还请点个免费的赞或在看！感谢您的阅读！

原文地址：https://blog.csdn.net/weixin_43935971/article/details/145250222

免责声明：本站文章内容转载自网络资源，如侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：LeetCode hot 力扣100 LRU 缓存
下一篇：Mac苹果电脑怎么用word文档和Excel表格？

Langchain+文心一言调用
在“我的应用”中查看申请的应用，找到"APPID","APISecret","APIKey"调用模型api，使用tokens。选择自己想要的
阅读更多2025-01-24
Android实训十数据存储和访问
1）用SharedPreferences类，当点击”写入xml文件”按钮, 把“输入你想写入内容”控件中的数据写入到login.xml文件中；2）用SharedPreferences类，当点击”读取内
阅读更多2025-01-24
【JVM】调优
【JVM】调优
阅读更多2025-01-24
计算机工程：解锁未来科技之门！
为了保障用户的信息和财产安全，科研团队不断研发新的加密技术和防护措施，以应对日益复杂的网络攻击。值得一提的是，《计算机工程》和《计算机学报》作为该领域的权威学术刊物，报道了大量高水平的科研成果。随着科
阅读更多2025-01-24
汽车敏捷开发：项目经理如何精准跟进项目流程
在汽车行业敏捷开发的复杂旅程中，项目经理作为关键的引领者，其对项目流程的有效跟进至关重要。通过在项目启动阶段明确目标范围、组建团队、制定计划；在需求管理阶段做好收集整理、优先级排序和变更管理；在迭代执
阅读更多2025-01-24
spring专题笔记（五）：依赖注入--p命名空间注入、c命名空间注入、util命名空间
util命名空间注入主要是针对于集合，例如这些集合的数据信息需要在好几个类中引入，我们就可以使用util命名空间。我们就可以通过util命名空间的注入的方式，注入同一份配置文件的数据。用法：把我们需要
阅读更多2025-01-24
Android 安卓python的环境，termux下载地址
该版本的 APK 是为 Android 7 及以上版本设计的。如果你的设备运行的是 Android 5 或 6，应选择。是 Termux 应用的一个测试版本，适用于 Android 7 及以上版本。：
阅读更多2025-01-24
CompletableFuture#getNow 源码解析&最佳实践
的结果，同时允许指定一个默认值用于未完成的情况。总之，这个方法提供了一种非阻塞的方式来获取。
阅读更多2025-01-24
ES filter和post_filter的区别
ES filter和post_filter的区别
阅读更多2025-01-24
如何成为一名LLM（大语言模型）工程师
首先，成为LLM工程师的基础是理解LLM的概念及其工作原理。这些模型通过处理大量的文本数据进行训练，学习语言的结构、语法、语义等，从而能够执行一系列任务，如文本生成、情感分析、语言翻译等。成为一名LL
阅读更多2025-01-24

LatentSync数字人,一键批量,口型同步,MPS加速(WIN/MAC)

配置需求

WIN

MAC

一些问题

整合包获取

相关文章