【AI+应用】aliyun的EMO图生视频模型引起的思考如何做AI数字人

🕗 发布于 2024-03-01 15:20 人工智能 音视频

昨天2 月 29 日消息，2 月 28 日，阿里巴巴集团智能计算研究院日前上线了一款新的 AI 图片 - 音频 - 视频模型技术 EMO，官方称其为 " 一种富有表现力的音频驱动的肖像视频生成框架 "。据悉，用户只需要提供一张照片和一段任意音频文件，EMO 即可生成会说话唱歌的 AI 视频，以及实现无缝对接的动态小视频，最长时间可达 1 分 30 秒左右。表情非常到位，任意语音、任意语速、任意图像都可以一一对应。

自己的消息比较滞后，昨晚睡觉前才刷到这个消息。今天想了想，既然 aliyun推出EMO模型，新技术嘛，自己也要了解下。找了下地址：https://humanaigc.github.io/emote-portrait-alive/ ，进入github地址：https://github.com/HumanAIGC/EMO。自己瞬间傻眼了，就一些说明文档，没代码。这是准备和openai的Sora 对标么，先推出概念和效果让市场先炒热起来么。

回到正题，EMO的介绍，让我发现这不是就是AI数字人的技术么。之前本来想水一篇AI+数字人的，但由于自己了解不是太深，一直没动笔。趁着这个机会，写一篇自己的浅见。

网上很多AI+数字人的付费课程，是不是割韭菜就不知道了。这里说下我认为实现AI+数字人的方案（科普入门），不包括变现（个人的理解，2C业务应该不外乎x宝，视频号，x音，x手，B站等APP，发爆款AI数字人视频或直播，增加流量，增加粉丝，橱窗和直播带货。2B业务可能涉及企业培训服务等）。

先说下市面上的，据我所知，国内

百度（https://cloud.baidu.com/product/baidudigitalhuman.html?track=mkt_sem），

腾讯（https://cloud.tencent.com/product/ivh），

华为（https://activity.huaweicloud.com/metastudio-szr.html?utm_source=baidu&utm_medium=se-cpc-op&utm_campaign=&utm_content=&utm_term=%E6%95%B0%E5%AD%97%E4%BA%BA&utm_adplace=AdPlace085313&bd_vid=11382723768066594769），

aliyun（https://cn.aliyun.com/product/ai/avatar?from_alibabacloud= ）等一众平台都有付费的AI数字人平台, 或者百度搜索下很多广告专门卖这个的。国外比较出名的 heygen（官网地址：https://www.heygen.com/ ，打开需要用点魔法）很多人都在用的方案（一个账户只有一分钟左右的免费额度，用临时邮箱网站疯狂注册账号，突破这个限制。怎么搞网上找找，这里就不细说了）。

用别人的平台制作数字人成本会比较高，自己怎么低成本做呢，以下是一些思路。

AI数字人 = AI + 数字人，要想做数字人需要有哪些技术储备呢。视频+音频+字幕这3个应该都需要。

真人或动漫数字人视频制作（一般图片生成视频，推荐heygen, 后续可以看看sora或emo吧）

音频制作，业界应该有2种方案，TTS（Text-to-Speech，文本转语音）和 SVC（Singing Voice Conversion，声音转声音）是两种不同的声音合成技术，这2种技术应用场景不一样。比如TTS适用于智能助手、有声阅读、无障碍服务、导航系统等， SVC适用于音乐制作、娱乐、教育等。这块自己研究不深，自己最近在看GPT-SoVITS （ https://github.com/RVC-Boss/GPT-SoVITS ）这个开源项目。

网上找的音频制作软件，这里注明，自己没用过。

1、ElevenLabs（11Labs）：一个功能强大的在线文字转语音（TTS）工具，可以实现高质量的声音克隆。

2、So-Vits-SVC：一个基于 Singing Voice Conversion（歌声转换）技术的声音克隆工具。

3、Deep Voice：一个由腾讯AI实验室开发的基于深度学习的声音转换系统。

4、Voicery：一个在线的声音转换平台，支持多种语言和声音风格。

5、Lyrebird：一个利用深度学习技术进行声音克隆的工具，可以将文字转换为语音。

字幕呢，一般最后视频合成都用剪辑软件把，推荐x音的剪影吧。

上面讲的自行创作，有人可能说自己创作多累啊，用别人的视频改改是否可行。关于二次创作或模仿呢，网上可能还有人会讲，下载xx平台火爆的爆款视频（一般可以用影刀这些RPA工具抓取链接，low一点自己以一个一个爬取），用微信小程序的轻抖去水印，去水印，提取字幕（用chatGPT等软件进行二次改造），用x音的剪映改改视频，这样是不是就算是翻版了，被认为原创了。这里只是大概思路，自己没实操过。

作为程序员，怎么可能不上代码呢。最近自己找了2个开源代码，还没学习，先附上链接。对这块感兴趣的可以一起交流。

1个是百度的，PaddleHub元宇宙直通车：手把手教你造个虚拟数字人https://aistudio.baidu.com/projectdetail/3345856?ad-from=17549，源代码地址https://github.com/JiehangXie/PaddleBoBo

1个是看csdn文章发现的https://blog.csdn.net/weixin_45508265/article/details/136284743 ，源代码地址：https://github.com/Kedreamix/Linly-Talker

原文地址：https://blog.csdn.net/xiaoliouc/article/details/136392539

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：C#IP转int int转IP
下一篇：C语言学习笔记(二)

leetcode289:生命游戏
根据，简称为，是英国数学家约翰·何顿·康威在 1970 年发明的细胞自动机。给定一个包含m × n个格子的面板，每一个格子都可以看成是一个细胞。每个细胞都具有一个初始状态：1即为（live），或0即为
阅读更多2024-10-20
MongoDB数据恢复
注意：两个MongoDB的版本要一致，本文使用的是mongo:4.2.24。先把K8S上面的MongoDB 容器停止（可以把副本改成0）。1、将容器挂载MongoDB的数据目录备份到本地。经常是数据文
阅读更多2024-10-20
C#中实现事务
C#中实现事务
阅读更多2024-10-20
【LeetCode每日一题】——560.和为 K 的子数组
给你一个整数数组 nums 和一个整数 k ，请你统计并返回该数组中和为 k 的子数组的个数。子数组是数组中元素的连续非空序列。
阅读更多2024-10-20
「漏洞复现」满客宝智慧食堂系统 selectUserByOrgId 未授权访问漏洞
请勿利用文章内的相关技术从事非法测试，由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失，均由使用者本人负责，作者不为此承担任何责任。工具来自网络，安全性自测，如有侵权请联系删除。本次
阅读更多2024-10-20
React面试题目（从基本到高级）
React前端面试常见题目涵盖了React的基础概念、组件、状态管理、生命周期、性能优化等多个方面。
阅读更多2024-10-20
12.个人博客系统（Java项目基于spring和vue）
1 在校学习的学生，可用于日常学习使用或是毕业设计使用 2 毕业一到两年的开发人员，用于锻炼自己的独立功能模块设计能力，增强代码编写能力。 3 亦可以部署为商化项目使用。 4 需要完整资料及源码
阅读更多2024-10-20
YoloV8改进策略：注意力改进|DeBiFormer，可变形双级路由注意力|引入DeBiLevelRoutingAttention注意力模块（全网首发）
本次改进的核心在于将DeBiLevelRoutingAttention模块嵌入到YoloV8的主干网络中，具体位置是在SPPF（Spatial Pyramid Pooling Fast）模块之后。这一
阅读更多2024-10-20
word取消自动单词首字母大写
情况说明：在word输入单词后首字母会自动变成大写取消单词首字母大写步骤：（1）点击菜单栏文件（2）点击“更多”——>“选项”（3）点击“校对”——>“自动更正选项”（4）取消“句首字母大
阅读更多2024-10-20
web前端网页用户注册页面
【代码】web前端网页用户注册页面。
阅读更多2024-10-20

【AI+应用】aliyun的EMO图生视频模型引起的思考如何做AI数字人

相关文章