AI生成视频是什么，效果如何，影响哪些行业？

🕗 发布于 2024-03-25 02:53 人工智能 AI作画

有个读者深夜问了我一个问题，让我思考了一个深夜。

一年前，我写过一篇文章叫《我可能要给鼓吹AI的那些人，浇盆凉水了》。当时ChatGPT很火，整个网络都把AI吹上了天。我则唱反调，因为我就处在这个行业的底层，可谓知冷知热。不过，我当时并没有否定AI，只是表达AI并没有传说的那般无敌，谈不上让各行各业纷纷失业。首先，AI的门槛很高，基本是头部企业的专属，距离普通大众还是很远。另外，通用模型想要落地，必须要结合垂直行业，还有一段很长的路要走。为此我还举了3个现实案例，从算法算力、场景、数据来说明情况。

一年后的今天，这个提问再次引发了我的思考。

我想说，AI的前景依然是美好的，但它的发展速度却远远超出了人们的预期，即：要很久以后才会发生的事情，往往转眼就出现了。

一切皆数字：视频生成是必然结果

继生成式文字、图片之后，生成式视频又火了。其实，这从IT人看来，是必然的，并没有什么大惊小怪的。因为不管是文字、图片，还是音视频，在计算机中都是以数字的形式存储的。

比如，你看到的是大写字母“A”，其实在电脑里存的是65。再比如，你看到的是一张图片。其实，它也是以数字形式存储的。音频视频都是这样。这一点，我也在文章《仅凭1和0，电脑如何展现出多彩的世界？》中讲过。

所以啊，一切媒体的本质都是数字。既然文字可以通过AI生成，而且效果还很好。那么，图片也可以。视频当然也可以，它不过就是图片加了一个时间维度而已。

虽然理论可行，然而现实中需要克服很多问题，包括设备上的、技术上的。比如，你生成的图片，得合情合理啊。

连续合理：视频生成难度更大

我记得，去年很多平台都说，自己的多模态大模型有一项功能，那就是可以指出一张不合理的图片存在什么问题。比如，一张人身狗头的图片，不合理之处在于人的身体不可能长着一张狗头。

其实，这并不是什么特意发布的功能。而是生成过程中，必须要做的一步校验。如果这一步验证都没有，可以说AI生成的内容没有用（特意要求除外）。

看下面的这个视频生成的案例。这是让AI生成一群在路边玩闹的小狗。乍一看像是路边实录。但是你仔细看，视频中一会儿三只狗，一会儿四只狗。有时候一个狗会突然出现，有时候又进入了另一个狗的身体里消失不见。

这很诡异，甚至可以归类为灵异事件，显然是不符合常理的。实际上，现实的训练数据，可能会发生一只狗被另一只狗完全挡住。但是不会出现两者融为一体的情况。

因此，AI要花时间和经历去进行合理性的检测和改正。

再列举一个类似的情况，比如你让AI生成一段，小孩吃饼干的视频。那么，根据常理，手里饼干肯定是越吃越小，小孩的肚子则会越吃越大。这时候，AI生成可能会出现饼干永远都吃不完的现象。这在人类导演设计时会被考虑，但AI自己生成时则需要自动完成。

这些限制，会导致AI需要依托复杂的算法和强大的算力做弥补。这也是检测一个AI是否足够健全的小技巧。同时，也是我说的，它的出现，需要一个过程。

案例展播：效果出人意料

然而现实情况是，这些问题已经攻克了。

比如OpenAI的Sora，它就可以跟你的描述，生成一段一分钟的视频，而且视频也合情合理。

比如，你告诉AI，让它生成一段视频，要求如下：一群纸飞机，在茂密的丛林中翩翩起舞，在树林中穿梭，就像候鸟一样。

结果，它真的就生成了。

如果说候鸟在丛林中穿梭，这并不稀奇，因为现实中有很多这种视频。但是，纸飞机像候鸟一样穿梭，这是不存在的。不过AI却可以生成。我们看到，不管是形态还是动作，纸飞机做到了和候鸟一样的飞行效果。它实现了虚拟的生成式合理。

再举几个例子。

比如你做了一个很虚幻的梦，你想把它还原成视觉效果。那么，你可以告诉AI：请帮我创造了一个超现实的梦境，一条长长的隧道，空气中弥漫着超凡脱俗的能量。

这种感觉的视觉还原，通常是需要一个团队合作才能做得出来。比如需要导演、编剧、特效师等角色的配合，甚至得开好几个会议。但是，如果交给AI来做，将会很简单。

又或者，你喜欢动漫，也喜欢宇宙，那么同样可以根据描述创造出这个场景：一个动漫女孩，亚洲人，操作航天飞机驾驶舱的特写，卡通般的人物，迷人的徽章，闪亮的眼睛。

还有一种情况，那就是你有一张静态图片，但是你需要以这张图片为基础，拓展视频效果。那么这也是可以的。

静态图片是这样的：

视频效果是这样的：

小到你有一个汉堡包，懒得给它拍一个镜头，想让AI生成。

静态图片是这样的：

视频效果是这样的：

大到飞船的发射，错过了起飞瞬间，你想让AI给补充上。

静态图片是这样的：

视频效果是这样的：

它的原理是使用了短小的精品影片资料进行了训练，因此才可以将你的要求转换为影片级别的成品。这番巨大的投入，也决定了生成的时间长不了。因为生成时间越长，对合理性的要求也就越高。因此，即便是OpenAI的Sora，目前最长支持也仅仅是60秒。

平台差异：参差不齐，差别巨大

到这里，我会主动跟大家交代一个问题，那就是实际效果如何。

啥？你上面说的都是假的吗？

上面的素材，都是取自官网。我们都知道，官网和样板的案例，那是宣传片，都是最完美的。你一用起来，完全不是那回事，就像是国内方便面的外包装图案和实物。

我们不能说存在几个例子是完美的，它就是完美的。具体还得看是否能被我们所用。

等到要真的使用时，平台就变得很关键了。同样都是免费AI生成平台，差别真的很大。尤其是国内与国外，头部企业和普通企业。

比如，我想让AI生成一个“守株待兔”的故事。先选择了国内某个头部平台。

呵呵，文不对题吗？其实并不是，出现这个结果，纯粹属于我不会问。

在此也提醒大家，对生成式AI的提问，不要想当然，不能按照你的理解去问，需要按照AI能理解的方式来问。这里面还有一个专业的名词叫：Prompt（提示语）。选平台固然重要，会问也很重要。

你要尽量清楚地描述实际场景，因为AI对“守株待兔”的理解很模糊，它不一定知道这个故事。即便知道，它也不知道你具体想要什么。因此，我们需要换一种问法。

我把守株待兔的故事讲给它听，并让它生成一张故事配图。

啊？大哥，兔子和农民是分开的。

到这里，可能你会觉得，啥呀，啥呀？AI都是骗人的，还来骗我。

其实，我觉得依然是问法不对。咱要描述场景啊，别讲故事了。稍微修改一下Prompt：一个中国古代的农民，守在田边的树桩旁发愣，远处是长满杂草的农田。

噗……樱桃小丸子爷爷都出来了。这让我很想做几期搞笑的生成过程，肯定比做科普受众要广。

不要放弃，我说过，平台之间的差距是很大的，我们换国外的平台，例如Stable。

到Stable上，你用“守株待兔”肯定白瞎，我们甚至还得将中文翻译成英文。

Prompt如下：A farmer from ancient China stood by a tree stump beside the field, lost in thought. In the distance is a field covered with weeds.

看结果：

我觉得，第一张图更符合意境。那么，我们就用它来继续生成视频。

首先上传这张图片，然后再进行一些设置，比如镜头旋转之类的，怎样好玩怎样设置。

其实，你也可以直接写下一段话，从文本描述直接生成视频。但是，我还是建议先来生成一个图片，看看效果。否则，周期太长，最后不满意，容易浪费时间。配置好后，点击Generate生成，即可产生视频。

看起来，还不错吧？这个镜头转场，并不是图片的水平移动，山脉、树桩、草地，都进行了远与近的视觉转换。也算是比较恰当地体现了农夫等待兔子的那种落寞。

机遇挑战：视频处理更加简单

视频生成，大体就是这么一个流程，这么一个东西。没有讲技术相关的内容，主要希望大家对它能有一个基础的横向认识。

它可以做的工作还有很多，涉及的行业也比较广。总结起来，会影响到有视频制作需求的行业。比如影视、广告、自媒体视频创作。尤其在短视频方面，现在网络流量的80%是视频流量。包括你我在内，只要具备看短视频的条件，基本不会去看图文。

现在全球都在降本增效。从上面我们可以看出，它降本增效的力度是很大的。在某些场景下，甚至能替代一个团队，并且没有任何沟通成本，利用AI，可能真的能实现“一人企业”。

真的，我们回想一下，以前电影制作一个特效是什么概念。我们不乏从新闻中看到，某某电影大制作，花了上千万耗时两年，制作出一个和人类一样灵活的机器人。而现在，似乎你我都可以制作了。复杂吗？上传一段视频呗！

总结：全民AI时代慢慢到来

这一次，还有一个显著的变化，那就是AI开始走到田间地头了。它不再是大厂和贵族的特权。你我皆可用，甚至说不仅仅是用，即便你想制作一个属于自己的应用，或者说就为了自己用去做一个，也不是什么难事。比如字节新出的coze这类平台，提供了全民皆可做AI的能力。我也写过文章《字节新出的Coze，让AI简单得像扣扣子》解析，有兴趣的可以了解一下。

最后，做一下总结。

关于市场前景。前景肯定是有的，上面说了那么多，如果你依然觉得它没用，那……那再看一遍吧，前景是很明显的。

关于技术水平。目前的技术水平差别较大，是呈阶梯状的，甚至是断崖状的。可能直到现在，还有人说AI只是一个概念。这些人，没有接触到一些前沿的信息。或者认为那是资本的运作，是炒作。当然，我们也不能看到一个特例，就认为它遍地都是了。不可否认的是，视频的AI生成，已经在快速成型，而且效果显著。似乎视频生成，是AI里最后一块蛋糕了。文字、图片、音频、视频都有了，后面还能生成什么呢？

关于危机感。危机感肯定是有的。每一次技术革命，都会引发大家思考这个问题。不要说普通人，我一个专业写AI程序的人，都有危机感。但是我还是那个观点，AI是替代人类劳动的，不是替代人的。不管是生成图片、视频，还是生成聊天内容，它都是人类的一种弥补。它永远代替不了人类。从情感上，它代替不了你的家人、朋友。从劳动上，它就算做得最好，也只能作为其中一个环节。即便它有37度的体温，也没有真正意义上心灵的温度。

技术已经摆在这里的，关于它更多的应用场景，想必在每个行业都能开出不同的花。愿我们人类，不卑不亢，平静面对。

写在最后

感兴趣的小伙伴，赠送全套AIGC学习资料，包含AI绘画、AI人工智能等前沿科技教程和软件工具，具体看这里。

AIGC技术的未来发展前景广阔，随着人工智能技术的不断发展，AIGC技术也将不断提高。未来，AIGC技术将在游戏和计算领域得到更广泛的应用，使游戏和计算系统具有更高效、更智能、更灵活的特性。同时，AIGC技术也将与人工智能技术紧密结合，在更多的领域得到广泛应用，对程序员来说影响至关重要。未来，AIGC技术将继续得到提高，同时也将与人工智能技术紧密结合，在更多的领域得到广泛应用。

在这里插入图片描述

一、AIGC所有方向的学习路线

AIGC所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。

在这里插入图片描述

二、AIGC必备工具

工具都帮大家整理好了，安装就可直接上手！
在这里插入图片描述

三、最新AIGC学习笔记

当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理解，这些理解是比较独到，可以学到不一样的思路。
在这里插入图片描述

四、AIGC视频教程合集

观看全面零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

在这里插入图片描述

五、实战案例

纸上得来终觉浅，要学会跟着视频一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。
在这里插入图片描述

原文地址：https://blog.csdn.net/maiya_yayaya/article/details/136966550

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Rancher（v2.6.3）——Rancher部署Mysql（单机版）
下一篇：Rancher（v2.6.3）——Rancher部署Nacos（单机版）

dns-prefetc 预解析
是一种浏览器技术，用于提前解析用户可能访问的域名的DNS，以减少用户实际请求资源时的延迟。当浏览器解析到含有指令的标签时，它会在用户点击链接或请求资源之前，提前进行DNS查询，从而在用户实际需要这些资
阅读更多2024-10-03
笔记整理—linux进程部分（6）进程间通信、alarm和pause
整理一下学习的内容，个人观点可能存在错误。对进程的几种通信方式进行了介绍和举例（管道、 system V IPC以及信号量），并结合alarm和pause完成了一个基于挂起原理的sleep函数。
阅读更多2024-10-03
10.3今日错题解析（软考）
这是用来记录我备考软考设计师的错题的，今天知识点为路由配置、封锁协议，大部分错题摘自希赛中的题目，但相关解析是原创，有自己的思考，为了复习：），最后希望各位报考软考的小伙伴都能上岸！！！
阅读更多2024-10-03
低功耗4G模组Air780E之串口通信篇
UART（通用异步接收器/发送器）是一种串行通信协议，因其多功能性和简单性而被广泛使用。与 I2C 和 SPI 不同，UART 只需要两条线即可运行：TX（发送）和 RX（接收）。该协议允许异步通信，
阅读更多2024-10-03
项目级别的配置文件 `.git/config`||全局配置文件 `~/.gitconfig`
在 Git 的配置文件.gitconfig中，alias部分定义了一系列别名，你可以通过这些别名快速执行常用的 Git 操作。
阅读更多2024-10-03
计算机网络期末复习真题（附真题答案）
本文是笔者在大三学习计网时整理的笔记，哈理工的期末试题范围基本就在此范畴内，就算真题有所更改，也仅为很基础的更改数值，大多跑不出这些题，本文包含简答和计算等大题，简答的内容也可能会用于选择填空中，通读
阅读更多2024-10-03
Tomcat监控与调优：比Tomcat Manager更加强大的Psi-Probe
psi-probe是在相同的开源许可证(GPLV2)下分发的社区驱动的 Lambda Probe ，psi-probe的前身是 Lambda Probe，由于Lambda Probe 2006之后不再
阅读更多2024-10-03
【SpringBoot详细教程】-08-MybatisPlus详细教程以及SpringBoot整合Mybatis-plus【持续更新】
MybatisPlus(简称MP)是基于MyBatis框架基础上开发的增强型工具，旨在简化开发、提供效率。至于简化在哪里，我们先看一个案例然后再来详细探究MyBatisPlus。MyBatisPlus
阅读更多2024-10-03
C++语言学习(3): type 的概念
这一篇给出了C++中 type 的概念，包括 fundamental, compound 两种最基本的划分，然后给出了的 macos 代码，以及往下挖了2层、3层发现了的使用等。
阅读更多2024-10-03
工作笔记20240927——vscode + jlink调试
executable”: “${workspaceFolder}/Debug/r52_camsys.elf”, // 替换为你的 elf 文件路径。“telnetport”: 2333, // 与脚本
阅读更多2024-10-03

AI生成视频是什么，效果如何，影响哪些行业？

一切皆数字：视频生成是必然结果

连续合理：视频生成难度更大

案例展播：效果出人意料

平台差异：参差不齐，差别巨大

机遇挑战：视频处理更加简单

总结：全民AI时代慢慢到来

写在最后

相关文章