自学内容网 自学内容网

AI生成视频是什么,效果如何,影响哪些行业?

有个读者深夜问了我一个问题,让我思考了一个深夜。

一年前,我写过一篇文章叫《我可能要给鼓吹AI的那些人,浇盆凉水了》。当时ChatGPT很火,整个网络都把AI吹上了天。我则唱反调,因为我就处在这个行业的底层,可谓知冷知热。不过,我当时并没有否定AI,只是表达AI并没有传说的那般无敌,谈不上让各行各业纷纷失业。首先,AI的门槛很高,基本是头部企业的专属,距离普通大众还是很远。另外,通用模型想要落地,必须要结合垂直行业,还有一段很长的路要走。为此我还举了3个现实案例,从算法算力、场景、数据来说明情况。

一年后的今天,这个提问再次引发了我的思考。

我想说,AI的前景依然是美好的,但它的发展速度却远远超出了人们的预期,即:要很久以后才会发生的事情,往往转眼就出现了。

一切皆数字:视频生成是必然结果

继生成式文字、图片之后,生成式视频又火了。其实,这从IT人看来,是必然的,并没有什么大惊小怪的。因为不管是文字、图片,还是音视频,在计算机中都是以数字的形式存储的。

比如,你看到的是大写字母“A”,其实在电脑里存的是65。再比如,你看到的是一张图片。其实,它也是以数字形式存储的。音频视频都是这样。这一点,我也在文章《仅凭1和0,电脑如何展现出多彩的世界?》中讲过。

所以啊,一切媒体的本质都是数字。既然文字可以通过AI生成,而且效果还很好。那么,图片也可以。视频当然也可以,它不过就是图片加了一个时间维度而已。

虽然理论可行,然而现实中需要克服很多问题,包括设备上的、技术上的。比如,你生成的图片,得合情合理啊。

连续合理:视频生成难度更大

我记得,去年很多平台都说,自己的多模态大模型有一项功能,那就是可以指出一张不合理的图片存在什么问题。比如,一张人身狗头的图片,不合理之处在于人的身体不可能长着一张狗头。

其实,这并不是什么特意发布的功能。而是生成过程中,必须要做的一步校验。如果这一步验证都没有,可以说AI生成的内容没有用(特意要求除外)。

看下面的这个视频生成的案例。这是让AI生成一群在路边玩闹的小狗。乍一看像是路边实录。但是你仔细看,视频中一会儿三只狗,一会儿四只狗。有时候一个狗会突然出现,有时候又进入了另一个狗的身体里消失不见。

这很诡异,甚至可以归类为灵异事件,显然是不符合常理的。实际上,现实的训练数据,可能会发生一只狗被另一只狗完全挡住。但是不会出现两者融为一体的情况。

因此,AI要花时间和经历去进行合理性的检测和改正。

再列举一个类似的情况,比如你让AI生成一段,小孩吃饼干的视频。那么,根据常理,手里饼干肯定是越吃越小,小孩的肚子则会越吃越大。这时候,AI生成可能会出现饼干永远都吃不完的现象。这在人类导演设计时会被考虑,但AI自己生成时则需要自动完成。

这些限制,会导致AI需要依托复杂的算法和强大的算力做弥补。这也是检测一个AI是否足够健全的小技巧。同时,也是我说的,它的出现,需要一个过程。

案例展播:效果出人意料

然而现实情况是,这些问题已经攻克了。

比如OpenAI的Sora,它就可以跟你的描述,生成一段一分钟的视频,而且视频也合情合理。

比如,你告诉AI,让它生成一段视频,要求如下:一群纸飞机,在茂密的丛林中翩翩起舞,在树林中穿梭,就像候鸟一样。

结果,它真的就生成了。

如果说候鸟在丛林中穿梭,这并不稀奇,因为现实中有很多这种视频。但是,纸飞机像候鸟一样穿梭,这是不存在的。不过AI却可以生成。我们看到,不管是形态还是动作,纸飞机做到了和候鸟一样的飞行效果。它实现了虚拟的生成式合理。

再举几个例子。

比如你做了一个很虚幻的梦,你想把它还原成视觉效果。那么,你可以告诉AI:请帮我创造了一个超现实的梦境,一条长长的隧道,空气中弥漫着超凡脱俗的能量。

这种感觉的视觉还原,通常是需要一个团队合作才能做得出来。比如需要导演、编剧、特效师等角色的配合,甚至得开好几个会议。但是,如果交给AI来做,将会很简单。

又或者,你喜欢动漫,也喜欢宇宙,那么同样可以根据描述创造出这个场景:一个动漫女孩,亚洲人,操作航天飞机驾驶舱的特写,卡通般的人物,迷人的徽章,闪亮的眼睛。

还有一种情况,那就是你有一张静态图片,但是你需要以这张图片为基础,拓展视频效果。那么这也是可以的。

静态图片是这样的:

视频效果是这样的:

小到你有一个汉堡包,懒得给它拍一个镜头,想让AI生成。

静态图片是这样的:

视频效果是这样的:

大到飞船的发射,错过了起飞瞬间,你想让AI给补充上。

静态图片是这样的:

视频效果是这样的:

它的原理是使用了短小的精品影片资料进行了训练,因此才可以将你的要求转换为影片级别的成品。这番巨大的投入,也决定了生成的时间长不了。因为生成时间越长,对合理性的要求也就越高。因此,即便是OpenAI的Sora,目前最长支持也仅仅是60秒。

平台差异:参差不齐,差别巨大

到这里,我会主动跟大家交代一个问题,那就是实际效果如何。

啥?你上面说的都是假的吗?

上面的素材,都是取自官网。我们都知道,官网和样板的案例,那是宣传片,都是最完美的。你一用起来,完全不是那回事,就像是国内方便面的外包装图案和实物。

我们不能说存在几个例子是完美的,它就是完美的。具体还得看是否能被我们所用。

等到要真的使用时,平台就变得很关键了。同样都是免费AI生成平台,差别真的很大。尤其是国内与国外,头部企业和普通企业。

比如,我想让AI生成一个“守株待兔”的故事。先选择了国内某个头部平台。

呵呵,文不对题吗?其实并不是,出现这个结果,纯粹属于我不会问。

在此也提醒大家,对生成式AI的提问,不要想当然,不能按照你的理解去问,需要按照AI能理解的方式来问。这里面还有一个专业的名词叫:Prompt(提示语)。选平台固然重要,会问也很重要。

你要尽量清楚地描述实际场景,因为AI对“守株待兔”的理解很模糊,它不一定知道这个故事。即便知道,它也不知道你具体想要什么。因此,我们需要换一种问法。

我把守株待兔的故事讲给它听,并让它生成一张故事配图。

啊?大哥,兔子和农民是分开的。

到这里,可能你会觉得,啥呀,啥呀?AI都是骗人的,还来骗我。

其实,我觉得依然是问法不对。咱要描述场景啊,别讲故事了。稍微修改一下Prompt:一个中国古代的农民,守在田边的树桩旁发愣,远处是长满杂草的农田。

噗……樱桃小丸子爷爷都出来了。这让我很想做几期搞笑的生成过程,肯定比做科普受众要广。

不要放弃,我说过,平台之间的差距是很大的,我们换国外的平台,例如Stable。

到Stable上,你用“守株待兔”肯定白瞎,我们甚至还得将中文翻译成英文。

Prompt如下:A farmer from ancient China stood by a tree stump beside the field, lost in thought. In the distance is a field covered with weeds.

看结果:

我觉得,第一张图更符合意境。那么,我们就用它来继续生成视频。

首先上传这张图片,然后再进行一些设置,比如镜头旋转之类的,怎样好玩怎样设置。

其实,你也可以直接写下一段话,从文本描述直接生成视频。但是,我还是建议先来生成一个图片,看看效果。否则,周期太长,最后不满意,容易浪费时间。配置好后,点击Generate生成,即可产生视频。

看起来,还不错吧?这个镜头转场,并不是图片的水平移动,山脉、树桩、草地,都进行了远与近的视觉转换。也算是比较恰当地体现了农夫等待兔子的那种落寞。

机遇挑战:视频处理更加简单

视频生成,大体就是这么一个流程,这么一个东西。没有讲技术相关的内容,主要希望大家对它能有一个基础的横向认识。

它可以做的工作还有很多,涉及的行业也比较广。总结起来,会影响到有视频制作需求的行业。比如影视、广告、自媒体视频创作。尤其在短视频方面,现在网络流量的80%是视频流量。包括你我在内,只要具备看短视频的条件,基本不会去看图文。

现在全球都在降本增效。从上面我们可以看出,它降本增效的力度是很大的。在某些场景下,甚至能替代一个团队,并且没有任何沟通成本,利用AI,可能真的能实现“一人企业”。

真的,我们回想一下,以前电影制作一个特效是什么概念。我们不乏从新闻中看到,某某电影大制作,花了上千万耗时两年,制作出一个和人类一样灵活的机器人。而现在,似乎你我都可以制作了。复杂吗?上传一段视频呗!

总结:全民AI时代慢慢到来

这一次,还有一个显著的变化,那就是AI开始走到田间地头了。它不再是大厂和贵族的特权。你我皆可用,甚至说不仅仅是用,即便你想制作一个属于自己的应用,或者说就为了自己用去做一个,也不是什么难事。比如字节新出的coze这类平台,提供了全民皆可做AI的能力。我也写过文章《字节新出的Coze,让AI简单得像扣扣子》解析,有兴趣的可以了解一下。

最后,做一下总结。

关于市场前景。前景肯定是有的,上面说了那么多,如果你依然觉得它没用,那……那再看一遍吧,前景是很明显的。

关于技术水平。目前的技术水平差别较大,是呈阶梯状的,甚至是断崖状的。可能直到现在,还有人说AI只是一个概念。这些人,没有接触到一些前沿的信息。或者认为那是资本的运作,是炒作。当然,我们也不能看到一个特例,就认为它遍地都是了。不可否认的是,视频的AI生成,已经在快速成型,而且效果显著。似乎视频生成,是AI里最后一块蛋糕了。文字、图片、音频、视频都有了,后面还能生成什么呢?

关于危机感。危机感肯定是有的。每一次技术革命,都会引发大家思考这个问题。不要说普通人,我一个专业写AI程序的人,都有危机感。但是我还是那个观点,AI是替代人类劳动的,不是替代人的。不管是生成图片、视频,还是生成聊天内容,它都是人类的一种弥补。它永远代替不了人类。从情感上,它代替不了你的家人、朋友。从劳动上,它就算做得最好,也只能作为其中一个环节。即便它有37度的体温,也没有真正意义上心灵的温度。

技术已经摆在这里的,关于它更多的应用场景,想必在每个行业都能开出不同的花。愿我们人类,不卑不亢,平静面对。


写在最后

感兴趣的小伙伴,赠送全套AIGC学习资料,包含AI绘画、AI人工智能等前沿科技教程和软件工具,具体看这里。

AIGC技术的未来发展前景广阔,随着人工智能技术的不断发展,AIGC技术也将不断提高。未来,AIGC技术将在游戏和计算领域得到更广泛的应用,使游戏和计算系统具有更高效、更智能、更灵活的特性。同时,AIGC技术也将与人工智能技术紧密结合,在更多的领域得到广泛应用,对程序员来说影响至关重要。未来,AIGC技术将继续得到提高,同时也将与人工智能技术紧密结合,在更多的领域得到广泛应用。

在这里插入图片描述

一、AIGC所有方向的学习路线

AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

在这里插入图片描述

在这里插入图片描述

二、AIGC必备工具

工具都帮大家整理好了,安装就可直接上手!
在这里插入图片描述

三、最新AIGC学习笔记

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
在这里插入图片描述
在这里插入图片描述

四、AIGC视频教程合集

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

在这里插入图片描述

五、实战案例

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述


原文地址:https://blog.csdn.net/maiya_yayaya/article/details/136966550

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!