51c大模型~合集15
我自己的原文哦~ https://blog.51cto.com/whaosoft/11608335
#ProcessPainter
只要一张图就能「还原」绘画过程,这篇论文比爆火的Paints-UNDO实现得更早
作者介绍:宋亦仁:新加坡国立大学 ShowLab 博士研究生, 主要研究方向包括图像和视频生成, AI 安全性。
黄施捷:新加坡国立大学硕士二年级学生,目前在 Tiamat AI 任算法工程师实习生,主要研究方向是视觉生成。目前在寻找 2025 fall 博士入学机会。
最近,lvmin 带来了最新模型 Paints-UNDO。这款 AI 生成工具可以根据图片还原整个绘画过程,整个 AIGC 社区都为之震撼。
Paints-UNDO 的演示 demo。
早在 1 个月前,NUS,SJTU,Tiamat 等机构联合已经发布了一篇做类似任务的工作 ProcessPainter: Learn Painting Process from Sequence Data。Paints-UNDO 技术报告还未公布,让我们一起看看 ProcessPainter 是如何实现的吧!
- 论文标题:ProcessPainter: Learn Painting Process from Sequence Data
- 论文链接:https://arxiv.org/pdf/2406.06062
- 代码链接:https://github.com/nicolaus-huang/ProcessPainter
翻开任意一本绘画教学书籍,都能看到按照步骤画画的指导。然而,在生成式 AI 时代,通过去噪过程完成图像生成和人类画家绘画过程完全不同,AI 画画的过程无法直接用于绘画教学。
为了解决这一问题,ProcessPainter 通过在合成数据和人类画师绘画视频上训练时序模型,首次实现了让扩散模型生成绘画过程。此外,不同题材、画师的绘画过程差异巨大,风格迥异。然而,目前很少有研究将绘画过程作为研究对象。论文作者在预训练的 Motion Model 基础上,通过在特定画师的少量绘画序列上训练 Motion LoRA,学习画师的绘画技法。
深入解读 ProcessPainter 的核心技术
1. 时序注意力机制(Temporal Attention)
用时序注意力学习生成绘画过程是 ProcessPainter 的核心创新。绘画序列生成的关键是,整个序列是同一张图从抽象到具体的变化过程, 前后帧在内容和构图上是一致且相关的。为了实现这一目标,作者为 Unet 引入了来自 AnimateDiff 的时序注意模块。该模块位于每一层扩散层之后,通过帧间自注意机制来吸收不同帧的信息,确保整个序列的平滑过渡和连续性。
实验证明,该训练策略可以在帧之间保持一致的绘画效果。绘画过程生成和视频生成任务不同之处在于,绘画过程前后变化更加剧烈,首帧是完成度很低的色块或线稿,而尾帧是完整的画作,这对模型训练带来挑战。为此,论文作者先在大量合成数据集上预训练时序模块,让模型学习各种各种 SBR(Stroke-based rendering) 方法的逐步绘画过程,再用数十个艺术家的绘画过程数据训练 Painting LoRA 模型。
2. 艺术品复制网络(Artwork Replication Network)
绘画实践中,我们更希望知道一幅作品是如何画出来的,以及如何从半成品绘画继续细化以达到期待的成品效果。这就引申出了两个任务:绘画过程重建和补全。鉴于这两个任务都有图像的输入,论文作者提出了艺术品复制网络(Artwork Replication Network)。
这一网络设计能够处理任意帧的图像输入,灵活控制绘画过程的生成。与之前的可控性生成方法类似,论文作者引入一个 ControlNet 的变体,来控制生成结果中的特定帧与参考图一致。
3. 合成数据集与训练策略
由于真实绘画过程数据较难获取,数量不足以支持大规模训练。为此,论文作者构建了用于预训练的合成数据集。
具体采用了三种合成数据方法:
1. 采用 Learn to Paint 来产生半透明贝赛尔曲线笔触的绘画序列;
2. 通过自定义笔触,用 Neural style painting 生成油画风格和中国画风格的绘画序列。
3. 上述 SBR(Stroke base painting)方法是从粗到细的拟合一张目标图像, 意味着允许对于已经绘画的部分进行覆盖和修改,然而很多绘画种类,如中国画和雕刻,由于材料的限制,无法大幅度修改已经完成的部分, 绘画过程是分区域完成的。为此,论文作者采用 SAM(segment anything) 和显著性检测方法,从空白画布逐个子区域添加内容,先绘制显著性物体, 然后逐步向背景扩散,从而合成绘画过程视频。
在训练阶段,论文作者首先在合成数据集上预训练了 Motion Model,然后冻结了 Motion Model 的参数并训练了 Artwork Replication Network。在微调绘画 LoRA 模型时,第一步只使用最终帧来微调空间注意力 LoRA,以防止半成品绘画训练集损害模型的生成质量。
此后,论文作者冻结了空间注意力 LoRA 的参数,并使用完整的绘画序列微调时间注意力 LoRA。在推理阶段,当从文本生成绘画序列时,ProcessPainter 不使用艺术品复制网络。在绘画过程重建和补全任务中,ProcessPainter 使用艺术品复制网络接收特定帧的参考输入。为了确保生成的绘画序列中的帧尽可能与输入图像匹配,ProcessPainter 采用了 DDIM 反演技术来获取参考图像的初始噪声,并在 UNet 中替换特定帧的初始噪声。
ProcessPainter 效果展示
在合成数据集上训练的 ProcessPainter base model 可以生成过程上有风格差异的绘画序列。
通过在少量人类画师的绘画序列上分别训练 Motion Lora,ProcessPainter 可以学习特定画师的绘画过程和风格。
指定参考图像,ProcessPainter 可以将完成的艺术品逆向解构为绘画步骤,或者从半成品推演出完整的画作。
这些技术组件的结合,让 ProcessPainter 不仅能够从文本生成绘画过程,还能将参考图转换成绘画序列,或是对未完成的画作进行补全。这无疑为艺术教育提供了新工具,同时也为 AIGC 社区开辟了新赛道。也许不久的将来,Civitai 上会有各种模拟人类画师绘画过程的不同 Lora 出现。
#Gen-3 Alpha
Runway深夜炸场,Gen-3 Alpha图生视频上线,11秒让你脑洞乱飞
网友不吝赞叹:AI 视觉生成又迈出了一大步。
今天凌晨,Runway Gen 3 Alpha 模型的图生视频功能正式上线!
用户可以使用任何图片作为视频生成的首帧。上传的图片既可以单独使用,也可以使用文本提示进行额外指导。
目前,Gen 3 Alpha 支持生成的视频最长为 11 秒。
作为一项重大更新,Runway 表示,图生视频功能将极大提高了生成视频的艺术控制和一致性。
至于效果如何,大家可以先来欣赏以下官方给到的图生视频示例。
Runway 联合创始人兼 CEO Cristóbal Valenzuela 发推表示,是时候了(脑补:给视频生成领域再来波小小的震撼了)。
他也放上了一些惊艳的图生视频示例。
Runway 脑洞大开、逼真的视频生成效果赢得了评论区一众网友的认可和赞赏,都迫不及待想要尝试一番了。
当然已经有人用上了,X 用户 @NoBanksNearby 在试用后表示,「Runway 在图生视频领域又做到了很好。」
X 用户 @blizaine 测试了一张 Midjourney 生成的小罗伯特・唐尼即将扮演的毁灭博士,使用到的 Prompt 为「当男人走向相机时跟踪拍摄,背景中有神奇的电气爆炸。」
参考链接:
https://venturebeat.com/ai/you-can-now-turn-still-images-into-ai-videos-with-runway-gen-3-alpha/
#国产版Sora
又一「国产版Sora」全球上线!清华朱军创业团队,视频生成仅需30秒
AI 视频圈正「互扯头花」。
国外的 Luma、Runway,国内的快手可灵、字节即梦、智谱清影…… 你方唱罢我登场。无一例外,它们对标的都是那个传说中的 Sora。
其实,说起 Sora 全球挑战者,生数科技的 Vidu 少不了。
早在三个月前,国内外视频生成领域还一片「沉寂」之时,生数科技突然曝出自家最新视频大模型 Vidu 的宣传视频,凭借其生动逼真、不输 Sora 的效果,惊艳了一众网友。
就在今天,Vidu 正式上线。无需申请,只要有个邮箱,就能上手体验。(Vidu官网链接:www.vidu.studio)
例如,皮卡丘和哆啦 A 梦玩「贴脸杀」:
《暮光之城》男女主秀恩爱:
它甚至还解决了 AI 不会写字的问题:
此外,Vidu 的生成效率也贼拉猛,实现了业界最快的推理速度,仅需 30 秒就能生成一段 4 秒镜头。
接下来,我们就奉上最新的一手评测,看看这款「国产 Sora」的实力究竟如何。
上手实测:镜头语言大胆,画面不会崩坏!
这次,Vidu 亮出了绝活。
不仅延续了今年 4 月份展示的高动态性、高逼真度、高一致性等优势,还新增了动漫风格、文字与特效画面生成、角色一致性等特色能力。
主打一个:别人有的功能,我要有,别人没有的功能,我也要有。
哦莫,它竟然认字识数
现阶段,Vidu 有两大核心功能:文生视频和图生视频。
提供 4s 和 8s 两种时长选择,分辨率最高达 1080P。风格上,提供写实和动画两大选择。
先看看图生视频。
让历史重新鲜活起来,是当下最流行的玩法。这是法国画家伊丽莎白・路易丝・维瑞的名作《画家与女儿像》。
我们输入提示词:画家与女儿像,母女紧紧抱在一起。
生成的高清版本让人眼前一亮,人物动作幅度很大,连眼神都有变化,但效果挺自然。
再试试达芬奇的《抱银鼬的女子》。
提示词:抱银鼬的女子面露微笑。0
长达 8 秒的视频里,女子和宠物动作幅度较大,特别是女子的手部抚摸动作,还有身体、面部变化,但都没有影响画面的自然、流畅。
大幅度、精准的动作有助于更好地表现视频情节和人物情绪。不过,动作幅度一旦变大,画面容易崩坏。因此,一些模型为保证流畅性,会牺牲动幅,而 Vidu 比较好地解决了这一问题。
模拟真实物理世界的运动,还真不错。比如,复刻类似库布里克《2001 太空漫游》的情景!
提示词:长镜头下,缓缓走向消失。7
提示词:长镜头下,漂浮着,慢慢飘向尽头。
除了图生视频,还有文生视频。
提示词:两朵花在黑色背景下缓慢绽放,展示出细腻的花瓣和花蕊。
提示语:这次只她一人,独自坐在樱花深处的秋千架上,穿着粉红的春衫,轻微荡着秋千,幅度很小,像坐摇椅一般,微垂着头,有点百无聊赖的样子,缓缓伸足一点一点踢着地上的青草。那樱花片片飘落在她身上头上,她也不以手去拂,渐渐积得多了,和她衣裙的颜色相融,远远望去仿佛她整个人都是由樱花砌成似的。
Vidu 语义理解能力不错,还可以理解提示中一次包含多个镜头的片段要求。
比如,画面中既有海边小屋的特写,还有运镜转向海面远眺的远景,通过镜头切换,赋予画面一种鲜明的叙事感。
提示语:在一个古色古香的海边小屋里,阳光沐浴着房间,镜头缓慢过渡到一个阳台,俯瞰着宁静的大海,最后镜头定格在漂浮着大海、帆船和倒影般的云彩。
对于第一人称、延时摄影等镜头语言,Vidu 也能准确理解和表达,用户只需细化提示词,即可大幅提升视频的可控性。0:07
提示词:第一人称视角,女友牵着我的手,一起漫步在海边。
Vidu 是一款能够准确理解和生成一些词汇的视频生成器,比如数字。
提示词:一块生日蛋糕,上面插着蜡烛,蜡烛是数字 “32”。
蛋糕上换成「Happy Birthday」的字样,它也能hold住。
提示词:一块蛋糕,上面写着"HAPPY BIRTHDAY"。
动漫风格嘎嘎好用
目前市面上的 AI 视频工具大多局限于写实风格或源于现实的想象,而 Vidu 除了写实风格外,还支持动漫风格。
我们选择动画模型,直接输入提示词即可输出动漫风格视频。
例如,提示词:动漫风格,小女孩站在厨房里切菜。
说实话,这画风有宫崎骏老爷子的味道。Vidu 读懂了提示词,小女孩切菜动作一气呵成,就是手指和刀具在不经意间仍有变形。
提示词:动漫风格,一个戴着耳机的小女孩在跳舞。
Vidu 的想象力还挺丰富,自个儿把背景设置为带有喷泉的公园,这也让视频画面不那么单调。
当然,我们还可以上传一张动漫参考图片,再输入提示词,如此一来,图片中的动漫人物就能动起来啦。
例如,我们上传一张蜡笔小新的静态图,然后输入提示词:蜡笔小新大笑着举起手里的小花。图片用途选择「用作起始帧」。
我们来瞅瞅效果:
再上传一张呆萌皮卡丘的图像,输入提示词为「皮卡丘开心地蹦起来」。图片用途选择「用作起始帧」。
继续上效果:
上传《海贼王》路飞的图像,再喂给它提示词:男孩突然哭起来。
效果如下:
不得不说, Vidu 的动漫效果相当惊艳,在保持风格一致性的同时,显著提高了画面的稳定性和流畅性,没有出现变形、崩坏或者六指狂魔、左右腿不分等「邪门」画面。
梗图、表情包燥起来
在「图生视频」板块中,除了支持首帧图上传,Vidu 这次还上新一项功能 —— 角色一致性(Charactor To Video)。
所谓角色一致性,就是上传一个角色图像,然后可以指定该角色在任意场景中做出任意动作。
我们就拿吴京为例。
提示词:在一艘宇宙飞船里,吴京正穿着太空服,对镜头挥手。
提示词:吴京穿着唐装,站在一条古街上,向镜头挥手。
如果说,首帧图上传适合创作场景一致性的视频,那么,有了角色一致性功能,从科幻角色到现代剧,演员七十二变,信手拈来。
此外,有了角色一致性功能,普通用户创作「梗图」、「表情包」可以燥起来了!
比如让北美「意难忘」贾斯汀・比伯和赛琳娜再续前缘:
《武林外传》中佟湘玉和白展堂嗑着瓜子,聊着同福客栈的八卦:
还有《甄嬛传》皇后娘娘委屈大哭:
只要脑洞够大,什么地铁老人吃手机、鳌拜和韦小宝打啵、容嬷嬷喂紫薇吃鸡腿,Vidu 都能整出来。
就一个字,快!
视频生成过程中,用户最烦啥?当然是龟速爬行的进度条。
试想,为了一段几秒的视频,愣是趴在电脑前等个十分钟,再慢性子的人也很难不破防。
目前,市面上主流 AI 视频工具生成一段 4 秒左右的视频片段,通常需要 1 到 5 分钟,甚至更长。
例如,Runway 最新推出的 Gen-3 工具需要 1 分钟来完成 5s 视频生成,可灵需要 2-3 分钟,而 Vidu 将这一等待时间缩短至 30 秒,速度比业内最快水平的 Gen-3 还要再快一倍。
基于完全自研的 U-ViT 架构,商用精心布局
「Vidu」底层基于完全自研的 U-ViT 架构,该架构由团队在 2022 年 9 月提出,早于 Sora 采用的 DiT 架构,是全球首个 Diffusion 和 Transformer 融合的架构。
在 DiT 论文发布两个月前,清华大学的朱军团队提交了一篇论文 ——《All are Worth Words: A ViT Backbone for Diffusion Models》。这篇论文提出了用 Transformer 替代基于 CNN 的 U-Net 的网络架构 U-ViT。这是「Vidu」最重要的技术基础。
由于不涉及中间的插帧和拼接等多步骤的处理,文本到视频的转换是直接且连续的,「Vidu」 的作品感官上更加一镜到底,视频从头到尾连续生成,没有插帧痕迹。除了底层架构上的创新,「Vidu」也复用了生数科技过往积累下的工程化经验和能力。
生数科技曾称,从图任务的统一到融合视频能力,「Vidu」可被视为一款通用视觉模型,能够支持生成更加多样化、更长时长的视频内容。他们也透露,「Vidu」还在加速迭代提升。面向未来,「Vidu」灵活的模型架构也将能够兼容更广泛的多模态能力。
生数科技成立于 2023 年 3 月,核心成员来自清华大学人工智能研究院,致力于自主研发世界领先的可控多模态通用大模型。自 2023 年成立以来,团队已获得蚂蚁集团、启明创投、BV 百度风投、字节系锦秋基金等多家知名产业机构的认可,完成数亿元融资。据悉,生数科技是目前国内在多模态大模型赛道估值最高的创业团队。
公司首席科学家由清华人工智能研究院副院长朱军担任;CEO 唐家渝本硕就读于清华大学计算机系,是 THUNLP 组成员;CTO 鲍凡是清华大学计算机系博士生、朱军教授的课题组成员,长期关注扩散模型领域研究,U-ViT 和 UniDiffuser 两项工作均是由他主导完成的。
今年 1 月,生数科技旗下视觉创意设计平台 PixWeaver 上线了短视频生成功能,支持 4 秒高美学性的短视频内容。2 月份 Sora 推出后,生数科技内部成立攻坚小组,加快了原本视频方向的研发进度,不到一个月的时间,内部就实现了 8 秒的视频生成,紧接着 4 月份就突破了 16 秒生成,生成质量与时长全方面取得突破。
如果说 4 月份的模型发布展示了 Vidu 在视频生成能力上的领先,这次正式发布的产品则展示了 Vidu 在商业化方面的精心布局。生数科技目前采取模型层和应用层两条路走路的模式。
一方面,构建覆盖文本、图像、视频、3D 模型等多模态能力的底层通用大模型,面向 B 端提供模型服务能力。
另一方面,面向图像生成、视频生成等场景打造垂类应用,按照订阅等形式收费,应用方向主要是游戏制作、影视后期等内容创作场景。
#Segment Anything Model 2 (SAM 2)
刚刚,Meta开源「分割一切」2.0模型,视频也能分割了
还记得 Meta 的「分割一切模型」吗?这个模型在去年 4 月发布,被很多人认为是颠覆传统 CV 任务的研究。
时隔一年多,刚刚,Meta 在 SIGGRAPH 上重磅宣布 Segment Anything Model 2 (SAM 2) 来了。在其前身的基础上,SAM 2 的诞生代表了领域内的一次重大进步 —— 为静态图像和动态视频内容提供实时、可提示的对象分割,将图像和视频分割功能统一到一个强大的系统中。
SAM 2 可以分割任何视频或图像中的任何对象 —— 甚至是它以前没有见过的对象和视觉域,从而支持各种不同的用例,而无需自定义适配。
在与黄仁勋的对话中,扎克伯格提到了 SAM 2:「能够在视频中做到这一点,而且是在零样本的前提下,告诉它你想要什么,这非常酷。」
Meta 多次强调了最新模型 SAM 2 是首个用于实时、可提示的图像和视频对象分割的统一模型,它使视频分割体验发生了重大变化,并可在图像和视频应用程序中无缝使用。SAM 2 在图像分割准确率方面超越了之前的功能,并且实现了比现有工作更好的视频分割性能,同时所需的交互时间为原来的 1/3。
该模型的架构采用创新的流式内存(streaming memory)设计,使其能够按顺序处理视频帧。这种方法使 SAM 2 特别适合实时应用,为各个行业开辟了新的可能性。
当然,处理视频对算力的要求要高得多。SAM 2 仍然是一个庞大的模型,也只有像 Meta 这样的能提供强大硬件的巨头才能运行,但这种进步还是说明了一些问题:一年前,这种快速、灵活的分割几乎是不可能的。SAM 2 可以在不借助数据中心的情况下运行,证明了整个行业在计算效率方面的进步。
模型需要大量的数据来训练,Meta 还发布了一个大型带注释数据库,包括大约 51,000 个真实世界视频和超过 600,000 个 masklets。与现有最大的视频分割数据集相比,其视频数量多 4.5 倍,注释多 53 倍,Meta 根据 CC BY 4.0 许可分享 SA-V。在 SAM 2 的论文中,另一个包含超过 100,000 个「内部可用」视频的数据库也用于训练,但没有公开。
与 SAM 一样,SAM 2 也会开源并免费使用,并在 Amazon SageMaker 等平台上托管。为了履行对开源 AI 的承诺,Meta 使用宽松的 Apache 2.0 协议共享代码和模型权重,并根据 BSD-3 许可分享 SAM 2 评估代码。
目前,Meta 已经提供了一个 Web 的演示体验地址:https://sam2.metademolab.com/demo09
基于 web 的 SAM 2 演示预览,它允许分割和跟踪视频中的对象。
正如扎克伯格上周在一封公开信中指出的那样,开源人工智能比任何其他现代技术都更具有潜力,可以提高人类的生产力、创造力和生活质量,同时还能加速经济增长并推动突破性的医学和科学研究。人工智能社区利用 SAM 取得的进展给我们留下了深刻的印象, SAM 2 必将释放更多令人兴奋的可能性。
SAM 2 可立即应用于各种各样的实际用例 - 例如,跟踪对象(左)或分割显微镜捕获的视频中的移动细胞以辅助科学研究(右)。
未来,SAM 2 可以作为更大型 AI 系统的一部分,通过 AR 眼镜识别日常物品,并向用户提供提醒和说明。
SAM 2 前脚刚上线,大家就迫不及待的用起来了:「在 Meta 未提供的测试视频上试用 SAM 2。效果好得令人瞠目结舌。」
来源:https://x.com/BenjaminDEKR/status/1818066956173664710
还有网友认为,SAM 2 的出现可能会使其他相关技术黯然失色。
如何构建 SAM 2?
SAM 能够了解图像中对象的一般概念。然而,图像只是动态现实世界的静态快照。许多重要的现实用例需要在视频数据中进行准确的对象分割,例如混合现实、机器人、自动驾驶车辆和视频编辑。Meta 认为通用的分割模型应该适用于图像和视频。
图像可以被视为具有单帧的非常短的视频。Meta 基于这个观点开发了一个统一的模型,无缝支持图像和视频输入。处理视频的唯一区别是,模型需要依靠内存来调用该视频之前处理的信息,以便在当前时间步准确地分割对象。
视频中对象的成功分割需要了解实体在空间和时间上的位置。与图像分割相比,视频提出了重大的新挑战。对象运动、变形、遮挡、光照变化和其他因素可能会因帧而异。由于摄像机运动、模糊和分辨率较低,视频的质量通常低于图像,这增加了难度。因此,现有的视频分割模型和数据集在为视频提供可比的「分割任何内容」功能方面存在不足。
Meta 构建 SAM 2 和新 SA-V 数据集来解决这些挑战。
与用于 SAM 的方法类似,Meta 对视频分割功能的研究涉及设计新任务、模型和数据集。
研究团队首先开发了可提示的(promptable)视觉分割任务并设计了一个能够执行该任务的模型 ——SAM 2。
然后,研究团队使用 SAM 2 来帮助创建视频对象分割数据集 ——SA-V,该数据集比当前存在的任何数据集大一个数量级。研究团队使用它来训练 SAM 2 以实现 SOTA 性能。
可提示的视觉分割
2SAM 2 支持在任何视频帧中选择和细化对象。
研究团队设计了一个可提示的视觉分割任务,将图像分割任务推广到视频领域。SAM 经过训练,以图像中的输入点、框或掩码来定义目标对象并预测分割掩码。该研究训练 SAM 2 在视频的任何帧中获取输入提示来定义要预测的时空掩码(即「masklet」)。
SAM 2 根据输入提示立即预测当前帧上的掩码,并将其临时传播(temporally propagate)以生成跨所有视频帧的目标对象的 masklet。一旦预测出初始 masklet,就可以通过在任何帧中向 SAM 2 提供附加提示来迭代完善它。这可以根据需要重复多次,直到获得所需的 masklet。
统一架构中的图像和视频分割
2从 SAM 到 SAM 2 的架构演变。
SAM 2 架构可以看作是 SAM 从图像领域到视频领域的推广。
SAM 2 可以通过点击、边界框或掩码被提示,以定义给定帧中对象的范围。轻量级掩码解码器采用当前帧的图像嵌入和编码提示来输出该帧的分割掩码。在视频设置中,SAM 2 将此掩码预测传播到所有视频帧以生成 masklet,然后在任何后续帧上迭代添加提示以细化 masklet 预测。
为了准确预测所有视频帧的掩码,研究团队引入了一种由记忆编码器、记忆库(memory bank)和记忆注意力模块组成的记忆机制。当应用于图像时,内存组件为空,模型的行为类似于 SAM。对于视频,记忆组件能够存储关于该会话中的对象和先前用户交互的信息,从而允许 SAM 2 在整个视频中生成 masklet 预测。如果在其他帧上提供了额外的提示,SAM 2 可以根据对象存储的记忆上下文有效地纠正其预测。
帧的记忆由记忆编码器根据当前掩码预测创建,并放置在记忆库中以用于分割后续帧。记忆库由先前帧和提示帧的记忆组成。记忆注意力操作从图像编码器获取每帧嵌入,并根据记忆库进行调整以产生嵌入,然后将其传递到掩码解码器以生成该帧的掩码预测。对于所有后续帧重复此操作。
Meta 采用流式架构,这是 SAM 在视频领域的自然推广,一次处理一个视频帧并将有关分割对象的信息存储在记忆中。在每个新处理的帧上,SAM 2 使用记忆注意力模块来关注目标对象之前的记忆。这种设计允许实时处理任意长的视频,这不仅对于 SA-V 数据集的注释收集效率很重要,而且对于现实世界的应用(例如在机器人领域)也很重要。
当图像中被分割的对象存在模糊性时,SAM 会输出多个有效掩码。例如,当一个人点击自行车轮胎时,模型可以将这次点击解释为仅指轮胎或整个自行车,并输出多个预测。在视频中,这种模糊性可能会扩展到视频帧中。例如,如果在一帧中只有轮胎可见,则轮胎上的点击可能仅与轮胎相关,或者随着自行车的更多部分在后续帧中变得可见,这种点击可能是针对整个自行车的。为了处理这种模糊性,SAM 2 在视频的每个步骤创建多个掩码。如果进一步的提示不能解决歧义,模型会选择置信度最高的掩码,以便在视频中进一步传播。
9SAM 2 架构中的遮挡 head 用于预测对象是否可见,即使对象暂时被遮挡,也能帮助分割对象。
在图像分割任务中,在给定积极提示的情况下,帧中始终存在可分割的有效对象。在视频中,特定帧上可能不存在有效对象,例如由于对象被遮挡或从视图中消失。为了解释这种新的输出模式,研究团队添加了一个额外的模型输出(「遮挡 head(occlusion head)」),用于预测当前帧中是否存在感兴趣的对象。这使得 SAM 2 能够有效地处理遮挡。
SA-V:Meta 构建了最大的视频分割数据集
来自 SA-V 数据集的视频和掩码注释。
为了收集一个大型且多样化的视频分割数据集,Meta 建立了一个数据引擎,其中注释员使用 SAM 2 交互地在视频中注释 masklet,然后将新注释的数据用于更新 SAM 2。他们多次重复这一循环,以迭代地改进模型和数据集。与 SAM 类似,Meta 不对注释的 masklet 施加语义约束,注重的是完整的物体(如人)和物体的部分(如人的帽子)。
借助 SAM 2,收集新的视频对象分割掩码比以往更快,比每帧使用 SAM 快约 8.4 倍。此外,Meta 发布的 SA-V 数据集的注释数量是现有视频对象分割数据集的十倍以上,视频数量大约是其 4.5 倍。
总结而言,SA-V 数据集的亮点包括:
- 在大约 51,000 个视频中有超过 600,000 个 masklet 注释;
- 视频展示了地理上不同的真实场景,收集自 47 个国家;
- 覆盖整个对象、对象中的一部分,以及在物体被遮挡、消失和重新出现的情况下具有挑战性的实例。
结果
下方两个模型都是用第一帧中的 T 恤蒙版初始化的。对于 baseline,Meta 使用来自 SAM 的蒙版,问题是过度分割并包括人的头部,而不是仅跟踪 T 恤。相比之下,SAM 2 能够在整个视频中准确跟踪对象部分。
为了创建统一的图像和视频分割模型,Meta 将图像视为单帧视频,在图像和视频数据上联合训练 SAM 2。团队利用了去年作为 Segment Anything 项目的一部分发布的 SA-1B 图像数据集、SA-V 数据集以及额外的内部许可视频数据集。
SAM 2(右)提高了 SAM(左)图像中的对象分割精度。
SAM 2 论文也展示了该模型的多项提升:
1、SAM 2 在 17 个零样本视频数据集的交互式视频分割方面表现明显优于以前的方法,并且所需的人机交互减少了大约三倍。
2、SAM 2 在 23 个数据集零样本基准测试套件上的表现优于 SAM,而且速度快了六倍。
3、与之前的最先进模型相比,SAM 2 在现有的视频对象分割基准(DAVIS、MOSE、LVOS、YouTube-VOS)上表现出色。
4、使用 SAM 2 进行推理感觉很实时,速度大约为每秒 44 帧。
5、循环中使用 SAM 2 进行视频分割注释的速度比使用 SAM 进行手动每帧注释快 8.4 倍。
6、为了衡量 SAM 2 的公平性,Meta 对特定人群的模型性能进行了评估。结果表明,在感知性别和 18-25 岁、26-50 岁和 50 岁以上三个感知年龄组评估中,模型显示的差异很小。
更多结果,请查看论文。
论文地址:https://scontent-sjc3-1.xx.fbcdn.net/v/t39.2365-6/453323338_287900751050452_6064535069828837026_n.pdf?_nc_cat=107&ccb=1-7&_nc_sid=3c67a6&_nc_ohc=TnvI-AaGawoQ7kNvgFJPdfC&_nc_ht=scontent-sjc3-1.xx&oh=00_AYAlCBmHCcIEnDo-YzzCScg8NZPgTQlwjE9FVlniLRw5JQ&oe=66AE2179
局限性
虽然 SAM 2 在分割图像和短视频中的对象方面表现出色,但仍然会遇到诸多挑战。
SAM 2 可能会在摄像机视角发生剧烈变化、长时间遮挡、拥挤的场景或较长的视频中失去对对象的追踪。
在实际应用中,Meta 设计了交互式模型来缓解这一问题,并通过在任意帧中点击校正来实现人工干预,从而恢复目标对象。
在拥挤的场景中,SAM 2 有时会混淆多个外观相似的对象。
当目标对象只在一帧中指定时,SAM 2 有时会混淆对象,无法正确分割目标,如上述视频中的马匹所示。在许多情况下,通过在未来帧中进行额外的细化提示,这一问题可以完全解决,并在整个视频中获得正确的 masklet。
虽然 SAM 2 支持同时分割多个单独对象的功能,但模型的效率却大大降低。实际上,SAM 2 对每个对象进行单独处理,只利用共享的每帧嵌入,不进行对象间通信。虽然这简化了模型,但纳入共享的对象级上下文信息有助于提高效率。
SAM 2 的预测可能会错过快速移动对象的细节。
对于复杂的快速运动对象,SAM 2 有时会漏掉一些细节,而且预测结果在帧之间可能不稳定,如上文骑自行车者的视频所示。
在同一帧或其他帧中添加进一步的提示来优化预测只能部分缓解此问题。在训练过程中,如果模型预测在帧间抖动,不会对其进行任何惩罚,因此无法保证时间上的平滑性。提高这种能力可以促进需要对精细结构进行详细定位的实际应用。
虽然 Meta 的数据引擎在循环中使用了 SAM 2,且在自动 masklet 生成方面也取得了长足进步,但仍然依赖人工注释来完成一些步骤,例如验证 masklet 质量和选择需要校正的帧。
因此,未来的发展需要进一步自动化这个数据注释过程,以提高效率。要推动这项研究,还有很多工作要做。
参考链接:
https://ai.meta.com/blog/segment-anything-2-video/
#Towards Next-Generation Logic Synthesis
新一代芯片电路逻辑综合,可扩展可解释的神经电路生成框架
本论文作者王治海是中国科学技术大学 2020 级硕博连读生,师从王杰教授,主要研究方向为强化学习与学习优化理论及方法、人工智能驱动的芯片设计等。他曾以第一作者在 TPAMI、ICML、NeurIPS、ICLR、AAAI 等顶级期刊与会议上发表论文七篇,一篇入选 ICML 亮点论文(前3.5%),曾获华为优秀实习生(5/400+)、两次国家奖学金(2017和2024)等荣誉。
近日,中科大王杰教授团队(MIRA Lab)和华为诺亚方舟实验室(Huawei Noah's Ark Lab)联合提出了可生成具有成千上万节点规模的神经电路生成与优化框架,具备高扩展性和高可解释性,这为新一代芯片电路逻辑综合工具奠定了重要基础。论文发表在 CCF-A 类人工智能顶级会议 Neural Information Processing Systems(NeurIPS 2024)。
- 论文标题:Towards Next-Generation Logic Synthesis: A Scalable Neural Circuit Generation Framework
- 论文地址:https://neurips.cc/virtual/2024/poster/94631
论文概览
逻辑综合(Logic Synthesis, LS)是芯片设计流程中承上启下的关键环节,对芯片设计的效率和质量都具有重要影响。具体来说,逻辑综合旨在生成精准满足给定功能要求(如由电路输入输出对构成的功能真值表)的最优逻辑电路图,是 NP 难问题。为了求解该问题,传统方法主要依赖于硬编码启发式规则,易陷入次优解。
该框架能够精确生成达1200节点规模的电路,该方案为新一代芯片电路逻辑综合工具提供了可行思路与奠定了关键基础。相关技术和能力已整合入华为自研EDA工具。
引言
芯片电路生成的目标是在给定电路功能描述的条件下,生成精准满足电路功能要求且节点数少的逻辑电路图。传统的电路生成方法将高级电路描述语言直接转译为冗余度较高的逻辑电路,这给后续的电路优化带来了较大压力。近期,一些研究通过引入机器学习方法,将电路生成与优化过程有机结合,展现了新一代逻辑综合技术的美好前景。
神经网络架构搜索(Differential Neural Network Architecture Search, DNAS)是一种利用梯度下降法搜索离散结构的技术。已有研究将其应用于生成低冗余电路,展现出了显著的潜力。然而,作者发现现有方法在生成电路时,尤其是在处理大规模电路时,难以实现完全准确的生成,且其性能对超参数极为敏感。
在深入的实验分析后,作者进一步总结出将 DNAS 应用于电路生成的三个主要难点:
- DNAS 倾向于生成大量的跨层连接,导致网络表达能力受限。
- 神经网络结构与电路固有结构存在较大偏差,显著降低了 DNAS 的搜索效率。
- 不同输入输出示例数据的学习难度差异显著,现有方法难以学习难例输入输出对。
为系统性地解决这些挑战,作者提出了一种新颖的正则化三角形电路网络生成框架(T-Net),实现了完全准确且可扩展的电路生成。此外,他们还提出了一种由强化学习辅助的演化算法,以实现高效且有效的电路优化。在四个电路评测标准数据集中,实验表明他们的方法能够精确生成多达 1200 节点规模的电路,且其性能显著优于国际逻辑综合竞赛 IWLS 2022 和 2023 中冠亚军方案。
背景与问题介绍
逻辑电路生成介绍
逻辑电路图(And-Inverter Graph, AIG)是逻辑电路的一种表示方式。AIG 为有向无环图,图中的节点代表与逻辑门,图中的边代表逻辑门间的连线,连线上可以添加非门。逻辑电路的大小为 AIG 中的节点数,在逻辑功能不变的情况下,节点数越少表示电路结构越紧凑,这将有助于后续的芯片设计优化。
逻辑电路生成方法将电路的完整输入输出对组合,即功能真值表,建模为训练数据集,并利用机器学习模型自动从数据集中学习生成逻辑电路图 [1,2,3]。在电路设计的实际应用中,要求设计精准满足功能要求的电路结构,因此生成的逻辑电路图必须在训练集上达到 100% 的准确率。
基于 DNAS 的电路生成介绍
神经网络架构搜索(Differential Neural Network Architecture Search, DNAS)[4] 近期被用于生成逻辑电路图 [2,3]。这类方法将一个 L 层,每层 K 个神经元的神经网络建模为 AIG,其中神经元视为逻辑门,神经元之间的连接视为逻辑门之间的电路连接,神经元可以连接到更浅层的任意神经元。对于一个参数化的神经网络,每个神经元都固定执行与逻辑运算,而神经元之间的连接参数是可学习的。
为了能够使用梯度下降法训练网络结构,现有方法会执行 2 种连续化操作:1. 神经元的逻辑运算用等价的可微方式计算,例如 a 与 b 用 a⋅b 代替 [5]。2. 将离散的网络连接方式参数化,并在前向传播时使用 gumbel-softmax [6] 对连接进行连续化和采样。
在训练期间,真值表的每一行输入 - 输出对都作为训练数据输入网络,通过梯度下降法训练连接参数。在测试期间,每个节点的输入根据参数只选择一条连接,从而将网络离散化,模拟实际的逻辑电路。
动机实验 ——DNAS 难以准确生成电路
作者使用上述 DNAS 方法生成电路,生成准确率和电路的规模如图 1(a)所示。结果显示,现有方法难以准确生成电路,且准确率随着电路规模增大而减小。同时,他们发现生成准确率对网络初始化方式及其敏感,方法的鲁棒性较差。
图 1. 观察实验。(a) 现有的 DNAS 方法难以准确生成电路,特别是大规模电路。(b) 输出节点位于网络浅层,跳过了大量可用节点。(c) 实际只有约四分之一的节点被使用 (深色)。(d) 电路各层节点数统计,与普遍使用的方形网络存在差异。
为了进一步分析产生上述挑战的原因,作者进行了详细的实验。
首先,他们发现网络利用率很低。由于节点间的连接可以跨层,因此存在被跳过的节点。图 1(b)展示了经过训练后输出节点位于网络中的位置,可以看到大部分网络层都被跳过,没有连接进最终电路。图 1(c)展示了网络中实际使用到的节点(深色),只有约四分之一的底层节点被使用。过度的跨层连接浪费了大量网络结构,限制了网络的表达能力。
接着,他们发现实际电路结构与网络之间存在结构偏差。他们统计了使用传统方法生成电路的各层节点数,如图 1(d)所示。图中展示了实际电路在底层有着更多节点,而顶层则节点更少,这与普遍使用的方形网络存在差异。
最后,他们发现不同输入 - 输出示例之间存在学习难度差。具体来说,它们在训练时的 loss 收敛速度存在显著差异。这与通常认为的独立同分布(IID)假设并不相同。更多细节可见原论文第 4 章节。
方法介绍
针对以上三个挑战,作者设计了新颖的正则化三角形电路生成框架(T-Net),如图 2 所示。它包含 3 个部分:多标签数据变换、三角形网络结构、正则化损失函数。
图 2. 作者提出的电路生成框架图,包含多标签数据变换、三角形网络结构、正则化损失函数三部分。
多标签数据变换:提高可扩展性
随着输入位数的增多,真值表的长度呈指数型增长。为了解决扩展性挑战,作者设计了基于香农定理的多标签训练数据变换。香浓定理证明了一个逻辑函数可以通过一个分解变量分解成两个子函数:
由于真值表是逻辑函数的对偶表示,他们通过以下两步完成数据变换:首先选定一个输入变量,通过固定它的值为 0 或 1,将真值表分解为 2 个长度减半的子表。接着将 2 个子表并列起来,每个输入组合的输出数量翻倍。
通过将真值表合并生成,网络可以学习到更多可复用的结构,从而减少最终的电路节点数。多标签数据变换可以不断减少真值表的输入位数,从而降低学习难度,加速电路生成。
三角形网络结构:减小搜索空间
为了使网络结构更好地适配电路特性,作者设计了三角形的网络结构。具体来说,更宽的底层结构增强了网络的表达能力,而细长的顶层结构减少了利用率低的冗余节点,减小了搜索空间,加速了收敛。同时,实验证明了这种窄顶结构也能有效加速具有大量输出的电路生成。
正则化损失函数:精确生成电路
本论文的方法包含跨层连接正则化和布尔难度识别损失函数两部分。对于跨层连接,作者对可学习的连接分布参数施加权重正则化,鼓励网络连接更临近层的节点。对于较难学习的输入 - 输出示例,他们在损失函数中为这些示例施加更大的权重,以在训练后期加速收敛。
同时,本论文的框架还包含电路优化部分。作者在强化学习优化算子序列调优的基础上,结合了演化算法和 agent 重启技术,避免陷入局部最优解,实现快速有效的电路优化。更多细节可见原文第 5 章节。
实验介绍
本论文实验的数据集包括 4 类开源电路数据集,节点数规模高达 1200,输入、输出数量最高为 16、63 位。
实验包含 4 个部分:1. 在多个电路上评估本论文电路生成和优化方法的准确性和电路性能。2. 评估本论文生成方法针对电路大小的可扩展性。3. 通过消融实验展示本论文方法各部分的效用。4. 验证本论文方法对超参数的鲁棒性。
作者在以下内容中详细介绍实验 1,其余实验请参见原论文的第 6 章节。
电路生成准确率
部分实验结果见图 3,作者在开源电路上对比了他们的方法与其他基于 DNAS 生成方法的准确率。实验结果显示,他们的方法准确率大幅提升,并可准确生成 1200 节点规模的电路。
图 3. 作者提出的 T-Net 相比其他 DNAS 电路生成方法准确率大幅提升。
电路综合效果
部分实验结果见图 4,作者在开源比赛电路上对比了他们的方法与开源逻辑综合工具 ABC 和 IWLS 比赛冠亚军的电路大小。实验结果显示,他们的方法显著优于开源逻辑综合工具 ABC 中的电路生成算子,且超过了 2022 和 2023 年比赛冠亚军的方案。
图 4. 作者提出的电路生成及优化框架效果显著优于开源逻辑综合工具 ABC 中的电路生成算子。
#SAM4MLLM
结合多模态大型语言模型和SAM实现高精度引用表达分割
本文提出一种允许MLLM理解像素级细节的方法SAM4MLLM,无需改变MLLM模型架构、引入新标记或使用额外损失,该方法简单但对引用表达分割(RES)非常有效。
论文地址:https://arxiv.org/abs/2409.10542
论文代码:https://github.com/AI-Application-and-Integration-Lab/SAM4MLLM
创新点
- 提出了一种允许
MLLM
理解像素级细节的方法SAM4MLLM
,无需改变MLLM
模型架构、引入新标记或使用额外损失,该方法简单但对引用表达分割(RES
)非常有效。 - 为了连接
MLLM
和SAM
,引入了一种新颖的方法,通过主动询问语言系统来获取提示点线索。 - 在各种
RES
基准上进行实验,包括RES
数据集、GRES
和ReasonSeg
,验证了SAM4MLLM
的有效性,并展示了其在处理复杂像素感知任务中的优良性能。
内容概述
SAM4MLLM
是一种创新的方法,集成Segment Anything Model
(SAM
)与多模态大型语言模型(MLLMs
)以实现像素感知任务。
- 首先,在
MLLM
训练数据集中引入像素级信息,而不改变原有的MLLM
架构,这使得MLLM
能够使用与主流LLM
相同的文本交叉熵损失来理解像素级信息。 - 其次,考虑到输入分辨率限制和模型架构未明确设计用于视觉任务,
MLLM
在像素表达方面可能存在的潜在限制。进一步利用SAM
增强输出,通过后处理MLLM
的输出以相对简单的方式获得更高精度的分割掩码。 - 最后,为了在
SAM
和MLLM
之间建立联系,一种简单的方法是使MLLM
生成SAM
的提示点。利用LLM
的对话能力,主动要求MLLM
获取SAM
的有效提示点。
SAM4MLLM
解决了RES
问题,使得MLLMs
能够学习像素级的位置信息。将详细的视觉信息与大型语言模型强大的表达能力以统一的基于语言的方式结合起来,而在学习中没有额外的计算开销。
SAM4MLLM
编码分割掩码为SAM提示
现有的用于分割的MLLMs
依赖于模型架构的专门设计、分割特定的token
和异构损失函数来预测对象掩码。而SAM4MLLM
利用了SAM
的特点,将少量文本提示token
(边界框加上几个指示它们是否位于对象区域的点)转换为高质量的连续分割掩码。
SAM4MLLM 使用在边界框内采样的点作为离散提示。具体而言, 使用一个边界框 Prompt 和 个点来编码任意形状的掩码。 个点的提示, 每个点包含三个值: 坐标、 坐标以及它是否在掩码上, 编码为 。
通过将连续分割掩码编码为离散的SAM
提示,避免了添加任何token
或改变模型结构,同时仅使用文本自回归交叉熵损失进行训练。这种方法与语言模型的原始训练模式一致,使得MLLMs
能够理解像素级信息,并促进未来的模型扩展变得更加容易。
使用MLLM提示SAM
为了将SAM
以统一的方式纳入MLLM
,一个主要问题在于获取SAM
的提示点,包括在物体掩码区域内的正点(inside
)和在外部的负点(outside
)。为此,提出了两种解决方案:提示点生成(Prompt-Point Generation
, PPG
)和主动查询提示点(Proactive Query of Prompt-Points
, PQPP
)。
PPG
直接采用MLLM
来生成提示点和边界框,但同时生成多个点的学习将面临挑战,因此仅使用了少量提示点。PQPP
则利用了MLLM
的对话能力,首先询问一个粗略的边界框,然后通过问答的方式在边界框内探测多个感兴趣的点以提示SAM
。
SAM4MLLM-PPG
PPG 采用了一种能够同时接受文本提示和图像输入的 MLLM 。为了使 MLLM 与分割任务对齐,使用了参数高效的微调技术 LORA,从而基于包含图像-文本对和真实掩码的 RES 数据集进行模型训练。LoRA 输出位置提示, 包括边界框 和 组正点和负点 Prompt , 如图 (a)所示,其中一组包含 个正点和 个负点( )。
为了向 LoRA 提供位置监督, 在训练阶段根据物体掩码随机采样 组点 , 然后将这些提示发送给 SAM 。对于每一组, SAM 输出分割结果。过滤掉与真实掩码相比 IoU 较低的提示, 仅保留前 组(如图(c)所示)。在该实现中,仅需要文本损失(自回归交叉摘损失)。 通常为 。
在推理阶段,LoRA
直接输出发送给SAM
进行分割的点,如图 (b
) 所示。
SAM4MLLM-PQPP
PQPP 利用 MLLM 的查询-响应能力, 而不是直接生成提示。对提示点进行采样, 并主动询问 M LLM 这些点是否在掩码内(或外)。在训练阶段, 根据真实掩码随机采样一个边界框和 组点, 并进行两轮对话。在对话的第一轮中, LoRA 响应一个边界框。在第二轮中, 对于每个 个点, LoRA 在训练期间响应该点是否在掩码内(是或否)。
在推理阶段,LoRA
在第一轮中为输入的文本查询和图像输出一个边界框。然后,在边界框内均匀采样点并在第二轮再次发送给MLLM-LoRA
,并询问它们是否为正点(或负点),用于SAM
进行分割。通常将网格大小设置为。为了在发送到SAM
之前提供高质量的提示点,低置信度的点将被移除。
RES训练
为了使基础MLLM
与RES
任务对齐,使用包含与RES
相关示例的三个数据集来指导模型朝目标前进。其中两个(RES
数据集和gRefCOCO
数据集)包含具有真实掩码的RES
数据,第三个(VQA
)是一个没有掩码的视觉对话数据集,用于进一步增强联合视觉-语言理解的总体能力。
在训练期间,为了保持MLLM
在图像上的泛化能力,冻结了大部分网络参数,只调整了MLLM
的视觉重采样器和LoRA
适配器。
对于上述提到的所有数据集,我们在训练过程中不使用数据增强,因为翻转和/或裁剪可能会改变图像中物体的相对位置或关系。
主要实验
#满血版o1倒计时
震撼预警:满血版o1倒计时!奥特曼完整专访流出:o系列疯狂迭代,马上起飞
OpenAI满血版o1即将出世的消息,让科技圈瞬间沸腾!就连奥特曼本人透露,推理是OpenAI笃定的一个重要未来,o系列模型将在未来快速迭代。
确认了,满血版o1或许真的要来了!
两天前,「谜语人」Sam Altman一条神秘的o2「预告」,直接让全网炸开了锅。
要说营销鬼才,还的是奥特曼
而在调侃之余,也有网友发文直指问题要点:「o1泄露到底是怎么回事?模型是不是完整版?最近会不会发布?」
紧接着,外媒Futurism发文称,自己获得了一份官方声明——OpenAI的确准备开放o1模型的有限外部访问权限,但在过程中遇到了一个问题。
目前,这一问题已经得到了修复。(可能指的就是这次的泄露事件)
根据已知的信息,完整版o1将具备函数调用、开发者message、结构化输出、流式传输等能力,并且很可能会成为OpenAI有史以来最显著的一次突破性进展。
其中,图像理解和200k token上下文,已在上周末率先被全网玩疯。
种种这些猜测或许并非空穴来风,毕竟除了玩梗式的的推文外,Sam Altman本人也曾在公开场合暗示——o系列模型将会得到快速的改进。
几天前的OpenAI伦敦开发者日上,来自20VC的Harry Stebbings,与Altman开启了线上对谈。
Altman在QA环节中直言,OpenAI模型会越变越好,如果我们继续迭代下去,就会粉碎更多初创公司。
o系列全新进化,就在眼前
问题1:展望未来,OpenAI的发展方向是推出更多类似o1这样的模型,还是大家所预期的更大规模的模型?
Sam Altman表示当然希望在各个方面有所突破,而推理模型对OpenAI来说尤为重要。
他认为,也希望LLM推理能力的提升,能够打开一扇新的大门,让OpenAI能够实现多年来一直期待的许多功能。
比如,推理模型或许会为新的科学发现做出贡献;帮助人类编写更复杂的代码......这些都将推动科技的显著进步。
因此,我们可以期待o系列模型将会得到快速的改进,这对OpenAI自身来说,具有重要的战略意义。
问题2:展望OpenAI未来规划,你如何看待为非技术背景创始人,开发无代码工具,帮助其构建和扩展AI应用?
Altman坚定地认为这一定会实现的。而第一步是开发能够提高编程效率的工具,让已经会编程的人更加高效。
但最终目标是,OpenAI能够提供真正高质量的无代码工具。
实际上,现在市场中已经有一些优秀的0代码工具,但若要说,通过这一方式构建一个完整的创业项目,还需要一段时间。
初创公司机遇在哪?
问题3:如果有人现在花很多时间微调他们的RAG系统,这是不是在浪费时间?OpenAI最终可能会掌控应用层的这部分,对吗?你会如何去回答一个有这种疑虑的创始人?
Altman对此表示,「我们通常会这样回答:OpenAI会全力以赴,并且相信我们能够不断提升模型的性能」。
如果你的业务主要是修补当前模型的一些小缺陷,那么一旦我们成功改进了模型,你的业务可能就不那么重要了。另一方面,如果你的公司能够从模型的不断进步中受益,那就再好不过了。
他更进一步解释道,创业公司的机遇藏在哪里?
假设今天有个预言家告诉你,OpenAI o4模型将会非常出色,能够完成现在看来不可能的任务。那么即使预测可能有误,但至少这符合OpenAI的发展方向。
若是你选择了o1-preview表现不佳的某个领域,打算修补让其勉强能用。而这个问题,可能在OpenAI下一代模型中自然就解决了。
也就是说,与其小修小补,不如将更大的精力放在更有价值的方向上。
这也是OpenAI试图向创业公司传达的基本理念。
问题4:对于你刚才提到的某些领域,确实存在被OpenAI碾压的可能性。如果现在有创业者在思考,OpenAI可能会在哪些领域形成压倒性优势,而在哪些领域不会?作为投资人,也在寻找哪些不会受到冲击的投资机会。创业者和投资人应该如何看待这个问题呢?
Altman认为,未来将会有数万亿美元的新市值被创造出来。
这些市值将来自于利用AI开发的产品和服务,这些创新在之前要么是不可能实现的,要么是非常不切实际的。
OpenAI会把模型做到最好,无需投入巨大精力就能完成你想要的任务。但是除此之外,还有大量机会是在这项新技术基础上开发令人惊叹的产品和服务,Altman认为这些机会只会越来越多。
这里,他再次强调了,如果企业正在开发一个工具,是为了绕过某个模型的缺点,那么这个工具很快就会被淘汰掉。
在当时看起来,开发一些工具面部模型的不足,似乎是一个不错的方向。但现在,初创公司应该着眼于开发真正有价值的应用,比如出色的AI辅导老师、AI医疗顾问等。
Altman感觉,之前之前有95%的人在押注模型不会有太大进步,只有5%的人相信模型会显著改进。但现在,这个情况已经完全反转了。现在,人们已经意识到了模型改进的速度,也了解到了OpenAI发展计划。
AI创造数万亿美金价值
问题5:软银董事长孙正义预测每年AI将创造9万亿美元的价值,这将抵消他认为所需要的9万亿美元资本支出。我很好奇,当你看到这个预测时,你是怎么想的?你如何看待这个观点?
Altman表示,我不能把它归结为任何具体的数字。我认为如果能在数量级上大致正确,那对现在来说就足够了。显然,这个领域将会有大量的资本支出,同时也会创造巨大的价值。这在每一次重大技术革命中都会发生,而AI显然就是这样一次革命。
明年OpenAI将大力推进下一代系统。无代码软件智能体诞生,虽不知还需要多长时间,但可以以此为例来展望未来。
想象一下,如果任何人都可以描述他们想要的整套企业软件,这将为世界经济带来多大的价值。当然,这还需要一段时间。
但当我们实现这一目标时,想想现在开发这样的软件有多困难和昂贵。如果能维持相同的价值,但使它更容易获得、更便宜,这将产生巨大的影响。
Altman认为未来会看到许多类似的例子。包括此前,他提到的医疗保健和教育,这两个领域如果能得到改善,对世界来说都价值数万亿美元。如果AI能以全新的方式推动这些领域的发展,那将是非常令人兴奋的。
AI智能体,完成人类不可能的事
问题6:就AI价值传递的机制而言,开源是一种非常重要的方法。你如何看待开源在AI未来中的角色?当你们内部讨论是否应该开源某些模型时,考虑的因素是什么?
Altman同样认为在AI生态系统中,开源模型显然占据非常重要的位置。而且,现在已经有一些非常优秀的开源模型存在。同时,他认为也需要有市场需求为精心设计、集成良好的服务和API。
他表示,所有这些技术都应该被提供出来,让人们根据自己的需求进行选择。OpenAI有开源模型,但作为面向客户的最终产品和服务方式,OpenAI会选择提供AI智能体。
问题7:你如何定义今天的AI智能体?对你来说,什么是AI智能体,什么不是AI智能体?你认为人们对AI智能体的理解有什么误区?
对此,Altman认为AI智能体是这样的:你可以给它一个长期任务,在执行过程中只需要最少的监督。
在人们认知误区上,Altman称更多的是我们都还没有直觉去理解在未来世界里AI智能体会是什么样子。
对此,他举例做了说明。当人们谈论AI智能体代表他们行动时,经常给出的例子是:你可以让AI智能体为你预订餐厅。然后,它就会自己打开OpenTable或者直接给餐厅打电话。
但AI智能体更有趣的是,在这样一个世界里,你可以做一些作为人类你不会或不能做的事情。
比如,不是让AI智能体给一家餐厅打电话订餐,而是让它同时联系300家餐厅,并找出哪一家对你来说最特别的。
不仅如此,在300个地方可以接电话的也是智能体。它可以进行人类无法做到的大规模并行操作。
这只是一个简单的例子,但它展示了AI智能体可能突破人类带宽限制的潜力。
另外,Altman认为AI智能体更有趣的应用是,成为一个一个非常聪明的高级同事。你可以与之合作完成项目,它可以很好地完成一个为期两天或两周的任务。当它遇到问题时会联系你,但最终会给你带来很棒的工作成果。
问题7:这是否从根本上改变了SaaS的定价方式?通常SaaS是按用户数量收费,但现在AI智能体实际上是在替代人力。考虑到AI智能体可能成为企业劳动力的核心部分,你如何看待未来的定价模式?
对此,Altman推测道,你可以选择使用1个、10个或100个GPU来持续处理问题。这不是按用户数或按智能体数收费,而是基于持续为你工作的计算量来定价。
问题8:我们是否需要为AI智能体使用专门构建模型,还是现有模型就足够了?你怎么看?
毋庸置疑,OpenAI还需要构建大量基础设施和算法框架。目前,o1模型就是朝着完成出色智能体任务模型方向发展的。
模型是贬值资产,但会有正向效应
问题9:在模型方面,业界普遍认为模型是贬值资产,模型的商品化趋势非常明显。你如何看待这个问题?考虑到训练模型所需的资本投入不断增加,我们是否实际上看到了这种趋势的逆转,即只有少数人能够负担得起模型训练的成本?
Altman称,模型确实是贬值资产,但称其价值不如训练成本高,这种观点似乎完全错误。更不用说,当你不断训练模型时,会产生一个正向的复合效应,你会越来越擅长训练下一个模型。从模型中实际获得的收入,他认为是能够证明投资是合理的。
但这种情况并不适用于所有公司。可能有太多人在训练非常相似的模型。如果你的技术稍微落后,或者你的产品缺乏那种能提高用户粘性的常规商业特性,那么确实,你可能难以获得投资回报。ChatGPT是成功案例代表,拥有数亿用户。所以即使成本很高,OpenAI也可以在大量用户之间分摊这个成本。
问题10:你如何看待OpenAI模型如何随着时间的推移继续保持差异化,以及你最想关注哪些方面来扩大这种差异化?
推理是OpenAI目前最重要的关注领域。Altman认为这将是解锁下一个巨大价值飞跃的关键。
OpenAI团队会在很多方面改进模型,包括进行多模态工作,以及在模型中加入其他对用户非常重要的功能。
问题11:你如何看待推理和多模态工作?面临的挑战是什么,你想要达到什么目标?我很想了解这一点。具体是指推理和多模态的结合吗?
Altman肯定道,我希望这能自然而然地发挥作用,显然,实现这一目标需要付出一些努力,但你知道,就像人类婴儿和幼儿,即使在语言能力还不成熟的时候,也能进行相当复杂的视觉推理。所以这显然是可能实现的。
问题12:OpenAI如何在核心推理能力方面取得突破?我们是否需要开始推进强化学习作为一种途径,或者除了Transformer之外的其他新技术?
关于OpenAI做到这点的独门秘诀,即便是人们不确切如何做到的,也能复制出来。但真正令Altman自豪的一点是,团队能够反复去做一些全新的、完全未经证实的事情。这是推动人类进步最重要因素之一。
所以,Altman幻想退休后要做的事情之一是写一本书,分享自己学到的关于如何建立一个能做到这一点的组织和文化的所有经验,而不是仅仅复制其他人已经做过的东西。
要让公司伟大,就只招30岁以下员工?奥特曼:没这回事
问题13:你提到人才被浪费,能具体解释一下吗?
Altman表示,世界上有很多非常有才华的人没有发挥出他们的全部潜力,原因可能是他们在一家不适合的公司工作,或者他们生活在一个缺乏良好就业机会的国家,或者其他各种原因。
AI让我最兴奋的一点是,我希望它能帮助我们,比现在更好地让每个人发挥最大潜力,而我们现在离这个目标还很远。我相信,如果给予机会,世界上有很多人本可以成为杰出的AI研究人员。
问题14:在过去几年里,你个人经历了令人难以置信的超高速增长。如果回顾过去10年你在领导力方面的变化,你认为最显著的变化是什么?
他认为,这几年对自己来说最不寻常的是事物变化的速度。OpenAI几乎在两年内完成了从零增长到1亿美元收入,再到10亿,再到100亿的过程。
OpenAI不仅要做研究,还要从0开始建立一个公司。他们并不是一个传统意义上的硅谷创业公司,那种逐步扩大规模并服务大量客户的公司。而且,OpenAI面临的挑战是独特的,需要在极短的时间内完成从研究到大规模商业化的全过程。
问题15:有哪些事是你不知道,但希望能有更多时间去学习的?
他表示,在脑海中一长串问题中,有一个特别突出,那就是如何让公司实现下一个十倍增长,而不是10%增长。
这是个十分困难的问题,实现10%的增长,之前有效的方法会依然有效;但要让一个公司的收入从10亿美元达到百亿美元,就要发生许多变化。
在这个增长如此迅速的环境中,人们甚至没有时间掌握基础知识。
他严重低估了朝下一个大目标前进所需的努力,同时还要兼顾其他事情。
这就需要大量的内部沟通,包括分享信息、建立结构,让公司每隔几个月就能思考十倍的、更复杂的问题。比如如何规划当前的紧急任务和长期项目。
具体来说,为了一两年后的发展,怎样提前扩展算力?或者是一些看似普通但很复杂的事,比如在旧金山规划足够的办公空间。
因为没有任何先例,所有只能摸着石头过河。
问题16:企业家Keith Raboy在一次演讲中提到,他从Peter Thiel那里学到,雇佣30岁以下的年轻人,就是建立伟大公司的秘诀。你怎么看待这个建议?
Altman表示,自己创立OpenAI的时候,就是在30岁左右。这建议值得一试,但也没那么绝对。
每个公司和团队的情况都不同,关键是要找到适合公司文化和发展阶段的人才。
无论是带来青春、活力和雄心的「特洛伊木马」,还是经验丰富的「老人」,雇佣这两类人都能成功。
他提到,就在刚刚自己还在给同事发消息,讨论最近新雇佣的一个年轻人。虽然才20出头,但他的表现令人惊叹,能不能找到更多这样的人呢?不过另一方面,我们在设计人类史上最贵、最复杂的计算机系统时,完全没有经验的人会让人担忧,因为风险太高。
因此,理想的情况是二者兼顾,在任何年龄段都有极高才能标准的人。
按年龄划分人才,显然太简单粗暴了。Y Combinator给我的最大感悟就是,缺乏经验并不意味着没有价值,在职业生涯初期就表现出惊人潜力的人,可以创造更大的价值。我们应该押注这样的人。
问题17:现在很多人觉得Anthropic的模型在编码任务上表现更好,你怎么看待?开发者何时应该选择OpenAI,何时选择其他模型提供商?
奥特曼表示,的确他们的模型在编码上很出色。至于开发者如何选择,取决于具体任务和需求。每个提供商都有优势,开发者可以多尝试,看谁在特定用例中表现更好。
而在未来,AI将会无处不在。奥特曼认为,目前我们还是在讲单个AI模型,但未来我们一定会转向讨论整个AI系统。
Scaling Law还会多久
问题18:有人说Scaling Law不会持续太久了,但它比我们想象的时间长。你怎么看?模型性能提升的轨迹会像现在这样继续吗?
奥特曼表示,模型能力改进的轨迹会像从前一样继续演进,在很长一段时间内都会如此。
难道你从未对此怀疑过吗?
他表示,自己当然会遇到一些无法理解的模型行为,如失败的训练尝试等等。每当我们接近一个技术范式的极限,都必须开辟新的道路。
在这个过程中,他也曾遇到最难克服的挑战。
比如研究GPT-4时,一些棘手的问题在相当长一段时间内困扰了团队很久,但最终还是解决了。而在转向o1和推理模型的过程中,道路也是漫长而曲折。
这时如何保持团队士气呢?奥特曼表示,很多人都对AGI充满热情,这本身就是一个强大的动力,没有人会觉得这条路很轻松。
他引用了这样一句话:「我从不祈求上帝站在我这边,而是祈求自己站在正确的一边」。押注深度学习,感觉就像站在了正确的一边。
问题19:有一句名言叫,「生命中最沉重的东西不是铁或金,而是未做出的决定」。什么未做出的决定最令你沉重?
奥特曼表示,其实并没有一个特别大的决定困扰着自己。会有一些重要决策风险极高,一旦做出就难改变,比如是否投资下一个产品,或者如何构建下一代计算机系统。他会和大多数人一样,拖延做出决定。
要说真正困难的,是每天都会出现的「51/49」决定,也就是说这些决定几乎没有明显的对错之分。
之所以这些决定会到自己这儿,就是因为很难抉择,自己也并不见得比他人做得好。给人压力的这种抉择太多了,而非任何一个特定的决定。
而面对这些时,奥特曼也没有一个固定的商量人选。
他认为,正确的做法是有15到20个信赖的人,每个人在特定领域都有良好的直觉和丰富的经验。
奥特曼的担心:复杂性疯长
问题20:你最担心的是什么?
Altman称,我最担心的是我们整个AI领域正在尝试做的所有事情的普遍复杂性。虽然我相信最终一切都会好起来,但目前这感觉像是一个极其复杂的系统。
现在,这种复杂性在每个层面上都在疯狂地增长。不仅仅是整个行业,在OpenAI内部,甚至在任何一个团队内部都是如此。
举个例子,刚刚谈到的半导体担忧,你必须平衡电力供应、网络决策、及时获得足够芯片的能力,以及可能存在的各种风险。
同时,你还需要准备好相应的研究来配合这些资源。这样你就不会措手不及,或者拥有一个无法充分利用的系统。你需要有正确的产品来使用这些研究成果,以支付那些令人瞠目结舌的系统成本。
所以,仅仅说「供应链」可能会让它听起来太像一个简单的流水线了。实际上整个生态系统的复杂性,在每个层面就像分形扫描一样,与自己之前在任何行业看到的都不一样。
AI与互联网革命完全不同
问题21:很多人将当前的AI浪潮比作互联网泡沫时期,因为它们都有类似的兴奋和热情。你觉得这种比较恰当吗?
Altman认为这两者有很大的不同,尤其是在资金投入方面。Larry Ellison曾说,要入局基础模型的竞赛,起步就需要1000亿美元。
你同意这个说法吗?当你听到这个数字时,你的反应是什么?
Altman称,不,我认为实际花费会比这少。但这里有一个有趣的观点:人们总是喜欢用以前的技术革命来类比新的技术变革,试图将新事物置于更熟悉的背景中。我认为这总体上是一个坏习惯,尽管我理解为什么人们这么做。更重要的是,我认为人们选择用来类比AI的那些例子特别不恰当。
比如说,互联网显然与AI非常不同。你提到了成本问题,是否需要100亿美元或1000亿美元才能在AI领域具有竞争力。但互联网革命的一个显著特征是,很容易入门。
现在,有一点可能更接近互联网的是,对于许多公司来说,AI可能只是互联网的延续。就像其他公司制造AI模型,而你可以使用这些模型来构建各种创新产品。AI在这种情况下就像是构建技术的一个新的基本要素。但如果你试图构建AI系统本身,那就是一个完全不同的游戏了。
还有人将AI比作电力革命,你怎么看?
Altman表示,人们确实经常用电力来类比AI,但我认为这在很多方面都说不通。如果非要做类比的话,我认为晶体管可能是一个更好的例子。
晶体管是物理学的一个重大发现。它具有令人难以置信的扩展性,很快渗透到各个领域。就像我们有摩尔定律来描述计算能力的指数增长,现在我们可以想象出一系列关于AI的定律,告诉我们它将如何快速迭代。
整个科技行业都从晶体管技术中受益。你使用的产品和服务中涉及了大量晶体管,但你并不会把这些公司看作是「晶体管公司」。同样,未来AI可能会无处不在,但不是每个使用AI的公司都会被称为「AI公司」。
OpenAI未来两年蓝图
关于OpenAI未来五到十年的发展规划,如果你有一根魔杖,能够描绘未来的场景,你能为我勾勒一下OpenAI在五年和十年后的蓝图吗?
Altman对此表示,自己可以轻松描绘出未来两年情况:如果OpenAI目前方向是正确的,并且能够开发出优秀的AI系统,特别是推动科学进步方面。
他认为,在5年内,我们可会看到技术本身以令人难以置信的速度改进。
预测的第二部分是,尽管技术飞速发展,但社会本身的变化可能出人意料地小。举个例子,如果5年前问人们,计算机是否会通过图灵测试,他们可能会说不会。如果你告诉他们计算机真的通过了,他们可能会认为这将给社会带来翻天覆地的变化。
事实上,OpenAI在某种程度上满足了图灵测试的标准,但社会并没有发生那么大的变化。
这种现象可能会继续发生:科学进步不断超出所有人的预期,而社会变化相对缓慢。当然,从长远来看,社会终究会发生巨大的变化。
快问快答
Harry:如果你现在是23、24岁,以我们今天的技术基础设施,你会选择开发什么?
Altman:我会选择开发一些由AI支持的垂直领域产品。比如说,一个最先进的AI辅导系统,能够教授任何类别的知识。它可以是AI律师,也可以是AI辅助的CAD程师,诸如此类。
Harry:你之前提到过想写一本书。如果你要写这本书,你会给它起什么名字?
Altman:我还没有想好具体的标题。但我知道我希望这本书能够存在,因为它可以释放大量人类潜力。
Harry:在AI领域,有什么是目前被忽视,但你认为每个人都应该更关注的?
Altman:一个能够理解你个人生活的AI系统。它不一定要有无限的记忆容量,但至少是一个AI助手,它了解关于你的一切,可以访问你所有的数据等。这个问题有很多不同的解决方法,但核心是创造一个真正了解个人的AI。
Harry:在过去的一个月里,有什么事让你感到特别惊讶?
Altman:是一个我不能公开讨论的研究结果。但我可以说,它令人惊叹地好。
Harry:你最尊重哪个竞争对手?为什么是他们?
Altman:说实话,我某种程度上尊重这个领域的每个参与者。我认为整个AI领域都有令人惊叹的工作在进行,有许多才华横溢、非常勤奋的人在其中。我不是想回避这个问题,而是真的觉得在这个领域到处都有非常有才华的人在做出色的工作。
Harry:所以没有特别突出的一个?
Altman:确实没有特别突出的一个。
Harry:你最喜欢的OpenAI API是什么?
Altman:我们新推出的Realtime API非常棒。但要知道,我们现在有一个相当大的API业务,里面有很多优秀的产品。
Harry:你现在最尊重AI领域的哪位人物?
Altman:虽然AI领域有很多人在做令人难以置信的工作,但我认为Cursor团队的成就真的很特别。我本可以列举一些杰出的研究人员,但说到使用AI提供真正神奇的体验并创造巨大价值,以一种别人还没完全掌握的方式,我觉得Cursor团队做得相当出色。在思考这个问题时,我特意没有考虑OpenAI的任何人,否则OpenAI的人会占据名单的前列。
Harry:你如何看待AI系统中延迟和准确性之间的权衡?你认为是否需要一个调节器来在它们之间切换?
Altman:这是一个很好的问题。就像现在我们在进行快速问答一样,我虽然没有回答得特别快,但也在尽量不过多思考。在这种情况下,低延迟是我们想要的。但如果你说:「嘿,Sam,我希望你在物理学上做出一个重要的新发现」,你可能会很乐意等待几年。所以答案是,这应该是用户可控的。根据不同的使用场景,用户应该能够调整AI系统的响应速度和准确度。
Harry:你希望在改进领导力方面时,最想在哪方面改进?
Altman:这周我最困扰的事情是,我对我们的产品策略细节感到比以往更加不确定。我认为产品总体上是我的一个弱项。而现在公司需要我在这方面提供更强有力和更清晰的愿景。我们有一位出色的产品负责人和一个优秀的产品团队,但这是一个我希望自己能更强的领域。现在我正急切地感受到这种不足。
Harry:你提到了产品团队,你雇佣了Kevin Weil。我认识Kevin已经很多年了,他真的非常出色。在你看来,是什么让Kevin成为世界级的产品领导者?
Altman:「原则」是首先浮现在我脑海中的词。
Harry:在专注方面呢?
Altman:专注包括我们要果断地说「不」的能力,真正努力站在用户的角度思考为什么我们要做某事或不做某事,以及严格地避免陷入异想天开的幻想。我们需要保持务实和专注。
参考资料:
https://x.com/HarryStebbings/status/1853467276911300836
#EMOS
港大最新成果!基于大模型多智能体的异构多机器人操作系统
当人类进行团队协作的时候,为了协作效率,总是根据任务的需求和协作成员自身的背景能力,讨论协商包括任务分配在内的协作方案 。对于协作异构机器人系统 (Cooperative Heterogeneous Multi-robot Systems),如何去协作往往基于专家设计和编写的一套固定协作逻辑。然而开放世界任务的复杂性,越来越丰富的机器人硬件,对人工设计规则的多机协作系统扩展性构成了极大的挑战。
近日,来自新加坡国立大学、香港大学、上海人工智能实验室、牛津大学、CAMEL-AI社区等多家机构的联合研究团队提出了一种创新的异构多机器人操作系统EMOS(Embodiment-aware Heterogeneous Multi-robot Operating System)。该框架基于大语言模型的多智能体系统 (LLM-based Multi-agent System),以机器人物理定义文件和环境信息为输入,实现了对机器人空间物理能力和任务需求的理解,从而实现了更有效的任务规划,并利用大模型工具调用(Function Call)能力,进行多机系统分布式动作的执行。
同时该工作提出了 Habitat-MAS 评测基准,包含多种任务,例如跨楼层物体导航、协作感知、单层家庭重新排列和多机器人、多物体、跨楼层协作重新排列。实验结果表明,EMOS 框架在 Habitat-MAS 基准上取得了优异的性能,证明了其有效性。
论文地址:https://arxiv.org/abs/2410.22662
研究背景与动机
现有的异构多机器人系统(HMRS)在处理复杂任务时面临两大挑战:
高度依赖人工设计的协议, 泛化能力有限
自动化程度不足, 任务拆解和子任务的分配尚未实现完全自动化
由于每个机器人的硬件差异(如轮式、腿式或飞行平台),如何让各自的物理特性得以充分利用并进行有效协作,也是一大难题。比如轮式机器人不能通过楼梯跨楼层移动,不同机器人深度相机的位姿对能感知的物体空间范围有很大影响,不同机器人机械臂工作空间决定了能抓取到的物体高度,水平距离等。为解决这些问题,研究团队提出了基于LLM的多智能体框架EMOS,通过"机器人简历"机制实现对机器人物理能力的精确理解,从而实现更智能、自主的任务规划与执行。
主要方法介绍
机器人简历(Robot Resume)机制
EMOS 摒弃了传统的人工角色分配方式,通过大模型阅读分析以及前向运动学工具(Forward Kinematics Tools)调用的混合方法理解URDF文件,生成包含机器人移动能力、感知能力和操作能力的“机器人简历”。这些基于运动学计算的统计数据和数字数据,在后续会作为机器人代码生成的context 输入,去实现精确的空间检查和空间推理。比如一个物体是否可能超出了机器人抓取的范围。
分层式任务规划与执行
Habitat-MAS通过仿真器真实(Ground Truth)的场景布局和机器人信息,基于规则构建包含场景布局、机器人状态和物体状态的场景上下文(Scene Context)。这些上下文信息会和任务描述信息一起输入EMOS多智能体系统,进行处理。EMOS采用"集中式群组讨论+分布式并行执行"的两阶段架构:
- 为了得到一个结构化文本和task planning的收敛性,多轮集中式群组讨论后,大语言模型会对发言历史进行总结,并转换生成一个机器人任务分配的字典,用于分发子任务到各个机器人。
- 各机器人智能体通过大模型工具调用分布式并行执行子任务,机器人动作执行的API已经预先提供好。
实验平台与结果展示
Habitat-MAS基准测试平台
研究团队还开发了Habitat-MAS基准测试平台, 包含多层楼房等复杂场景并支持无人机、轮式机器人、腿式机器人等多种类型。这个测试基准中设计了4类测试任务, 这些任务包括跨楼层物体导航、协作感知、单楼层物体整理(object rearrangement)和多机器人、多物体、跨楼层物体整理等。各个任务或者子任务经过筛选处理,只有特定的机器人才能完成,随机策略会失败。
,时长00:18
实验结果
实验结果表明,EMOS在Habitat-MAS的各类任务中均显著优于现有方法,尤其在需要多机器人协作的复杂任务中表现突出。具体而言:
- 在需要机器人理解自身物理限制,部分机器人才能完成的任务中,EMOS在任务成功率上具有显著优势。
- 在复杂长序任务中,机器人简历和多智能体系统的集中讨论显著提升了任务完成率。
一些总结与展望
EMOS首次实现了基于机器人物理特性的自动化任务规划和分配,尝试去解决传统系统中人工规则设计过多的问题,为未来异构多机器人系统的完全自动提供了新的思路和一次探索,并且提供了评估异构多机器人协作系统的标准化测试平台。
未来,EMOS框架还可以进一步扩展:
- 增强系统的适应性:将EMOS框架扩展到更动态的环境和更复杂的任务。
- 与其他AI技术结合:将EMOS框架与强化学习和深度学习等技术结合,进一步提升HMRS的性能。
- 未来提升物理仿真效果,减小sim-to-real gap,可以进一步提升探索EMOS在真实机器人系统中的应用潜力
#AgentOccam
不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用,成为网络任务智能体新SOTA
网络智能体旨在让一切基于网络功能的任务自动发生。比如你告诉智能体你的预算,它可以帮你预订酒店。既拥有海量常识,又能做长期规划的大语言模型(LLM),自然成为了智能体常用的基础模块。
于是上下文学习示例、任务技巧、多智能体协同、强化学习算法…… 一切适用于通用智能体的想法都抢着在大模型落地。
然而有一个问题始终横亘在 LLM 和智能体之间:基于 LLM 的网络智能体的行动 / 观测空间与 LLM 训练数据的空间相去甚远。
智能体在充斥着具身行为的行动空间(如鼠标悬停、键盘组合键)和遍布前端功能强化、格式渲染的观测空间下运作,大语言模型的理解和推理能力能充分发挥作用吗?尤其是大语言模型的主要训练任务是文本补全、问答和对齐人类偏好,这一点值得思考。
来自伊利诺伊大学香槟分校和亚马逊的研究人员选择和这些问题进一步对话。他们去除了上下文示例、技巧、多智能体系统,仅仅通过行动 / 观测空间与 LLM 的训练任务对齐。他们训练的 AgentOccam 成为了零样本基于 LLM 的网络智能体新 Sota。
,时长01:09
帮你写email
,时长02:47
帮你找导师
这正呼应了奥卡姆剃刀原则:「若无必要,勿增实体」。然而换个思考的角度,AgentOccam 的研究团队也想发问:构建通用智能体时,在铺设复杂的系统框架前,是否已经优化了行动 / 观测空间,让这些功能模块达到了最优状态?
- 论文链接:https://arxiv.org/abs/2410.13825
- 论文名:AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents
背景及动机
某天你刷着短视频,看中了主播手中拿着的商品。于是,你兴致勃勃地对智能助手说:「我是学生,让这个老板送我一张优惠券!」
随后,智能体申请了你的私人账号权限、后台私信商家、绘声绘色地写下「我是学生」,发送消息,一套动作无需人为干预,行云流水......一切这样的任务,再也不必动手,都有智能体代劳。
大语言模型是构建智能体的热门选择。过去,基于 LLM 的网络智能体通常专注于让智能体学会某种应用,比如构建上下文学习样本、积累任务经验与技巧、以及多智能体角色扮演等等。然而,在实际交互中,智能体的行动 / 观测空间与 LLM 的技能点不太匹配,这之间的差距却少有人研究。
于是,针对如何对齐基于 LLM 的网络智能体的观测和行动空间与其训练期间学到的功能,来自伊利诺伊大学香槟分校和亚马逊的研究人员们展开了研究。
网络智能体需要准确地从格式各异、编码脚本不一的网页中提取信息,并在网页上定义的动作(例如,鼠标滑轮滚动、点击或悬停在按钮上)中进行选择。这些网络观测和行动空间在 LLM 的预训练和后续训练数据中都较为罕见,这阻碍了 LLM 充分调动潜能,完成任务。
因此,基于不让智能体策略变得更复杂,而是让智能体与 LLM 更加匹配的想法,由此构建的智能体得名 AgentOccam。
形式化与方法
该团队通过部分可观测的马尔可夫决策过程(POMDP),将网络交互过程形式化为:<O,S,A,P,R,p_0,γ>。
在 POMDP 中,观测 o∈O 是智能体从网络环境接收到的信息,例如 HTML,以及任何指令和提示。行动 a∈A 是网络环境认可的动作指令。
为解决 POMDP,常见目标是寻找策略
,最大化预期累积奖励,其中 h_t 表示观测历史
。
在基于 LLM 的网络智能体设计中,这等价于借助一个或多个基础 LLM 策略
和一组算法模块来设计策略
。
在这项工作中,该团队专注于一类特殊的策略,可以表示为:
,其中 f 和 g 是处理观测和行动空间的基于规则的函数,该团队将其称为「观测和行动空间对齐问题」。
在这样的问题设置下,接下来的所有更改仅应用于观测和行动。值得注意的是,并非所有以往方法中的智能体策略都能以这种方式表示。
例如上表中,基于搜索的算法需要一个顶层控制程序来选择行动并触发回溯;带有评估器、反思或记忆模块的方法也需要一个管理中心来在主 LLM 和这些辅助模块或其他角色扮演 LLM 之间切换。
不同于以往复杂化智能体策略,我们能否仅通过优化观测和行动映射 f 和 g,使用基础 LLM 策略
构建一个强大的网络智能体?这是 AgentOccam 关注的问题。
如上图所示,AgentOccam 包括三个组成部分:
- 首先,减少非必要的网络交互动作,让智能体的具身和琐碎互动需求达到最小;
- 其次,消除冗余和不相关的网页元素,并重构网页内容块,以获取更简洁但同样信息丰富的表示,从而精炼观察空间;
- 最后,引入两个规划动作(分支和修剪),这使得智能体能够以规划树结构自组织导航工作流,并使用相同结构过滤历史步以进行回放。
整个框架通过一套适用于所有标记语言的通用规则来格式化网页,无需依赖测试基准中的任务相关信息。
网络智能体的行动空间规定了可以用来与网络环境交互的有效命令。
研究团队从智能体常见的失败中得出总结:想要成功完成任务,需要编辑行动空间来解决两个关键问题:第一,去除 LLM 难以理解且经常误用的无关行动;第二,当执行任务需要规划、尝试多个潜在路径时,要提高智能体的记忆和规划能力。
为此,该团队提出了对应的解决方法。第一个问题可以通过简单地移除或合并操作来解决(如上图中的步骤 1 和 2)。对于第二个问题,过去的研究通常依赖人工制定规则或任务技巧,但这些方法难以泛化。在本研究中,LLM 将自主生成计划和管理任务流程(如步骤 3 所示)。
AgentOccam 的观测空间(提示词)包含了任务概述的通用指令、期望的输出和可用操作说明,以及关于当前任务目标、智能体过去的交互记录和最新的观察信息。
过往互动和当前观测的部分占据了最多的字符数。这主要归因于两个因素:单页面的长度和历史跨度的范围,这是 AgentOccam 观测空间的主要优化对象。
网页标记语言主要用于前端加载和渲染,往往包含大量格式化字符,显得冗余且重复(如上图步骤 1 所示)。因此,此时的目标是优化这些表示方式,使得单页内容对 LLMs 更加简洁易读。
将观测历史作为输入,对于执行长程任务至关重要。因为一些关键信息可能不会显示在当前页面上。然而,观测历史也会显著增加上下文长度,并增加推理难度以及推断成本。
为了解决这个问题,设置仅选择先前网页上最重要和相关的信息,这一选择依据两个规则,分别基于关键节点和规划树,见于步骤 2 和 3。
结果
研究团队在 WebArena 上评估了 AgentOccam 性能。WebArena 含有 812 项任务,横跨网购、社交网站、软件开发、在线商贸管理、地图等。
测试对象为 AgentOccam 框架下的 GPT-4-Turbo。对比的基线包括:一、WebArena 随配智能体,二、SteP,前 WebArena 上最优智能体,涵盖 14 条人类专为 WebArena 任务编写的技巧,三、多智能体协同方法 WebPilot;四、总结智能体交互经验的工作 AWM。
从上表不难看出,AgentOccam 性能优于以往及同期工作。其中,AgentOccam 分别以 9.8(+29.4%)和 5.9(+15.8%)的绝对分数领先往期和同期工作,并且通过其观测与行动空间的对齐,使得相似的基本网络智能体的成功率提高了 26.6 点(+161%)。
消融实验
逐模块对比行动与观测空间的对齐对最终结果的贡献。从下表可以看出,行动空间对齐能使智能体完成更多 click、type 等引导环境变化的动作,观测空间对齐则减少大模型调用的字符数与智能体完成任务所需的步数。
LLM-as-a-Judge
研究团队发现,智能体的决策行为波动性很强。简而言之,面对一个目标,智能体有一定概率做出正确的行为决断,但由于 token 预测的随机性,它可能做出一些高成本、低回报的决定。这也导致它在后续步骤中难以纠正之前的错误而失败。
例如,要求智能体在某个最相关的话题下发布帖子,单次 LLM 调用的 AgentOccam 往往轻率地选择话题,未考虑「最相关」的要求。
为了解决此类问题,他们引导 AgentOccam 生成单步内所有可能的行动,这系列行动将交付另一个 Judge 智能体(同样调用 GPT-4-turbo)决断,做出最大化回报的选择。
与复合策略结合使用
复合策略中,与任务相关的经验可以提升智能体性能。同时,不因为加入了更多背景知识扰乱决策,不会影响泛化性,能够纠正错误行为模式。
由于行为 / 观测空间对齐和复合策略方法正交,因此能结合利用。该团队试验将 AgentOccam 与 1)SteP 和 2)上述的 LLM-as-a-Judge 方法联合使用。
对于和前 SOTA 方法 SteP 联合,由于它引入人类编写的 WebArena 任务攻略,在经验密集型任务,如购物网页任务中,人类撰写的引导性经验大幅提升任务成功率。
而在常识泛化密集型任务,如社交网页发帖任务中,不相关知识出现会错误扰乱智能体决策。对于 LLM-as-a-Judge 方法,Judge 角色的引入不影响智能体的泛化性,同时纠正了智能体仓促决策的错误行为模式,在 WebArena 上进一步提升 2.6 的绝对分数。
原文地址:https://blog.csdn.net/weixin_49587977/article/details/143505891
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!