自学内容网 自学内容网

【第二十四周】从大语言模型到多模态大模型的发展

摘要

大语言模型(Large Language Model, LLM)是指一类基于深度学习的人工智能系统,它们被设计用来理解和生成自然语言。这些模型通常是在大量的文本数据上进行训练的,通过学习文本中的模式和结构,它们能够执行各种各样的自然语言处理任务,如文本生成、问答、翻译、摘要等。随着BERT、GPT系列、PaLM系列、LLaMA系列、PanGu系列等大型语言模型不断发展和成熟,在各种任务的文本理解和生成方面表现出强大的能力。与此同时,计算机视觉领域中的跨模态模型(Cross-modal Model)也出现了,比如CLIP和Stable Diffusion。此外,在LLM基础上发展起来的多模态大模型(Large Multimodal Models, lmm)也取得了重大进展和突破,逐渐形成了通用通用人工智能(Artificial General Intelligence, AGI)的雏形。

Abstract

Large Language Model (LLM) refers to a class of artificial intelligence systems based on deep learning, designed to understand and generate natural language. These models are typically trained on vast amounts of text data, learning the patterns and structures within the text, which enables them to perform a wide variety of natural language processing tasks such as text generation, question answering, translation, summarization, and more. With the continuous development and maturation of large language models like BERT, the GPT series, PaLM series, LLaMA series, and PanGu series, they have demonstrated powerful capabilities in text understanding and generation across various tasks. Meanwhile, cross-modal models (Cross-modal Model) in the field of computer vision have also emerged, such as CLIP and Stable Diffusion. Additionally, significant progress and breakthroughs have been made in large multimodal models built upon the foundation of LLMs, gradually forming the prototype of general artificial intelligence.

1.大语言模型

1.1.LLM的结构

大语言模型的结构主要有三种:

  • 第一种是编码器-解码器(Encoder-Decoder)。这种结构起源于 RNN 和 LSTM,首先由 Transformer
    运用到大语言模型中。Encoder-Decoder架构的编码器负责将输入序列编码为固定长度的上下文向量,解码器则根据这个上下文向量生成输出序列。在Transformer模型中,编码器使用双向注意力机制,解码器使用单向注意力机制,但解码器可以关注编码器输出的上下文信息。这种机制确保了模型能够同时处理输入和输出的复杂关系。这种结构通常用于序列到序列(Seq2Seq)任务,如机器翻译、文本摘要等,能够同时处理输入和输出序列,实现复杂的序列转换任务。
  • 第二种结构是仅有编码器(Encoder-Only),也被称为单向架构,仅包含编码器部分,没有解码器。它主要适用于理解任务,如文本分类、情感分析等。这种结构侧重于编码器侧,它通常使用双向自注意机制获取上下文语言表示,主要用于涉及只需要输入处理的单向任务的场景,例如文本分类和情感分析。这类的代表性模型包括BERT、RoBERTa和ALBERT。在BERT模型中,采用双向注意力机制,能够同时关注序列中的前后词语,从而获得更全面的上下文理解。此外,BERT还使用掩码语言模型(Masked
    Language Model, MLM)进行训练,提高了模型的泛化能力。
  • 第三种结构是仅有解码器(Decoder-Only)。此结构关注序列中后续输出token的预测。它还可以分为两种变体:因果解码器(Causal Decoder)和前缀解码器(Prefix Decoder),其区别在于所使用的注意机制。因果解码器完全依赖于之前的token来预测下一个token。而前缀解码器(也称非因果解码器)可以看做是Encoder-Decoder模型的变体,在输入部分采用双向注意力机制,这意味着模型在处理输入序列时,任意两个token都可以相互看见。而在输出部分,前缀解码器则采用单向注意力,即待生成的token可以看到Encoder侧所有token(包括上下文)和Decoder侧已经生成的token,但不能看未来尚未产生的token。这种模型架构允许模型在生成文本时同时考虑前缀信息和单向生成的特性,适用于需要同时理解上下文和生成文本的任务。只有解码器的架构框架特别适合于文本生成任务,并且构成了当前大型语言模型中的流行选择,如GPT系列。

1.2.LLM的预训练

预训练是大型语言模型训练中最重要的步骤之一,它指的是在拥有大量文本数据的语料库上进行的一个初始训练阶段。这个过程旨在让模型学习到语言的基本模式、结构和特征,而不需要针对特定任务进行专门训练。预训练的目标是使模型获得通用的语言理解能力,能够捕捉到词汇、语法、语义等层次上的规律,并形成对语言的一种内在表示。

常见的预训练目标包括以下三种主要策略:

  • 自回归语言建模(Autoregressive Language Modeling,ALM):
    自回归模型是一种基于先前单词预测下一个单词的概率分布的语言模型。这种模型以序列的方式工作,即它在生成文本时一次只考虑一个词,并且该词的生成依赖于之前的词。最著名的例子是传统的RNN、LSTM和GRU等循环神经网络,以及像GPT系列这样的Transformer解码器模型。这种方法采用的是因果(或称为单向)注意力机制,即在预测每个位置的词时,只能看到该位置之前的词,而不能看到之后的词。在训练过程中,模型试图最大化给定前文条件下预测下一个词的对数似然。这意味着它学习到如何根据前面的上下文来预测后续的词汇,这使得它擅长理解语言中的因果关系或顺序性信息。
  • 前缀语言建模(Prefix Language Modeling,PLM):
    前缀语言模型是一种特殊的自回归模型,它不仅使用过去的上下文(即句子的开头部分),还可以利用未来的某些部分作为条件输入。然而,这里的“未来”并不是指整个后续的句子,而是仅限于当前词之前的一小段文本。在这种策略中,模型不仅需要根据过去的上下文预测未来的内容,还需要能够处理输入序列的一部分作为“前缀”,然后基于这个前缀生成后续内容。这种方式允许模型更好地适应对话系统等应用场景,在这些场景中,模型可能需要根据对话历史生成回复。这种方法结合了双向和单向的特性,既可以让模型利用已知的前缀信息,又保持了生成过程中的连贯性和逻辑性。比如UniLM。
  • 掩码语言建模(Masked Language Modeling,MLM):
    掩码语言建模是一种非自回归的方法,它通过随机遮蔽输入文本中的某些单词,然后让模型尝试预测这些被遮蔽掉的词是什么。这种方法打破了传统的从左到右或从右到左的生成方式,使模型能够在训练期间同时看到左右两边的上下文信息。BERT是一个采用掩码语言建模的经典例子。在BERT的预训练阶段,大约15%的词会被随机替换为特殊标记MASK,然后模型的任务就是基于周围的上下文来预测这些被遮盖住的词。这种方法有助于模型学习到更加丰富的语义表示,因为它是基于双向上下文进行预测的。MLM使模型能够从双向上下文中学习,因为它同时考虑序列中的前上下文和后上下文。与ALM和PLM相比,MLM在保持并行化效率的同时,为模型提供了对上下文更全面的理解。

1.3.LLM的全量微调(Full Fine-Tuning)

全量微调是指一个大语言模型适应特定下游任务的过程,包括了使用特定任务的数据更新预训练模型的所有参数,这是大模型迁移学习的具体体现。例如,GPT最初在一个庞大的语料库上进行预训练,随后在12个不同的NLP下游任务上进行全量微调。在这个微调阶段之后,GPT变体在这些目标任务中的9个上实现了最先进的性能。对于处理下游NLP任务的大语言模型来说,全量微调是目前最流行的方法。然而,全量微调的一个重要缺陷是随着大语言模型的规模不断升级,参数的数量也不断增长,最后导致计算的消耗无法承受。

1.4.LLM的参数高效微调(‌Parameter-Efficient Fine-Tuning)

与全量微调不同,参数高效微调是一种旨在以最少的参数更新和计算资源实现预训练模型微调的方法。参数高效调优的主流方法包括:

  • 适配器调优(Adapter Tuning):Adapter
    Tuning的基本思想是在预训练模型的中间层中插入轻量级的适配器(Adapter),以便在微调特定任务时仅修改少量的参数。这样做的好处是,我们可以在不显著增加模型参数数量的情况下,提高模型的表现。由于维度较低,适配器可以在保留原始模型权重的同时,专门针对这些新添加的参数进行微调,从而确保了微调的可行性并保持了计算效率。
  • 低秩自适应(Low-Rank Adaptation,LoRA) :
    LoRA背后的核心思想是通过将某些权重矩阵分解为两个更小的矩阵(即低秩近似)来进行微调,只对这两个较小矩阵进行更新就可以有效地修改整个模型的行为,从而显着减少所需参数的数量,同时保持与全量微调相当的性能。
  • 量化低秩自适应(Quantized Low-Rank
    Adaptation,,QLoRA):在LoRA的基础上,QLoRA集成了量化。它引入量化运算,进一步压缩可训练参数的空间。QLoRA在资源受限环境中部署和更新深度学习模型的场景中尤其具有优势,例如边缘设备。

1.5.LLM的提示工程(Prompt-Engineering)

提示工程将提示作为可学习的参数,而不需要更新预训练模型的参数。通过只优化极小数量的参数,提示工程可以提高预训练模型在各种下游任务中的性能,同时接近完全量微调的功效。

  • Prefix-Tuning:Prefix
    Tuning通过在预训练模型的输入层之前添加一系列可训练的连续向量(即前缀Prefix),这些前缀作为额外的输入与原始输入一起被模型处理。通过优化这些前缀的参数,模型可以学会生成适应新任务输出的提示,而无需改变模型的主要参数。在训练过程中,只有前缀向量的参数是可训练的,预训练模型的参数被冻结。
  • P-Tuning:P-Tuning通过在模型的输入中加入一小段可训练的模板,使得模型能够针对特定任务进行调整,而不需要对整个模型进行全量微调。它能够将离散提示映射到可训练的连续提示的嵌入中,利用LSTM和MLP来构造提示编码器。与前缀调优不同,P-Tuning在输入层的任意位置插入提示token。这些token通过提示编码器依次转换为隐藏状态,并与输入嵌入一起联合训练。然而,为了实现更佳的性能效果,必须在整体模型调优过程中同步优化提示嵌入。
  • Prompt-Tuning:Prompt-Tuning 可以被视为 P-Tuning和Prefix Tuning的简化版本,
    核心思想是在预训练模型中引入任务特定的指令(Prompt),这些指令可以是文本片段、图像、语音流等,用于为模型提供特定任务的上下文。这种方法旨在降低预训练模型与下游任务之间的语义差异,并复用预训练模型强大的表达能力。Prompt
    Tuning将一系列提示与输入序列连接起来,形成模型的输入。嵌入的提示和输入嵌入共同构成一个参数矩阵,该矩阵由模型处理,其中只有提示的参数被更新,而预训练模型的原始权重保持不变。这种方法表现出高度的参数更新效率,并随着模型参数数量的增长变得越来越有竞争力。即使在模型参数超过数十亿的情况下,它也能够达到与全量微调相当的性能。通过
    Prompt-Tuning,单个预训练模型可以通过为每个下游任务训练不同的提示参数,高效地重新用于多个下游任务。
  • 上下文学习:GPT-3的少样本性能突显了上下文学习的潜力,使语言模型能够在没有额外模型调优的情况下,仅依赖少数示范样例掌握下游任务。上下文学习被分解为两个不同的阶段,即训练阶段和推理阶段。在训练阶段,模型通过预训练目标获得上下文学习的能力。在推理阶段,通过精心设计示例和选择适当的评估机制,展示了模型的上下文学习能力。
  • 思维链:思维链概念的本质在于通过向模型提供适度的范例集合来模仿人类解决复杂问题的认知过程。解决方案被分解成一系列用自然语言表达的中间推理步骤,同时清晰地描绘了从查询到解决的逻辑轨迹。

prompt tuning、P-tuning和prefix tuning的结构如下所示:
在这里插入图片描述

1.6.目前比较具有代表性的几个大语言模型

在这里插入图片描述
Transformer(2017):Transformer是在2017年由谷歌的研究人员提出的一种模型。Transformer一个最大的特点就是引入了注意力机制,革新了自然语言处理(NLP)领域,并且迅速成为许多先进AI应用的核心组件,如机器翻译、文本生成、问答系统等。此外,将多头注意机制合并到Transformer架构中允许所得到的模型同时使用几个独立的自注意头,从而促进并行学习大量不同的注意子空间。
Transformer 的核心原理其实就是以下这条公式:
在这里插入图片描述

T5(2019): T5是由谷歌研究院开发的一种基于Transformer架构的模型,专门设计用于各种文本到文本的任务,采用了编码器-解码器框架。与BERT和GPT等其他流行的预训练语言模型不同,T5将所有自然语言处理任务统一为文本到文本的形式,这使得它能够更加灵活地处理广泛的任务类型。
在这里插入图片描述
GPT-3(2020):GPT-3是由OpenAI开发的第三代生成式预训练Transformer模型,采用了Transformer-Decoder架构。它代表了自然语言处理领域的一个重大进展,因其庞大的规模和出色的文本生成能力而广受关注。

CPM-2 (2021): CPM-2与其前身基于纯解码器架构的CPM不同,采用了传统Transformer模型的编码器-解码器框架。CPM-2由两个不同的版本组成:标准的CPM-2版本拥有110亿个参数,而其混合专家(MoE)版本拥有前所未有的规模,拥有1980亿个参数。CPM-2的核心创新在于其具有成本效益的设计;它采用知识继承策略,利用预训练语言模型的现有知识,促进CPM-2的训练过程。此外,它利用了提示调谐,与微调相比,这种方法只需要更新模型参数的0.01%,但仍然能够达到与完全微调相当的性能。

PaLM (2022): PaLM是具有多种参数尺度的纯解码器Transformer语言模型,包括80亿、620亿和5400亿参数的模型。该模型是在一个庞大的数据集上进行预训练的,总计7800亿个token,其中一半这些数据由社交媒体对话组成,27%来自网页内容,其余部分包括书籍和代码等来源。PaLM的创新之处在于其利用Pathways系统进行大规模预训练,促进了TPU v4集群内多个pod的协同计算,实现了模型参数的同步更新,实现了高效并行处理,显著降低了时间成本。在评估方面,在BIG-bench上进行的实验表明,具有5400亿个参数的PaLM版本在短时学习能力上超过了最先进的模型,如GPT-3、Gopher和Chinchilla。此外,该模型在大多数被评估任务上的表现超过了人类的平均水平。

OPT (2022): OPT模型经历了GPT-3 175B的全尺寸复制。采用相同的纯解码器架构,并保持相同的最大参数数量1750亿。重要的是,该团队已经向开源社区完整地发布了OPT模型权重、代码和训练日志。OPT使用的预训练语料库完全由可公开访问的数据组成,总计约180亿个token。它集成了RoBERTa、the Pile和PushShift.io Reddit语料库。OPT和GPT-3在16个数据集上进行了比较,包括零样本、多样本和对话实验。结果表明,OPT的性能与GPT-3大致相当。此外,该团队还分析了OPT的局限性,例如它对说明性指令的次优响应以及产生有害或歧视性内容的可能性。

LLaMA(2023)::LLaMA是由Meta AI开发的一系列大型语言模型,采用了纯解码器的transformer架构,利用了自注意力机制来捕捉文本中的长距离依赖关系。此外,它还采用了多种优化技术以提高训练速度和推理效率。LLaMA展示了出色的零样本、少样本学习能力,可以在没有或仅有少量额外训练的情况下完成各种复杂的NLP任务。例如,它可以进行高质量的文本摘要、对话生成、代码编写等。

PanGu-Σ(2023)::PanGu-Σ 是由华为研发的大型预训练语言模型,它代表了中国企业在自然语言处理领域的重要进展。PanGu-Σ 拥有超过2000亿个参数,这使得它成为全球已知的最大规模之一的语言模型之一。这种庞大的参数量有助于提高模型在复杂任务上的表现,如多步推理、长文本生成等。PanGu-Σ 特别注重对中文的支持,使用了大量的中文语料库进行预训练,包括但不限于新闻、书籍、维基百科等内容。这使得它在处理中文相关的任务时表现出色,例如中文文本生成、问答系统、机器翻译等。

在这里插入图片描述

2.多模态大模型

随着大语言模型的兴起,多模态大模型(Large Multimodal Models,lmm)成为一个热门的研究课题,多模态大模型是指能够处理和理解来自多种不同数据类型或模态(如文本、图像、音频、视频等)的大型预训练模型。这些模型利用LLM作为中心枢纽来处理多模态任务,从单一的文本模态扩展到包括图像、音频和视频等模态,通过整合不同模态的信息,提供了比单一模态模型更丰富和全面的数据表示,从而能够在多种任务中得到出色的表现。

2.1.LMM的结构

多模态大模型通常由以下五个部分组成,分别是多模态编码器、输入模态对齐器、预训练的LLM主干、输出模态对齐器和多模态解码器。

多模态编码器旨在从多种输入模态(如文本、图像、视频和音频)中提取特征。在lmm的背景下,预训练编码器通常使用其参数冻结,以利用其特征提取能力。

输入模态对齐器负责将由多模态编码器提取的来自不同模态的特征向量对齐到文本特征空间,然后将它们转换为与LLM兼容的特征表示。在这种情况下使用的主要输入模态对齐器包括线性映射器、多层感知机(MLP)、Querying-Transformer、Prompting-Transformer、多尺度查询Transformer和交叉注意层。

上游LMM使用预训练或微调的LLM作为主干,这是LMM架构的核心。上游LLM主干接收对齐的多模态输入,利用其在文本特征空间中的理解、推理和生成能力来生成文本输出或指令token。这些指令token响应用户提供的提示,并用于引导其他组件执行更复杂的跨模态任务。

输出模态对齐器与输入模态对齐器相比,输出模态对齐器将上游LLM主干产生的指令token映射为与解码为目标非语言模态兼容的特征表示。常用的输出模态对齐器包括线性对齐器、多层感知机(MLP)和带Encoder-Decoder结构的Transformer。

多模态解码器是指对经过输出模态对齐器后处理的特征进行解码的组件。其目的是生成各种目标模态的输出,不同的多模态内容类型采用不同的解码器选项。

2.2.LMM的训练

LMM的训练不包含多模态编码器、上游LLM骨干和多模态解码器这些预训练组件,而仅需要分别训练输入模态对齐器和输出模态对齐器。LMM的训练目标有两个,第一是通过输入模态对齐器将多模态输入对齐到文本特征空间中,第二是通过训练输出模态对齐器将指令 token 映射回生成器可理解的特征来确保多模态输出的质量。

2.3.LMM的指令调优

在这里插入图片描述

指令调优最初是在FLAN中引入的一种训练技术,涉及使用包含特定格式指令的小型专业化数据集对预训练的大语言模型进行精炼。该技术旨在以减少的数据集规模和更少的参数更新,实现微调和提示的效果,从而增强模型理解人类指令的能力,并提高其零样本性能。

许多单模态大语言模型(如 GPT-3 、InstructGPT 、T0 )上的指令调优的成功也可以扩展到多模态领域。目前,多模态指令调优数据集主要采用三种构建形式:数据集适配、自我指令合成以及两者的结合。

  • 数据集适配(dataset Adaptation):数据集适配以低成本和高速度的特点调整现有大规模标注数据集的格式,从而创建合适的指令数据。这种方法已被 MiniGPT-4和 InstructBLIP 等模型采用。然而,它依赖于人工干预,并且通过直接采用或浅层次修改原始注释的方法缺乏新颖性,这使得其在广泛推广到新场景时可能存在缺陷。
  • 自我指令合成(Self-Instruction Synthesis):自我指令合成利用了大语言模型(LLM)的理解和生成能力,通过少量手动标注的模板样本指导像 GPT-4 这样的大型语言模型重构现有的标注数据集,以创建指令数据。Shikra、VideoChat和 LLaVAR 等模型采用了这种方法。它具有灵活的数据生成机制,确保了指令数据的多样性和对现实世界情境的泛化能力。然而,依赖于 LLM 的LMM也引入了与这些模型相关的固有幻觉问题。

2.4.LMM的提示工程

在大模型中,提示工程为了避免更新模型参数,通过使用提示token来优化大模型的性能。而在多模态大模型中,提示工程将大语言模型的上下文学习和思维链演变为多模态上下文学习和多模态思维链范式。

  • 多模态上下文学习:大语言模型利用上下文学习技术,使他们能够在推理阶段实现与微调相当的几次性能,这仅仅依赖于下游任务的少量演示。而在多模态大模型中,通过提供跨模态的演示,将上下文学习扩展到多模态上下文学习时,可以提高性能。
    在这里插入图片描述

  • 多模态思维链:思维链的概念最初是作为大语言模型中一种处理复杂推理任务的技术而出现的。它促使语言模型将复杂问题分解为一系列子问题并迭代求解,从而显著提高LLM的性能。一些研究将单模态 CoT 推广到了多模态 CoT(M-CoT),可以根据不同的提示范式分类,如零样本 M-CoT、少样本M-CoT 和微调 M-CoT。在零样本 M-CoT下,不使用任何示例来引导 LMM 进行 CoT 过程;相反,在推理阶段通过简单的文本指令触发模型的推理能力。少样本 M-CoT类似于上下文学习,提供少量详细说明中间推理步骤的示例。而微调M-CoT需要使用特定数据集对 LMM 的推理能力进行微调。通常,前两种方法更适用于较大的 LLM,而后一种方法常用于较小的模型。关于模态对齐,M-CoT 可进一步分为翻译映射和可学习映射。翻译映射指的是将非文本模态输入直接转换为文本描述,通过“翻译”有效地将非文本模态信息传递给文本模态,然后再参与 CoT 推理。不过这个过程不可避免地会丢失一些模态特定的信息。而可学习映射构建一个可训练的模型,将其他模态的特征整合到文本特征空间中,形成联合嵌入,这将作为输入供 LLM 进行 CoT 推理。

2.5.LMM的分类

2.5.1.Image+Text to Text

在这里插入图片描述

“图像+文本到文本”模型也被称为图像理解模型,构成了LMM领域内研究最广泛的一类模型。在目前主流的图像理解模型中,CLIP-ViT是目前采用最广泛的视觉编码器,紧随其后的是Eva-CLIP-ViT。这些编码器明显优于其他类型的视觉编码器。这种优势可能源于CLIP采用的对比学习范式,再加上它的4亿个高质量图像-文本对,这两者共同赋予了它强大的视觉特征提取能力。

此外,线性映射器和交叉注意层经常被用作多模态对齐器,这可能是因为与P-former等对齐器相比,它们的结构简单且性能效率高。还有一种方法是采用自定义的模态对齐器设计。例如,mPLUGOwl2引入了一种模态自适应模块,旨在准确计算和比较共享语义空间内不同模态之间的相似性。与此同时,MobileVLM系列使用了轻量级下采样投影器(LDP),与Q-former不同,它在架构轻量级的同时保持了视觉特征的空间位置信息。

对于上游LLM的偏好,Vicuna已经超过了LLaMA系列成为了主流选择。Vicuna作为一种衍生模型,在ShareGPT.com的监督数据上进行微调,与LLaMA相比,表现出更优越的性能。这一现象阐明了图像理解模型领域内的一种技术偏好,即倾向于结合轻量级、低训练成本和高质量对话的LLM。

2.5.2.Video+Text to Text

在这里插入图片描述

与图像理解模型相比,用于视频理解的“视频+文本到文本”模型的数量相对较少。由于在处理视频和图像方面具有相似性,视频理解模型也具有理解图像的能力。

在图像生成模型的背景下,CLIP ViT通常作为视觉编码器组件的普遍选择,Stable Diffusion模型主要用作视觉生成器。此外,上游大语言模型主干的选择呈现出更高程度的多样性,从Vicuna到LLaMA,甚至延伸到基于web的ChatGPT。这些模型的特点是实现方法更加多样化。例如在Visual-ChatGPT和DiffusionGPT中,模型结构并不是端到端设计,而是整合ChatGPT来细化提示优化。

2.5.3.Image+Text to Text+Image

在这里插入图片描述

“Image+Text to Text+Image”类别中的模型不应被视为单纯的图像生成模型,而应该被视为图像编辑模型和生成模型。这类模型被赋予了对输入图像执行各种操作的能力,包括提取、注释和分割,这导致它们被归类为图像处理模型。例如,CogCoM能够执行裁剪和放大操作以获取详细的本地视觉内容,并且可以通过OCR识别图像中的文本信息,同时基于视觉输入进行推理。虽然图像编辑并不等同于图像生成,但它确实体现了LMM理解和操纵视觉输入数据的能力。

2.5.4.Video+Text to Text+Video

在这里插入图片描述

“视频+文本到文本+视频”模型可以概念化为视频生成模型,例如CoDi-2、ModaVerse和NExT-GPT等模型体现了能够理解或生成文本、音频、图像和视频内容的“任意到任意”大型多模态模型。

在所使用的组件中,ImageBind是最常用的视觉编码器,而LLaMA 2代表了上游LLM主干的普遍选择。对于视频生成器,主流的选择是HuggingFace的ZeroScope系列开源模型,这是阿里巴巴DAMO研究院开发的视频生成模型。该模型自动生成与用户提供的文本描述一致的视频,融合了视觉元素(场景)、音频元素(音乐和音效)和字幕。此外,HuggingGPT采用了Visual-ChatGPT的设计理念,采用ChatGPT作为其上游LLM主干,对用户提示进行理解、处理和细化。此外,它利用社区内各种现有外部模型的功能来促进多模态输入-输出交互。

目前,无论是基于LMM、Latent Diffusion models,还是基于gan,视频生成模型都只能生成几秒的视频,并且在逻辑一致性和真实性方面都还存在不足。在此背景下,OpenAI于2024年2月推出了Sora模型,该模型通过理解文本描述,不仅可以生成长达一分钟的高清视频内容,而且还遵守现实世界的物理定律并保持逻辑连续性。但是,Sora模型的技术细节和内部工作原理都没有公开披露,真实性仍然存疑。

4.总结

本文简单回顾了从单模态大语言模型到多模态的发展轨迹,分别从两者的结构、训练、调优和提示工程等方面进行了详细的介绍。大语言模型(LLM)的发展从基于文本的单一模态处理迅速扩展至多模态领域,催生了能够理解和生成多种数据类型(如文本、图像、音频、视频等)的大型多模态模型(LMM)。多模态大模型进一步推动了这一趋势,通过整合不同模态的信息,实现了比单一模态模型更丰富全面的数据表示。在应用层面,LMM不仅限于“图像+文本到文本”类别的图像理解,还包括“视频+文本到文本”、“图像+文本到文本+图像”和“视频+文本到文本+视频”的模型,展示了其在图像编辑、视频生成等领域的潜力。尽管当前的视频生成模型在长度和逻辑一致性上仍存在局限,但诸如Sora这样的新模型已经展现出突破性的进展,预示着未来多模态模型将在通用人工智能(AGI)发展中扮演重要角色。


原文地址:https://blog.csdn.net/qq_30043925/article/details/144322168

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!