Google：Gemini 1.5跨数百万上下文令牌解锁多模态理解技术报告（中文）

🕗 发布于 2024-02-23 18:20 大数据 人工智能

1、概述

在本报告中，我们展示了 Gemini 系列的最新模型 Gemini 1.5 Pro，这是一个计算效率极高的多模态专家混合模型，能够从数百万个上下文标记中回忆和推理细粒度信息，包括多个长文档和数小时的视频和音频。Gemini 1.5Pro 在跨模态的长上下文检索任务上实现了近乎完美的召回，提高了长文档问答、长视频问答和长上下文自动识别的最新水平，并在一系列基准测试中达到或超过了 Gemini 1.0 Ultra 的最新水平。研究 Gemini 1.5 Pro 的长上下文能力的限制，我们发现下一个令牌预测和接近完美的检索（》99%）持续改进，至少达到 1000 万个令牌，比现有模型如 Claude 2.1（200k）和 GPT-4 Turbo（128k）有了一代的飞跃。最后，我们强调了前沿大型语言模型令人惊讶的新功能；当给一份卡拉芒语语法手册时，该模型学会将英语翻译成卡拉芒语，其水平与一个人学习相同内容的水平相似。卡拉芒语是一种全球使用人数不到 200 人的语言。

我们展示了 Gemini 系列的最新多模式车型:Gemini 1.5 Pro。这是我们从 Gemini 1.5 发布的第一个版本，Gemini 1.5 是一个新的高性能多模态模型系列，它采用了一种新颖的专家混合架构以及在培训和服务基础架构方面的重大进步，使其能够推动效率、推理和长期上下文性能的边界。Gemini 1.5 Pro 旨在处理超长上下文；它能够从多达至少 1000 万个令牌中回忆和推理细粒度信息。这种规模在当代大型语言模型（LLM）中是前所未有的，并且能够处理长格式混合模态输入，包括完整的文档集合、数小时的视频和几乎一天的音频。双子星座1.5 Pro 超过 Gemini 1.0 Pro，在一系列基准测试中的性能与 1.0 Ultra 相似，但需要训练的计算量明显减少。

对越来越长的上下文的数据进行建模的能力已经跟踪了更通用和更有能力的语言模型的发展，从现在由 Shannon（1948），到 20 世纪 90 年代和 21 世纪初的现代 n 元模型（Brants etal.,2007；Chen and Goodman,1999；Jelinek,1998；Kneser and Ney,1995）通常限制为 5 个上下文标记，到 2010 年代的递归神经网络语言模型，该模型可以有效地基于数百个标记&#

原文地址：https://blog.csdn.net/lymake/article/details/136174492

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：使用 Visual Studio 断点调试 DLL
下一篇：宝塔面板安装了mysql5.7和phpMyadmin，但是访问phpMyadmin时提示502 Bad Gateway

matlab--pdist2(X,Y)使用方法、怎么计算的
定义一个忽略NaN值坐标的自定义距离函数，并使用该自定义距离函数计算两两距离。假设缺少X(1,1)。%假设缺少 X(1,1)。%计算汉明距离输出：D1 =如果X中的观测值i或Y中的观测值j包含NaN值
阅读更多2024-11-17
web H5网页中嵌入优量汇的插屏广告
如果你的商品没有上架应用市场就选择测试上架成功之后可以选择正式媒体审核成功之后就可以下一步。我们在进入某些App 软件的时候经常会看到一些插屏广告 , 因为看着些广告可以赚取费用。这样就可
阅读更多2024-11-17
JDBC-Dao层模式
分层思维是软件架构设计的一种重要思想，它通过将应用程序划分为多个关系的层。通常分为以下三层关系。web层：主要负责与用户进行交互，处理请求。service层：业务逻辑层，主要负责处理应用程序的业务逻辑
阅读更多2024-11-17
JAVA接入WebScoket行情接口
之前爬行情网站提供的level1行情接口不稳定。websocket接入level2行情接口。Java脚好用的库很多，开发效率一点不输Python。如果是日内策略，需要更实时的行情数据，不然策略滑点太大
阅读更多2024-11-17
前端页面一些小点
1. 让输入框无边框。
阅读更多2024-11-17
以太坊基础知识结构详解
EVM：一个沙盒环境，负责执行智能合约代码。它是图灵完备的，支持多种编程语言，确保智能合约的安全执行。以太坊的区块是区块链的基本组成单位，每个区块包含一组交易记录，并通过哈希值与前一个区块相连，形成链
阅读更多2024-11-17
Spring Boot 中 Druid 连接池与多数据源切换的方法
Druid是阿里巴巴开源的一个数据库连接池，它不仅提供了高效的数据库连接管理，还具备监控、扩展等强大功能。监控能力：提供了详细的监控页面，可以实时监控SQL执行情况、连接池状态等。扩展能力：支持多种数
阅读更多2024-11-17
【MySQL】MySQL中的函数之JSON_KEYS
在 MySQL 中，函数用于获取 JSON 对象中的所有键名。这个函数非常有用，特别是在你需要知道 JSON 对象中包含哪些键时。下面是一些关于如何使用的详细说明和示例。
阅读更多2024-11-17
C++ 模板
模板是另一个编程思想（泛型编程）的一种技术。模板就是建立通用的模具，大大提高复用性。一寸照片模板：模板的使用前提：模板不能直接使用，需要塞入我们自己的内容。模板不是万能的（例如不能用PPT模板去套一寸
阅读更多2024-11-17
【C++】定义缓冲区数组，但出现0xCCCCCCCC的情况，导致未定义行为，Visual Studio 调试器可以查看
【C++】定义缓冲区数组，但出现0xCCCCCCCC的情况，导致未定义行为，Visual Studio 调试器可以查看
阅读更多2024-11-17

Google：Gemini 1.5跨数百万上下文令牌解锁多模态理解技术报告（中文）

1、概述

相关文章