自学内容网 自学内容网

非常棒的长文本输入大模型:MiniMax以及基于它的海螺AI模型

非常棒的长文本输入大模型:基于MiniMax的海螺AI模型,快来体验一下吧! 海螺AI—MiniMax 旗下生产力产品,你的AI伙伴,10倍速提升工作学习效率

这个大模型最大的特点就是支持长文本输入,而且是从内部就擅长对长文本的处理,根据其github开源项目的描述,其长文本处理能力要优于当前市面上流行的各类模型,就像断水流大师兄说的:我不是针对谁,我是说在座的各位,都是XX。

MiniMax-01 系列模型

源代码:https://github.com/MiniMax-AI/MiniMax-01

 MiniMax-01 系列模型包括两款模型:MiniMax-Text-01 和 MiniMax-VL-01

MiniMax-Text-01 是一个强大的语言模型,拥有 4560 亿个总参数,每个令牌激活 459 亿个参数。为了解锁其长上下文功能,它采用了集成了 Lightning Attention、Softmax Attention 和 Mixture-of-Experts (MoE) 的混合架构。利用线性注意力序列并行增强 (LASP+)、varlen 环注意力和专家张量并行 (ETP) 等高级并行策略,其训练上下文长度扩展到 100 万个令牌,并且在推理过程中可以处理多达 400 万个令牌。因此,MiniMax-Text-01 在各种学术基准测试中展示了顶级性能。

基于 MiniMax-Text-01 的强大功能,开发了 MiniMax-VL-01 以增强视觉功能。它使用多模态 LLM 中常见的 “ViT-MLP-LLM” 框架。它使用三个关键组件进行初始化和训练:用于视觉编码的 3.03 亿参数视觉转换器 (ViT)、用于图像自适应的随机初始化的两层 MLP 投影仪以及作为基本 LLM 的 MiniMax-Text-01。该模型具有动态分辨率机制。输入图像根据预设网格调整大小,分辨率范围为 336×336 到 2016×2016,同时保持 336×336 缩略图。调整大小后的图像被分割成相同大小的不重叠的图块。这些色块和缩略图分别编码,然后组合起来形成完整的图像表示形式。因此,MiniMax-VL-01 在多模态排行榜上取得了顶级性能,展示了其在复杂多模态任务中的优势。

模型架构

MiniMax-Text-01 的架构简要说明如下:

  • 总参数: 456B
  • 每个令牌的激活参数数:45.9B
  • 编号层数:80
  • 混合注意力:每 7 次闪电注意后放置一个 softmax 注意力。
    • 注意力头数:64
    • 注意头尺寸:128
  • 专家混合:
    • 专家人数: 32
    • 专家隐藏维度:9216
    • Top-2 路由策略
  • 位置编码:旋转位置嵌入 (RoPE) 应用于注意力头尺寸的一半,基本频率为 10,000,000
  • 隐藏尺寸: 6144
  • 词汇量: 200,064

对于 MiniMax-VL-01,其他 ViT 架构详细信息如下:

  • 总参数:303M
  • 层数: 24
  • 补丁大小:14
  • 隐藏尺寸: 1024
  • FFN 隐藏大小:4096
  • 刀头数量: 16
  • 注意头尺寸:64

3. 评估

文本基准测试

核心学术基准Core Academic Benchmarks
TasksGPT-4o (11-20)Claude-3.5-Sonnet (10-22)Gemini-1.5-Pro (002)Gemini-2.0-Flash (exp)Qwen2.5-72B-Inst.DeepSeek-V3Llama-3.1-405B-Inst.MiniMax-Text-01
General
MMLU*85.788.386.886.586.188.588.688.5
MMLU-Pro*74.478.075.876.471.175.973.375.7
SimpleQA39.028.123.426.610.324.923.223.7
C-SimpleQA64.656.859.463.352.264.854.767.4
IFEval (avg)84.190.189.488.487.287.386.489.1
Arena-Hard92.487.685.372.781.291.463.589.1
Reasoning
GPQA* (diamond)46.065.059.162.149.059.150.754.4
DROP* (F1)89.288.889.289.385.091.092.587.8
Mathematics
GSM8k*95.696.995.295.495.896.796.794.8
MATH*76.674.184.683.981.884.673.877.4
Coding
MBPP +76.275.175.475.977.078.873.071.7
HumanEval90.293.786.689.686.692.189.086.9

* Evaluated following a 0-shot CoT setting.

任务GPT-4o (11-20)克劳德-3.5-十四行诗 (10-22)双子座-1.5-Pro (002)Gemini-2.0-Flash (exp)Qwen2.5-72B-研究所深度搜索-V3美洲驼-3.1-405B-研究所MiniMax-Text-01 (英文)
常规
MMLU*85.788.386.886.586.188.588.688.5
MMLU-Pro 系列*74.478.075.876.471.175.973.375.7
简单质量保证39.028.123.426.610.324.923.223.7
C-SimpleQA 型64.656.859.463.352.264.854.767.4
IFEval (avg)84.190.189.488.487.287.386.489.1
竞技场-困难92.487.685.372.781.291.463.589.1
推理
GPQA(钻石)*46.065.059.162.149.059.150.754.4
DROP (F1)*89.288.889.289.385.091.092.587.8
数学
GSM8k*95.696.995.295.495.896.796.794.8
数学*76.674.184.683.981.884.673.877.4
编码
MBPP +76.275.175.475.977.078.873.071.7
HumanEval90.293.786.689.686.692.189.086.9
 长文本:Ruler
Model4k8k16k32k64k128k256k512k1M
GPT-4o (11-20)0.9700.9210.8900.8880.884----
Claude-3.5-Sonnet (10-22)0.9650.9600.9570.9500.9520.938---
Gemini-1.5-Pro (002)0.9620.9600.9600.9580.9380.9170.9160.8610.850
Gemini-2.0-Flash (exp)0.9600.9600.9510.9570.9370.8600.7970.709-
MiniMax-Text-010.9630.9610.9530.9540.9430.9470.9450.9280.910

可以看到,越长的文本,MiniMax的表现越好!


原文地址:https://blog.csdn.net/skywalk8163/article/details/145269623

免责声明:本站文章内容转载自网络资源,如侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!