非常棒的长文本输入大模型:MiniMax以及基于它的海螺AI模型
非常棒的长文本输入大模型:基于MiniMax的海螺AI模型,快来体验一下吧! 海螺AI—MiniMax 旗下生产力产品,你的AI伙伴,10倍速提升工作学习效率
这个大模型最大的特点就是支持长文本输入,而且是从内部就擅长对长文本的处理,根据其github开源项目的描述,其长文本处理能力要优于当前市面上流行的各类模型,就像断水流大师兄说的:我不是针对谁,我是说在座的各位,都是XX。
MiniMax-01 系列模型
源代码:https://github.com/MiniMax-AI/MiniMax-01
MiniMax-01 系列模型包括两款模型:MiniMax-Text-01 和 MiniMax-VL-01。
MiniMax-Text-01 是一个强大的语言模型,拥有 4560 亿个总参数,每个令牌激活 459 亿个参数。为了解锁其长上下文功能,它采用了集成了 Lightning Attention、Softmax Attention 和 Mixture-of-Experts (MoE) 的混合架构。利用线性注意力序列并行增强 (LASP+)、varlen 环注意力和专家张量并行 (ETP) 等高级并行策略,其训练上下文长度扩展到 100 万个令牌,并且在推理过程中可以处理多达 400 万个令牌。因此,MiniMax-Text-01 在各种学术基准测试中展示了顶级性能。
基于 MiniMax-Text-01 的强大功能,开发了 MiniMax-VL-01 以增强视觉功能。它使用多模态 LLM 中常见的 “ViT-MLP-LLM” 框架。它使用三个关键组件进行初始化和训练:用于视觉编码的 3.03 亿参数视觉转换器 (ViT)、用于图像自适应的随机初始化的两层 MLP 投影仪以及作为基本 LLM 的 MiniMax-Text-01。该模型具有动态分辨率机制。输入图像根据预设网格调整大小,分辨率范围为 336×336 到 2016×2016,同时保持 336×336 缩略图。调整大小后的图像被分割成相同大小的不重叠的图块。这些色块和缩略图分别编码,然后组合起来形成完整的图像表示形式。因此,MiniMax-VL-01 在多模态排行榜上取得了顶级性能,展示了其在复杂多模态任务中的优势。
模型架构
MiniMax-Text-01 的架构简要说明如下:
- 总参数: 456B
- 每个令牌的激活参数数:45.9B
- 编号层数:80
- 混合注意力:每 7 次闪电注意后放置一个 softmax 注意力。
- 注意力头数:64
- 注意头尺寸:128
- 专家混合:
- 专家人数: 32
- 专家隐藏维度:9216
- Top-2 路由策略
- 位置编码:旋转位置嵌入 (RoPE) 应用于注意力头尺寸的一半,基本频率为 10,000,000
- 隐藏尺寸: 6144
- 词汇量: 200,064
对于 MiniMax-VL-01,其他 ViT 架构详细信息如下:
- 总参数:303M
- 层数: 24
- 补丁大小:14
- 隐藏尺寸: 1024
- FFN 隐藏大小:4096
- 刀头数量: 16
- 注意头尺寸:64
3. 评估
文本基准测试
核心学术基准Core Academic Benchmarks
Tasks | GPT-4o (11-20) | Claude-3.5-Sonnet (10-22) | Gemini-1.5-Pro (002) | Gemini-2.0-Flash (exp) | Qwen2.5-72B-Inst. | DeepSeek-V3 | Llama-3.1-405B-Inst. | MiniMax-Text-01 |
---|---|---|---|---|---|---|---|---|
General | ||||||||
MMLU* | 85.7 | 88.3 | 86.8 | 86.5 | 86.1 | 88.5 | 88.6 | 88.5 |
MMLU-Pro* | 74.4 | 78.0 | 75.8 | 76.4 | 71.1 | 75.9 | 73.3 | 75.7 |
SimpleQA | 39.0 | 28.1 | 23.4 | 26.6 | 10.3 | 24.9 | 23.2 | 23.7 |
C-SimpleQA | 64.6 | 56.8 | 59.4 | 63.3 | 52.2 | 64.8 | 54.7 | 67.4 |
IFEval (avg) | 84.1 | 90.1 | 89.4 | 88.4 | 87.2 | 87.3 | 86.4 | 89.1 |
Arena-Hard | 92.4 | 87.6 | 85.3 | 72.7 | 81.2 | 91.4 | 63.5 | 89.1 |
Reasoning | ||||||||
GPQA* (diamond) | 46.0 | 65.0 | 59.1 | 62.1 | 49.0 | 59.1 | 50.7 | 54.4 |
DROP* (F1) | 89.2 | 88.8 | 89.2 | 89.3 | 85.0 | 91.0 | 92.5 | 87.8 |
Mathematics | ||||||||
GSM8k* | 95.6 | 96.9 | 95.2 | 95.4 | 95.8 | 96.7 | 96.7 | 94.8 |
MATH* | 76.6 | 74.1 | 84.6 | 83.9 | 81.8 | 84.6 | 73.8 | 77.4 |
Coding | ||||||||
MBPP + | 76.2 | 75.1 | 75.4 | 75.9 | 77.0 | 78.8 | 73.0 | 71.7 |
HumanEval | 90.2 | 93.7 | 86.6 | 89.6 | 86.6 | 92.1 | 89.0 | 86.9 |
* Evaluated following a 0-shot CoT setting.
任务 | GPT-4o (11-20) | 克劳德-3.5-十四行诗 (10-22) | 双子座-1.5-Pro (002) | Gemini-2.0-Flash (exp) | Qwen2.5-72B-研究所 | 深度搜索-V3 | 美洲驼-3.1-405B-研究所 | MiniMax-Text-01 (英文) |
---|---|---|---|---|---|---|---|---|
常规 | ||||||||
MMLU* | 85.7 | 88.3 | 86.8 | 86.5 | 86.1 | 88.5 | 88.6 | 88.5 |
MMLU-Pro 系列* | 74.4 | 78.0 | 75.8 | 76.4 | 71.1 | 75.9 | 73.3 | 75.7 |
简单质量保证 | 39.0 | 28.1 | 23.4 | 26.6 | 10.3 | 24.9 | 23.2 | 23.7 |
C-SimpleQA 型 | 64.6 | 56.8 | 59.4 | 63.3 | 52.2 | 64.8 | 54.7 | 67.4 |
IFEval (avg) | 84.1 | 90.1 | 89.4 | 88.4 | 87.2 | 87.3 | 86.4 | 89.1 |
竞技场-困难 | 92.4 | 87.6 | 85.3 | 72.7 | 81.2 | 91.4 | 63.5 | 89.1 |
推理 | ||||||||
GPQA(钻石)* | 46.0 | 65.0 | 59.1 | 62.1 | 49.0 | 59.1 | 50.7 | 54.4 |
DROP (F1)* | 89.2 | 88.8 | 89.2 | 89.3 | 85.0 | 91.0 | 92.5 | 87.8 |
数学 | ||||||||
GSM8k* | 95.6 | 96.9 | 95.2 | 95.4 | 95.8 | 96.7 | 96.7 | 94.8 |
数学* | 76.6 | 74.1 | 84.6 | 83.9 | 81.8 | 84.6 | 73.8 | 77.4 |
编码 | ||||||||
MBPP + | 76.2 | 75.1 | 75.4 | 75.9 | 77.0 | 78.8 | 73.0 | 71.7 |
HumanEval | 90.2 | 93.7 | 86.6 | 89.6 | 86.6 | 92.1 | 89.0 | 86.9 |
长文本:Ruler
Model | 4k | 8k | 16k | 32k | 64k | 128k | 256k | 512k | 1M |
---|---|---|---|---|---|---|---|---|---|
GPT-4o (11-20) | 0.970 | 0.921 | 0.890 | 0.888 | 0.884 | - | - | - | - |
Claude-3.5-Sonnet (10-22) | 0.965 | 0.960 | 0.957 | 0.950 | 0.952 | 0.938 | - | - | - |
Gemini-1.5-Pro (002) | 0.962 | 0.960 | 0.960 | 0.958 | 0.938 | 0.917 | 0.916 | 0.861 | 0.850 |
Gemini-2.0-Flash (exp) | 0.960 | 0.960 | 0.951 | 0.957 | 0.937 | 0.860 | 0.797 | 0.709 | - |
MiniMax-Text-01 | 0.963 | 0.961 | 0.953 | 0.954 | 0.943 | 0.947 | 0.945 | 0.928 | 0.910 |
可以看到,越长的文本,MiniMax的表现越好!
原文地址:https://blog.csdn.net/skywalk8163/article/details/145269623
免责声明:本站文章内容转载自网络资源,如侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!