刷新认知！国产大模型已超GPT-4

🕗 发布于 2024-11-08 17:57 人工智能

相信大家与我一样都很关注国内AI的进展，尤其是距离美国的差距。确实，从目前的排行榜来看，我们距离美国最先进的公司还有4~8个月的差距。

但有一个很重要的认知应该被刷新：中国的大模型已经超越了GPT-4在2023年的版本，并且与GPT-4在8月份的版本处于同一水平。这表明中国的大模型已经完全可用，中国AI正在赶上甚至超越国际领先水平！

GPT-4 作为OpenAI 第一个破圈的版本，已经被众多国内对手超越

去年，OpenAI发布了GPT-4，这是其迄今为止最出圈的版本。GPT-4于2023年3月正式推出，在多项关键能力上超越了前代GPT-3.5，特别是在复杂指令理解、多步推理以及生成内容的质量和准确性方面有了显著提升。

作为OpenAI实际商用中最成功的版本，GPT-4几乎能满足用户在各种场景下的需求，从编写代码到创作故事，再到解决复杂的逻辑问题等，展现了强大的通用性和适应性。

可以看到，在目前最好的评测，大模型竞技场模式下，国产模型也有智谱清言、零一万物和阿里通义千问 Qwen 已经能排到前20。

超越众多去年发布的gpt4的版本，而且分数差距距离第一梯队都不远。

我们还能看到，国产开源模型千问QWen 2.5 都已经超越了去年发布的众多GPT4版本，甚至距离阿里商业化版本 QWen-Max都差距不大，可见其开放程度非常高。

背景知识：大模型能力评估方法概述

大模型本身的能力横评有两个主要方式。

一种是“基准测试”或“考试模式”，其核心思路是通过一系列预设的固定问题来评估模型在特定任务上的表现，简单说就是一组QA，Q问大模型，看A回答的怎么样。分不同的题集，如数学推理、常识理解等。常见的基准测试包括：GSM-8K（侧重于数学应用题求解）、MMLU（多学科知识综合测评）、TheoremQA（定理证明相关的问题）以及GPQA（涉及广泛领域的一般性问题）。

虽然这些测试因题目固定而可能被“刷分”，但依然提供了有价值的对比数据。

另一种是“人类评估”或“竞技场模式”，此模式下，对于同一个问题，两个不同模型各自给出答案，然后由真人根据答案的质量、准确性和自然度等因素评判哪一个更优。这种方法更加贴近实际使用场景，并且由于问题的开放性和对人的友好程度较高，因此结果往往与基准测试相吻合。

从原理来说，最可信的测试，就是人类评估竞技场模式，这个模式可以非常客观的体现机器回答对人类的帮助，而且难以作弊，非常客观。

基准测试，可以参考huggingface的： https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard 。
而人类评估竞技场模式，也可以参考国外： https://lmarena.ai 的，或者咱们国内的平替思南平台： CompassArena

哪些国产大模型位于领先位置？

入上面标红的那些，都是在第一梯队的国产大模型公司

典型的有：

通义千问 Qwen :

阿里的作品，最新开源的QWen 2.5能力甚至能追的上商业版本。而且提供了全尺寸的模型，对私有化部署非常友好。

零一万物：

李开复领导的团队构建，虽然去年被评测说套壳llama，不过目前看其商业版本的答题质量还是不错的。

智谱清言：清华的团队，大模型创业公司里面很能打的一位

如何选择适合业务需求的大模型？

我们建议，可以从如下维度进行判断：

榜单排名：选择在权威排行榜上排名前20的大模型，这些模型通常性能更稳定、功能更全面。对于特定需求如代码编写或图像识别，可以优先考虑细分领域的佼佼者，它们往往在相关任务上有更强的专业性和更高的准确率。

国情适应性：考虑到数据安全与合规要求，国内用户应倾向于使用本土开发的AI产品，这样不仅能够更好地满足法律法规的要求，还能避免因网络问题导致的服务不稳定情况。

部署灵活性：根据业务场景的不同，选择支持公有云API调用及私有化部署两种方式的大模型非常重要。前者适合快速集成且成本可控的应用场景；后者则为对数据隐私有严格要求的企业提供了更加安全可靠的解决方案。

成本效益分析：公开API服务的价格相对透明易比较，而针对需要本地安装运行的情况，则需综合考量硬件投入与维护费用等因素来决定最合适的方案。一般来说，在满足业务需求的前提下，选择体积较小但效能相当的模型有助于降低总体拥有成本。

通义Qwen表现出色且开放，是我们的推荐之选

通义Qwen是目前最为开放的选择之一，它不仅提供了全尺寸的多模态大模型开源版本，并且在多个关键评测指标如MMLU、TheoremQA、GPQA中表现优异，甚至超越了Llama 3 70B，在Hugging Face的Open LLM排行榜上名列前茅。

在国内的大模型竞争中，通义处于绝对的第一梯队。

其Qwen 视觉特化版在视觉竞技场里面也是妥妥第一梯队。

此外，通义还提供100万免费token供用户使用，使得无论是API调用还是自建服务的成本都相对较低。特别值得一提的是，Qwen及其视觉语言模型Qwen VL在国内开源榜单上的排名均为第一，展示了其强大的综合竞争力。

原文地址：https://blog.csdn.net/whisperzzza/article/details/143627818

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：ArcGIS Pro SDK （二十四）任务
下一篇：imageio 图片转mp4

前端Web用户 token 持久化
的有效期会持续一段时间，在这段时间内没有必要重复请求token，但是本身是基于内存的管理方式，刷新浏览器Token会丢失，为了避免丢失需要配置持久化进行缓存解释：浏览器本地存储区域，类似。
阅读更多2024-11-08
Oracle 23AI创建示例库
多年来，Oracle 一直使用简单的数据库模式 SCOTT 及其两个突出的表 EMP 和 DEPT，用于文档和培训中的各种示例。但不少小伙伴并不知道如何创建这些示例数据，其实Oracle官方上就有提供
阅读更多2024-11-08
仓库（Repository）
仓库（Repository）是一个设计模式，用于封装数据访问逻辑，提供一个高层的抽象，使得领域对象可以像操作内存中的集合一样操作持久化数据。封装数据访问逻辑：隐藏数据存储的细节，如数据库查询、事务管理
阅读更多2024-11-08
PyQt5实战——翻译器的UI页面设计以及代码实现（七）
基于PyQt开发的脚本集合包，本文主要讲述翻译器的UI设计以及代码实现，该翻译器中，我们会使用一些本系列前文没有提及的控件以及模型类
阅读更多2024-11-08
CSS——选择器、PxCook软件、盒子模型
博客内容如下：选择器包括结构伪类和伪元素选择器。PxCook 有开发和设计面板。盒子模型由内容、内边距、边框、外边距组成，可设置边框样式、内边距多值、尺寸计算方式、处理外边距合并和塌陷问题、设置元素溢
阅读更多2024-11-08
以梧桐数据库为例分析分组排序并取每组第二大数值对应的用户的SQL实现
在运营商业务中，经常有各种各样的业务分类统计，出各类型任务的业务报表数据，比如，“统计下9月份各地市在各网格上任我选产品订购数量的分组排序状况”。现在有一个业务场景，要求计算8月份各地市在各网格上任我
阅读更多2024-11-08
CX_SY_OPEN_SQL_DB
select语句使用in s_objnr (选择表)使用这类条件会容易出现这类错误在ABAP中，SELECT...IN语的IN条件并没有一个明确的“最大”限制，而是受到多种因素的影响，包括数据库的限
阅读更多2024-11-08
Java学习路线：Maven（四）Maven常用命令
一般来说，项目编写完成后，要么作为Jar依赖供其他项目使用，要么就作为一个和可执行程序在控制台运行。可以使用package命令对项目进行打包。这些生命周期实际上是Maven的一些插件，每个插件都有各自
阅读更多2024-11-08
【玩转 Postman 接口测试与开发2_006】第六章：Postman 测试脚本的创建（中）：脚本的位置与执行顺序、AI助手及私有模块的使用
本篇根据《API Testing and Development with Postman》全新第2版第6章自学笔记整理，为该章节的中篇，主要梳理了Postman中不同层级的测试脚本的执行顺序，并根据
阅读更多2024-11-08
[卷积神经网络]使用YOLOv11训练自己的模型
使用YOLOv11训练自己的数据
阅读更多2024-11-08