刷新认知!国产大模型已超GPT-4
相信大家与我一样都很关注国内AI的进展,尤其是距离美国的差距。确实,从目前的排行榜来看,我们距离美国最先进的公司还有4~8个月的差距。
但有一个很重要的认知应该被刷新:中国的大模型已经超越了GPT-4在2023年的版本,并且与GPT-4在8月份的版本处于同一水平。这表明中国的大模型已经完全可用,中国AI正在赶上甚至超越国际领先水平!
GPT-4 作为OpenAI 第一个破圈的版本,已经被众多国内对手超越
去年,OpenAI发布了GPT-4,这是其迄今为止最出圈的版本。GPT-4于2023年3月正式推出,在多项关键能力上超越了前代GPT-3.5,特别是在复杂指令理解、多步推理以及生成内容的质量和准确性方面有了显著提升。
作为OpenAI实际商用中最成功的版本,GPT-4几乎能满足用户在各种场景下的需求,从编写代码到创作故事,再到解决复杂的逻辑问题等,展现了强大的通用性和适应性。
可以看到,在目前最好的评测 ,大模型竞技场模式下,国产模型也有智谱清言、零一万物和阿里通义千问 Qwen 已经能排到前20。
超越众多去年发布的gpt4的版本,而且分数差距距离第一梯队都不远。
我们还能看到,国产开源模型 千问QWen 2.5 都已经超越了去年发布的众多GPT4版本,甚至距离阿里商业化版本 QWen-Max都差距不大,可见其开放程度非常高。
背景知识:大模型能力评估方法概述
大模型本身的能力横评有两个主要方式。
一种是“基准测试”或“考试模式”,其核心思路是通过一系列预设的固定问题来评估模型在特定任务上的表现,简单说就是一组QA,Q问大模型,看A回答的怎么样 。 分不同的题集,如数学推理、常识理解等。常见的基准测试包括:GSM-8K(侧重于数学应用题求解)、MMLU(多学科知识综合测评)、TheoremQA(定理证明相关的问题)以及GPQA(涉及广泛领域的一般性问题)。
虽然这些测试因题目固定而可能被“刷分”,但依然提供了有价值的对比数据。
另一种是“人类评估”或“竞技场模式”,此模式下,对于同一个问题,两个不同模型各自给出答案,然后由真人根据答案的质量、准确性和自然度等因素评判哪一个更优。这种方法更加贴近实际使用场景,并且由于问题的开放性和对人的友好程度较高,因此结果往往与基准测试相吻合。
从原理来说,最可信的测试,就是人类评估竞技场模式,这个模式可以非常客观的体现机器回答对人类的帮助,而且难以作弊,非常客观。
基准测试,可以参考huggingface的 : https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard 。
而人类评估竞技场模式,也可以参考国外 : https://lmarena.ai 的,或者咱们国内的平替 思南平台 : CompassArena
哪些国产大模型位于领先位置?
入上面标红的那些,都是在第一梯队的国产大模型公司
典型的有 :
通义千问 Qwen :
阿里 的作品 ,最新开源的QWen 2.5能力甚至能追的上商业版本。 而且提供了全尺寸的模型,对私有化部署非常友好。
零一万物:
李开复领导的团队构建,虽然去年被评测说套壳llama,不过目前看其商业版本的答题质量还是不错的。
智谱清言:清华的团队,大模型创业公司里面很能打的一位
如何选择适合业务需求的大模型?
我们建议,可以从如下维度进行判断:
- 榜单排名:选择在权威排行榜上排名前20的大模型,这些模型通常性能更稳定、功能更全面。对于特定需求如代码编写或图像识别,可以优先考虑细分领域的佼佼者,它们往往在相关任务上有更强的专业性和更高的准确率。
- 国情适应性:考虑到数据安全与合规要求,国内用户应倾向于使用本土开发的AI产品,这样不仅能够更好地满足法律法规的要求,还能避免因网络问题导致的服务不稳定情况。
- 部署灵活性:根据业务场景的不同,选择支持公有云API调用及私有化部署两种方式的大模型非常重要。前者适合快速集成且成本可控的应用场景;后者则为对数据隐私有严格要求的企业提供了更加安全可靠的解决方案。
- 成本效益分析:公开API服务的价格相对透明易比较,而针对需要本地安装运行的情况,则需综合考量硬件投入与维护费用等因素来决定最合适的方案。一般来说,在满足业务需求的前提下,选择体积较小但效能相当的模型有助于降低总体拥有成本。
通义Qwen表现出色且开放,是我们的推荐之选
通义Qwen是目前最为开放的选择之一,它不仅提供了全尺寸的多模态大模型开源版本,并且在多个关键评测指标如MMLU、TheoremQA、GPQA中表现优异,甚至超越了Llama 3 70B,在Hugging Face的Open LLM排行榜上名列前茅。
在国内的大模型竞争中,通义处于绝对的第一梯队。
其Qwen 视觉特化版在视觉竞技场里面也是妥妥第一梯队。
此外,通义还提供100万免费token供用户使用,使得无论是API调用还是自建服务的成本都相对较低。特别值得一提的是,Qwen及其视觉语言模型Qwen VL在国内开源榜单上的排名均为第一,展示了其强大的综合竞争力。
原文地址:https://blog.csdn.net/whisperzzza/article/details/143627818
免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!