Claude 3正式发布，性能超越GPT-4，免费使用且支持中文！

🕗 发布于 2024-03-07 10:53 人工智能

Claude 3正式发布，性能超越GPT-4，免费使用且支持中文！

前言
评测展示
Claude3功能对比
后记

前言

在3月4日晚，著名的生成式AI平台Anthropic在其官方网站上正式发布了Claude 3系列多模态大模型。这个系列包括三个版本：Haiku、Sonnet和Opus。

其中，Claude 3 Opu 为 Claude 3 系列模型的最强版本，具有接近人类的理解能力，可以灵巧地处理开放式提示和复杂的任务，根据官方给到的资料，其性能全面超过了 GPT-4。
在这里插入图片描述

Opus: 在多个维度上超过了OpenAI的GPT-4，包括研究生水平专家推理、基础数学、本科水平专家知识、代码等10个方面。
Haiku: 这个模型特别注重效率，能够在短短3秒内阅读一份包含10,000
tokens的论文。这种高速的阅读能力使其在需要快速处理大量信息的任务中具有明显优势。
Sonnet: 相比于之前的Claude 2/2.1版本，Sonnet更加智能，特别适合用于知识检索等任务。

这三个模型都支持高达20万的上下文窗口，能够处理和理解大量的背景信息。Anthropic还表示，这些模型实际上支持高达100万的上下文，但由于这会消耗巨大的AI算力，因此这一功能目前只对特定用户开放。

评测展示

在这里插入图片描述
根据最新的评测结果，Claude 3 Opus 在多数常用的AI系统评估基准上展现了卓越的性能，超越了同类产品。
该模型在以下关键领域取得了显著优势：

本科生水平的专家知识 (MMLU): 在这项评估中，Claude 3 Opus 展示了其深厚的专业知识储备，超过了其他竞争产品。
研究生水平的专家推理 (GPQA): 该模型在高级推理任务中的表现同样出色，证明了其在复杂逻辑和推理方面的高级能力。
基础数学 (GSM8K): 在数学问题解决方面，Claude 3 Opus 也展现出了强大的能力。

所有 Claude 3 模型在分析和预测、细微内容创建、代码生成以及西班牙语、日语和法语等非英语语言对话方面的能力都得到了提高。

Claude3功能对比

指令遵循能力大幅度提升

Claude 3模型在指令遵循能力方面取得了显著的改进。与之前的Claude模型相比，该模型在处理安全性问题上表现得更为灵活。以前的版本可能因缺乏语境理解而频繁拒绝回答某些问题，但Claude 3在这方面做出了重大调整。
在这里插入图片描述

根据Anthropic的说法，Claude 3在识别真正违反内容政策的问题方面表现得更加细致和准确。它能够更好地区分哪些请求是真正有问题的，而哪些是无害的。这意味着与其他几代模型相比，如Opus、Sonnet和Haiku，Claude 3在面对接近系统边界的提示时拒绝回答的可能性明显降低。

在这里插入图片描述

200K上下文窗口和近乎完美的记忆

Claude 3系列型号在发布时，将初始提供200K的上下文窗口。然而，这三种模型版本（Opus、Sonnet和Haiku）都具有处理超过100万token币输入的能力。

在处理长篇上下文提示时，模型需要具备强大的记忆回忆能力。为此，“大海捞针”（NIAH）评估方法被用来测试模型从大量数据中准确回忆信息的能力。这个基准测试通过在每个提示中使用30个随机针/问题对之一，并在不同众包文档库上进行测试，以增强其稳健性。

Claude 3 Opus在这个测试中表现出色，不仅实现了近乎完美的召回率，超过99%的准确率，而且在某些情况下，它甚至能够识别出评估本身的局限性，例如识别出“针”这句话似乎是人为插入到原文中的。

在这里插入图片描述

近乎即时的结果

Claude 3 型号可以支持实时客户聊天、自动完成和数据提取任务，在这些任务中，响应必须是即时和实时的。

Haiku 是市场上最快、最具成本效益的智能类别模型。它可以在不到三秒的时间内读取有关arXiv（~10k个代币）的信息和数据密集的研究论文，其中包含图表和图形。发布后，我们预计会进一步提高性能。

对于绝大多数工作负载，Sonnet 比 Claude 2 和 Claude 2.1 快 2 倍，具有更高的智能水平。它擅长需要快速响应的任务，例如知识检索或销售自动化。Opus 提供与 Claude 2 和 2.1 相似的速度，但智能水平要高得多。

强大的视觉能力

Claude 3 型号具有与其他领先型号相媲美的复杂视觉功能。它们可以处理各种视觉格式，包括照片、图表、图形和技术图表。我们特别高兴能为我们的企业客户提供这种新模式，其中一些客户拥有多达 50% 的知识库以各种格式编码，例如 PDF、流程图或演示幻灯片。
在这里插入图片描述

后记

官方人员回答：
我们认为模型智能不会接近其极限，我们计划在未来几个月内频繁发布 Claude 3 模型系列的更新。我们也很高兴发布一系列功能来增强我们模型的功能，特别是对于企业用例和大规模部署。这些新功能将包括工具使用（又名函数调用）、交互式编码（又名 REPL）和更高级的代理功能。

随着我们不断突破 AI 功能的界限，我们同样致力于确保我们的安全护栏跟上这些性能飞跃的步伐。我们的假设是，处于人工智能发展的前沿是引导其走向积极社会成果的最有效方式。

参考链接：
https://www.anthropic.com/news/claude-3-family

原文地址：https://blog.csdn.net/weixin_50804299/article/details/136498419

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：采集拼多多批发商家电话的爬虫工具
下一篇：Claude3、Gemini、Sora VS GPT-4：AI技术如何助力科研与产业发展？

Maven(22)如何使用Maven进行单元测试？
Maven提供了内置的支持来进行单元测试，主要通过插件实现。
阅读更多2024-11-05
千帆AppBuilder：让AI智能对话轻松融入您的网站，提升用户体验新高度！
千帆AppBuilder：让AI智能对话轻松融入您的网站，提升用户体验新高度！
阅读更多2024-11-05
TMDOG的Gin学习笔记_01——初识Gin框架
通过本篇学习笔记，我们初步了解了gin的基本用法，包括如何安装、创建简单的Web应用以及整合gorm进行数据库操作。我们实现了一个用户管理的RESTful API，能够完成基本的增删改查功能。我们发现
阅读更多2024-11-05
java-web-day11-登录校验JWT令牌+过滤器
-filter是java web中的组件, 但不是springboot中提供的组件,防止token被篡改, 对header,payload和秘钥三部分,进行数字签名。1.jwt技术会对1,2部分的原始
阅读更多2024-11-05
3dsMax 展管道UV
3dsMax 展管道UV
阅读更多2024-11-05
华为HarmonyOS打造开放合规的广告生态 - Banner广告
华为HarmonyOS打造开放合规的广告生态 - Banner广告
阅读更多2024-11-05
10款音视频转文字工具体验记！！！
如今互联网数据的便捷，记录不仅仅只有文字的形式，还有视频的形式！但是有时候，我们只有视频，却需要文字文档，那要怎么办呢？今天我要和大家分享一下我使用过的那些语音转文字工具的体验感受。语音转文字工具对我
阅读更多2024-11-05
单元/集成测试解决方案
单元/集成测试旨在证明被测软件实现其单元/架构设计规范、证明被测软件不包含非预期功能。经纬恒润测试团队拥有丰富的研发经验、严格的流程管控，依据ISO26262/ASPICE等开展符合要求的单元/集成测
阅读更多2024-11-05
自监督强化学习：对比预测编码（CPC）算法深度解析
自监督强化学习是一种结合自监督学习与强化学习优势的新兴方法。它利用数据的内在结构生成监督信号，从而减少对外部标签的依赖，使智能体能够在无标签或标签稀缺的环境中学习有效的表示。CPC算法则是自监督强化学
阅读更多2024-11-05
AES_ECB算法C++与Java相互加解密Demo
AES是一种对称加密算法，算法秘钥长度可为128位(16字节)、192位(24字节)、256位(32字节)。加密模式分为ECB、CBC、CTR等，其中ECB模式最简单够用。现给出ECB模式下C++和J
阅读更多2024-11-05

Claude 3正式发布，性能超越GPT-4，免费使用且支持中文！

Claude 3正式发布，性能超越GPT-4，免费使用且支持中文！

前言

评测展示

Claude3功能对比

指令遵循能力大幅度提升

200K上下文窗口和近乎完美的记忆

近乎即时的结果

强大的视觉能力

后记

相关文章