最新版的GPT-4.5-Turbo有多强

🕗 发布于 2024-04-20 13:42 ai AI编程 AI写作 AI作画

OpenAI再次用实力证明了，GPT依然是AI世界最强的玩家！在最新的AI基准测试中，OpenAI几天前刚刚发布的GPT-4-Turbo-2024-04-09版本，大幅超越了Claude3 Opus，重新夺回了全球第一的AI王座：

值得一提的是，这个版本不是一个普通的测试版本，而是作为一个正式版本GPT-4-Turbo发布的。

这也是GPT-4-Turbo系列首次发布正式版，足以看出这个版本的份量。网友甚至纷纷直接将其改名为GPT-4.5-Turbo了。

笔者第一时间通过国内最稳、更新最快的AI镜像站AskManyAI进行了GPT-4.5-Turbo体验。

附AskManyAI地址（GPT-4、Claude3、Gemini都是最新版本）：

https://askmanyai.cn

值得一提的是，AskManyAI的有个独特的AI混战模式，你的一个问题，可以指定多个最强的AI同时给你回答，简直就是做大模型测试的理想环境：

好了，话不多说，我们这就开始测评了！

最新版GPT-4.5-Turbo 大战 Claude 3 Opus

代码能力测试

首先我们来看看代码debug方面的表现：

这是一个很隐蔽的bug，Claude 3 Opus完全没找到bug在哪，其实这个bug，以前的GPT-4也找不到。但是刚刚更新的这个GPT-4.5-Turbo竟然找到了bug！

而且给到了非常正确的修复bug后的代码！

简直惊呆我了，这是第一个能修复这个bug的AI。

附AskManyAI地址（以上案例可在AskManyAI直接复现）：

https://askmanyai.cn

科研学术能力测试

然后我们来看看专业学术问题的表现。

我们这次加大难度，上传一个生物样品图片给AI：

然后我们在AskManyAI网站同时选中Claude、GPT和Gemini这三个地表最强的多模态AI，看他们对这个图片分析的结果：

这个case在旧版的GPT-4-Turbo里是个回答错误的badcase，当时明显不如Claude-3 Opus。但几天前的GPT-4-Turbo更新后，竟然回答对了！

不得不表扬下，AskManyAI这个网站的更新速度也真的够快啊！跟官方基本同速了。

附AskManyAI地址（以上案例可在AskManyAI直接复现）：

https://askmanyai.cn

我们再换一个专业问题：

关于Sora技术原理的解释，所有的AI中，只有最新的GPT-4没有出现知识性的错误，Kimi和Gemini的错误是最离谱的，竟然说Sora是GAN的架构。。。而Claude-3的视频片段选择这个地方的讲解出现了错误——Sora是生成式的，不是检索式的。

我猜测这可能是因为只有GPT-4的知识库已经更新到了2024年的4月份。而Sora是2月份刚发布的，所以只有GPT-4学到了这方面的知识。

最新版GPT-4完胜！

附AskManyAI地址（以上案例可在AskManyAI直接复现）：

https://askmanyai.cn

营销能力测试

这次测试加大难度，直接丢给AI一个产品文档PDF，让他去生成一篇营销文案和搜索SEO的标题。

同样，这次GPT-4完胜！

AI写作能力测试

最后测试下AI写作能力！

写作的测试结果就要见仁见智了，每个人的看法都可能不一样。

这里面我最喜欢的是GPT-4和Claude-3写的文章，但Gemini Pro的写作速度非常快，不到5秒就写完了全篇。而GPT-4和Claude-3则写了一分钟不止。

附AskManyAI地址（以上案例可在AskManyAI直接复现）：

https://askmanyai.cn

好了，今天的评测就到这里了。你们更喜欢哪个AI呢？

原文地址：https://blog.csdn.net/xixiaoyaoww/article/details/137976874

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：记录一下hive启动metestore服务时报错
下一篇：数据结构：堆

管家婆工贸ERP BR039.采购订单关联MRP明细表
ⅲ. 由于以上报表是复制系统原有功能的基础上增加定制功能，所以如果在以后版本升级中复制参考的系统中的原报表增加了新功能，该定制插件虽然可以支持升级到新版本，但是升级后不包含新版本中增加的新功能，如需变
阅读更多2024-11-17
3271.哈希分割字符串
这个问题通过简单的字符串处理和数学运算实现了字符串的哈希转换。算法时间复杂度为 O(n)，其中 n 是字符串的长度。这种方法高效且易于理解，非常适合用来解决类似的字符串处理问题。
阅读更多2024-11-17
Java核心知识体系-线程管理
在Java程序开发中，线程管理是一个至关重要的方面。它涉及到如何有效地创建、调度、同步和销毁线程，以确保程序的性能、响应性和稳定性。以下是对Java线程管理的详细探讨。
阅读更多2024-11-17
WebChromeClient 方法分类及其功能
`WebChromeClient` 是 Android `WebView` 的关键组件，处理网页交互事件。本文介绍了其主要回调方法及注意事项，帮助开发者提升 Web 应用的用户体验。
阅读更多2024-11-17
服务端高并发分布式结构进阶之路
服务端高并发分布式结构演进之路
阅读更多2024-11-17
物理hack
手把手教你黑进你朋友的电脑，然后给他关机，哈哈哈，来玩吧网络安全红队（成长ing）,学习分享
阅读更多2024-11-17
R 语言科研配色 --- 第 15 期
在使用 R 语言进行科研绘图时，颜色的选择是一件让人特别纠结的事情。本系列文章介绍了 R 语言科研绘图时常用的一些配色。本账号内所有原创内容，未经允许禁止转载和用于商业用途，违者必究。为了解决 R 语
阅读更多2024-11-17
【Android、IOS、Flutter、鸿蒙、ReactNative 】静态数组
Android Java 静态数组、Android Kotlin 静态数组、IOS Object-c 静态数组、IOS Swift 静态数组、鸿蒙静态数组、React Native 静态数组。
阅读更多2024-11-17
蓝牙 HFP 协议详解及 Android 实现
蓝牙免提协议（HFP，Hands-Free Profile）是用于支持免提通话的标准协议，广泛应用于车载蓝牙系统、蓝牙耳机等设备。HFP提供了拨号接听电话挂断电话以及语音拨号等功能，同时支持同步手机电
阅读更多2024-11-17
lua实现雪花算法
雪花算法（Snowflake Algorithm）是一种用于生成唯一ID的分布式生成算法，最初由Twitter开发。它的主要目的是在分布式系统中生成唯一的、时间有序的ID，这些ID通常用于数据库的主键
阅读更多2024-11-17

最新版的GPT-4.5-Turbo有多强

相关文章