GPT52上线全面超越ClaudeOpus45及Gemimi30Pro

OpenAI 终于,亮剑了。

GPT52上线全面超越ClaudeOpus45及Gemimi30Pro-2

就在刚刚,OpenAI 正式宣布 GPT-5.2 全面上线:

GPT52上线全面超越ClaudeOpus45及Gemimi30Pro-3

这次一口气推出三个版本: GPT-5.2 Instant、GPT-5.2 Thinking 和 GPT-5.2 Pro 。

这一次,可以说是终于把 Claude Opus 4.5 和 Gemini 3 Pro 一起按在地上使劲摩擦了!

全方位碾压

先来看图,GPT-5.2 Thinking 在几乎所有基准测试上都拿下了最高分:

GPT52上线全面超越ClaudeOpus45及Gemimi30Pro-4

SWE-Bench Pro(软件工程): 55.6% ,Claude Opus 4.5 是 52.0%,Gemini 3 Pro 是 43.3%。

GPT52上线全面超越ClaudeOpus45及Gemimi30Pro-5

GPQA Diamond(科学问题): 92.4% ,比 GPT-5.1 Thinking 的 88.1% 又高了一截。

AIME 2025(竞赛数学):直接打到 100% ,满分。Claude Opus 4.5 是 92.8%,Gemini 3 Pro 是 95.0%。

ARC-AGI-2(抽象推理): 52.9% ,而 Claude Opus 4.5 只有 37.6%,Gemini 3 Pro 是 31.1%。

FrontierMath(高等数学 Tier 1-3): 40.3% ,Gemini 3 Pro 只有 37.6%。

数据展示出:

GPT-5.2 Thinking 在推理能力上已经拉开了代差。

人类专家水平

最为值得关注的,是 GDPval 的评测。

GPT52上线全面超越ClaudeOpus45及Gemimi30Pro-6

GDPval 专门测试 知识工作任务 ,覆盖 44 种职业,包括做 PPT、做表格、写文档这些实打实的办公场景。

GPT-5.2 Thinking 在这项测试中拿到了 70.9% 的胜率—— 这是 OpenAI 第一个达到人类专家水平的模型。

这什么概念呢?

就是说让 GPT-5.2 Thinking 和行业内的专业人士 PK,它赢了超过七成。

而上一代 GPT-5 Thinking 只有 38.8%,连专家水平线的一半都不到。

三个版本,各司其职

这次发布的三个版本定位很清晰:

GPT-5.2 Thinking 主打专业工作:

最先进的长上下文推理能力

表格创建、分析和格式化大幅提升

幻灯片制作能力初步增强

GPT52上线全面超越ClaudeOpus45及Gemimi30Pro-7

GPT52上线全面超越ClaudeOpus45及Gemimi30Pro-8

GPT-5.2 Instant 专为日常学习和工作设计:

保持了 GPT-5.1 温暖、有对话感的风格

版权声明:
作者:shadowrocket
链接:https://www.shadowrocket9.top/47.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>