OpenAI发布GDPval可真实评估现实世界经济价值ClaudeOpus41拿下第一
AI 被用来算经济账了!
刚刚,OpenAI 推出了 GDPval,一个专门评估 AI 在真实经济价值任务上表现的新基准。
这次,OpenAI 不玩虚的了,直接把 AI 拉到经济战场上——
看看你到底能创造多少 GDP!
◆ 从考试到干活 ◆
以前评估 AI,要么让它做数学题,要么让它写代码,就像让博士生去考高考。
现在不一样了,GDPval 直接从美国 GDP 贡献最大的 9 个行业 里挑出 44 种职业 ,让 AI 去做这些职业的真实工作。



<<< 左右滑动见更多 >>>
从软件开发到法律文书,从机械工程到护理计划, 总共 1320 个任务 (开源版本包含 220 个),每个任务都来自真实的工作场景。
这些任务并非随便找找找来的。
OpenAI 请来了平均有 14 年工作经验 的专业人士来设计任务。每个任务平均经过 5 轮专家审核 ,确保它真的代表了日常工作。
◆ Claude 暂时领先 ◆
评估结果出来了!
有意思的是, Claude Opus 4.1 表现最好 : 近一半的输出被评为与人类专家工作相当或更好。
OpenAI 大方地公布了这个自己并非第一的结果,倒是显得挺诚信啊。
自家的 GPT-5 则在准确性上表现突出,特别是在查找特定领域知识方面,而 Claude Opus 4.1 则在美观性上更胜一筹——文档格式、幻灯片布局这些方面做得更好。
虽然不是第一,但其模型的进步速度则是很让人振奋:
OpenAI 的前沿模型在一年内几乎翻倍了胜率 。
从 GPT-4o 到 GPT-5,性能提升超过一倍,呈现清晰的线性增长趋势。
◆ 速度和成本的碾压 ◆
GDPval 还揭示了另一个重要事实:
前沿模型完成任务的速度比人类专家 快 100 倍 ,成本只有 百分之一 。
当然,这只是纯粹的模型推理时间和 API 计费,没有算上人类监督、迭代和集成等实际工作中需要的步骤。
但即便如此,在模型表现特别强的任务子集上,先让模型试试再让人类介入,确实能省时省钱。
◆ 真实工作的复杂性 ◆
GDPval 的任务设计也很讲究。
它们并非简单的文本提示,而是带有 参考文件和上下文 ,交付物包括文档、幻灯片、图表、电子表格和多媒体内容。
每个任务都基于真实的工作产品,可能是一份法律简报、一张工程蓝图、一段客户支持对话,或者一份护理计划。
这种现实感让 GDPval 成为更贴近实际的测试。
◆ 职业选择逻辑 ◆
OpenAI 选择这 44 个职业的方式也同样很有讲究。
他们先从美国联邦储备银行圣路易斯分行的数据中找出对 GDP 贡献超过 5% 的行业,然后从每个行业中选出工资总额贡献最大的 5 个职业。
关键是,这些职业必须是 知识工作为主 。
他们用 O*NET 数据库(美国劳工部赞助的职业信息数据库)来判断,如果一个职业至少 60% 的任务不涉及体力劳动,就算作「 以知识工作为主 」。
这个 60% 的门槛是 GDPval 第一版的起点,聚焦于 AI 可能对现实生产力产生最大影响的职业。
◆ 未来改进方向 ◆
OpenAI 称,GDPval 还只是早期版本。
目前的评估是 一次性的 ,没有捕捉到需要建立上下文或通过多次修改来改进的情况。
比如根据客户反馈修改法律简报,或发现异常后迭代数据分析。
现实世界中,任务并不总是有明确的提示和参考文件。
律师可能需要在决定起草法律简报之前,先处理模糊性并与客户交谈。
OpenAI 计划扩展 GDPval,包括更多职业、行业和任务类型,增加交互性,以及更多涉及处理模糊性的任务,长期目标是更好地衡量多样化知识工作的进展。
◆ 开放合作 ◆
OpenAI 还在积极寻求社区参与。
如果你是行业专家,可以申请为 GDPval 做贡献;如果你是 OpenAI 的客户,也可以参与未来的 GDPval 评估。
他们还开源了 GDPval 的黄金子集和公共评分服务,让其他研究者可以在此基础上继续研究。
评估工具可以在 evals.openai.com 上找到。
此外,OpenAI 还训练了一个「 自动评分器 」——
一个 AI 系统,用来预测人类专家如何评判特定的交付物。虽然还不如专家评分可靠,但作为实验性研究服务已经发布。
此次GDPval 的推出,也标志着 AI 评估进入了新阶段。
从学术测试到经济价值 ,这将让我们能更清楚地看到 AI 对现实世界的影响。
如 OpenAI 所说,历史表明,从互联网到智能手机,重大技术从发明到广泛应用通常需要十多年时间。
像 GDPval 这样的评估,有助于将关于未来 AI 改进的讨论建立在 证据而非猜测 的基础上。
(注:本文由Claude Code 排版)
版权声明:
作者:shadowrocket
链接:https://www.shadowrocket9.top/83.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论