ClaudeSonnet45发布30小时自主编码刷新行业纪录
编程智能体迎来质变时刻!
Anthropic 刚刚发布的 Claude Sonnet 4.5,不仅宣称是世界上最强的编程模型,更是将自主编码时间从 GPT-5-Codex 的 7 小时推进到了 30 小时 。
这成为智能体能力的一次根本性飞跃。
性能数据全面碾压
在 SWE-bench Verified 测试中,Claude Sonnet 4.5 解决了 82% 的 500 个经人工验证的 GitHub 问题,超过了 GPT-5(74.9%)和 GPT-5 Codex(74.5%)。
这个基准基于实际 GitHub 问题与经过测试和人工确认的解决方案,能够有效衡量模型的实际 bug 修复能力。
更令人震撼的是它的持久力——
在测试中成功构建了约 11,000 行代码 的 Slack 风格聊天应用,连续运行超过 30 小时没有中断。这意味着模型在保持计划、状态和高效输出方面实现了质的突破。
根据 Kilian Lieret 的最新评测,Sonnet 4.5 在 SWE-bench 上还创下了 70.6% 的新纪录。虽然每个 token 的价格与 Sonnet 4 相同,但解决问题时需要更多计算步骤,导致整体运行成本有所提高。
Replit CEO Amjad Masad(@amasad)指出:
智能体自主工作的时间从最初的 2 分钟提升到了 6 小时,现在更是达到 30 小时,这标志着从传统软件向数字员工的转变。
在 OSWorld 评测中,Sonnet 4.5 以 61.4% 的得分刷新了计算机使用和智能体领域的最高记录,比前代模型提升了 19.2 个百分点。
Claude Code 全面升级
新版本引入了 Claude Code 的全面升级:终端界面焕然一新,新增 VS Code 插件让 Claude 直接融入你的 IDE。
更重要的是新增的「检查点」功能,支持通过 /rewind 命令撤销不满意的输出,还可以通过 Ctrl+R 快速搜索并编辑提示词。
新增的 /usage 命令方便用户实时查询会话及周度使用额度,提升使用透明度与管理效率。引入的「tab」键设置可以切换默认自动思考模式,确保 Claude Code 在每一步交互中主动进行思考。
值得注意的是,原来的 Claude Code SDK 现已更名为 Claude Agent SDK ,也展示出 A 厂从专注编码智能体拓展到支持 构建任何通用智能体 的野心转变。
文件处理能力
Claude 现在能用代码分析数据、创建文件并实现可视化,支持从电子表格、文档到 PDF 及幻灯片的多种文件格式的创建与编辑。这些功能已向所有付费用户开放预览。
Chrome 扩展也已经向上月加入等待名单的用户全面开放,我也提前使用了,见前文: Claude Chrome 插件使用体验:强大,但有点慢
根据 Dan Shipper(@danshipper)的测试体验,Sonnet 4.5 比 Opus 更智能、更快速,执行速度提升约 2 倍,运行成本降低约 5 倍。
他的详细评测可见:https://every.to/vibe-check/vibe-check-claude-sonnet-4-5
API 长时任务革命
为了应对长时间运行的任务,Claude API 新增了两项关键能力:
上下文编辑 功能能自动清理陈旧的上下文信息,就像垃圾回收机制一样高效。当会话接近 token 限制时自动清理无用数据。
记忆工具 (测试版)则允许在上下文窗口之外存储和调用信息,实现跨模块和跨会话数据持续性,支持复杂大型代码库的重构工作。
这些功能让智能体能够处理之前无法完成的长期任务,比如长时间数据拉取、多服务配置以及代码生成与验证的连续执行。
实际应用表现出色
Factory AI 的测试显示,Sonnet 4.5 在文件编辑准确性、环境感知能力和响应速度上都有显著提升。在处理简单快速查询时响应更灵敏,不会过度推理复杂化问题。CEO Matan Grinberg(@matanSF)称这是「编码领域的重要变革」。
Cognition 团队基于 Sonnet 4.5 重构了智能软件工程师 Devin,预览版速度提升超过 2 倍,在内部 Junior Developer 评测中性能提升了 12%。
详细分享见:
https://cognition.ai/blog/devin-sonnet-4-5-lessons-and-challenges
价格保持不变
让人意外的是,即便性能大幅提升,Claude Sonnet 4.5 的定价依然与 Sonnet 4 保持一致——输入每百万 token 3 美元 ,输出 15 美元 。
对于超过约 20 万 token 的更大上下文,价格分级至输入 6 美元/百万 token,输出 22.5 美元/百万 token。
通过提示缓存最高可节省 90%,批处理可节省 50%。相比 Opus 系列(输入 15 美元/百万 token,输出 75 美元/百万 token),Sonnet 系列具有显著成本优势。
定价详情:https://www.anthropic.com/pricing
Claude Sonnet 4.5 现已在 Claude 开发者平台、Amazon Bedrock 和 Google Cloud Vertex AI 全面上线。
五天限时实验:Imagine with Claude
Anthropic 还推出了一个名为「Imagine with Claude」的研究预览——

Claude 能实时生成软件,没有预设功能,没有预写代码,一切都是动态创建的。

这个实验仅向 Max 用户开放 5 天,我也第一时间用它制作了一个 news feed:

体验地址:https://claude.ai/imagine
集成不只是「一行代码」的事
Cognition 团队的 Andrew Gao(@itsandrewgao)分享了将 Sonnet 4.5 集成到实际应用中的经验。
他强调,这绝不是简单的模型字符串替换。
模型展现出了有趣的「元行为」:当它认为自己拥有大量上下文时会更「健谈」,随着上下文消耗会变得更简洁。
它甚至会根据剩余的上下文长度调整并行调用的数量,尽管对上下文容量的估计并不总是准确,这类似于早期大规模语言模型(如 GPT-3)对单词字母识别的不完善表现。
安全性的白盒审计
这次 Anthropic 还首次对前沿大模型进行了白盒审计,运用可解释性技术来「读取模型的思维」。
研究团队包括 Jack Lindsey(@Jack_W_Lindsey)、Sam Bowman(@sleepinyourhat)等人。
研究发现,Sonnet 4.5 在「评估意识」方面达到了 58% ,远高于 Opus 4.1 的 22%。
模型在知道自己被测试时会表现得更谨慎,有害行为率降至约 13% ,显著优于 Opus 4.1(29%)、Sonnet 4(24%),以及其他领先模型如 Gemini 2.5 和 GPT-4o(约 42-43%)和 GPT-5(16%)。
完整的审计结果详见 Claude Sonnet 4.5 系统卡:https://assets.anthropic.com/m/12f214efcc2f457a/original/Claude-Sonnet-4-5-System-Card.pdf
各平台迅速跟进
Cursor、Perplexity、LlamaIndex 等平台已经第一时间集成了 Claude Sonnet 4.5。
Perplexity 为 Pro 和 Max 订阅用户推出了 Claude Sonnet 4.5 及 4.5 Thinking 两款版本。
Figma 也开始分阶段推出集成了 Sonnet 4.5 的设计工具,Dylan Field(@zoink)分享的演示视频展示了其在设计工具中的交互流程:
LlamaIndex 团队宣布即刻支持 Claude Sonnet 4.5,实现 Day 0 兼容。
演示代码及运行笔记本:https://colab.research.google.com/drive/1TeO9O49am3F-2wyLKzqlc0adM124BJZk
真实世界的应用案例
沃顿商学院的 Ethan Mollick 教授(@emollick)分享了一个惊人的案例:Claude Sonnet 4.5 成功基于原始数据和论文内容,完整复现了一篇已发表的经济学研究。
这是要开始上手真正的研究工作了。
详细分析见:https://www.oneusefulthing.org/p/real-ai-agents-and-real-work
他还指出,Sonnet 4.5 在金融和统计领域的任务能力上实现了显著跃升,这一提升区别于主流关注编码任务的趋势。
多个版本的演进对比
Anthropic 首席产品官 Mike Krieger(@mikeyk)分享了一段视频,展示了多个版本的 Claude 智能体尝试克隆 Claude.ai 的过程,直观展现了从两年前到现在的能力飞跃。
Emmanuel Ameisen(@mlpowered)评价:两年前 Claude 的代码生成能力尚处于初级阶段,去年有了较大进步,而今年的 Claude 4.5 已能够自动生成并搭建完整产品。
版权声明:
作者:shadowrocket
链接:https://www.shadowrocket9.top/80.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论