ClaudeSonnet45发布30小时自主编码刷新行业纪录

shadowrocket • 2026年2月3日 am8:06 • shadowrocket, Shadowrocket下载, Shadowrocket官网, Shadowrocket节点, 小火箭

编程智能体迎来质变时刻！

Anthropic 刚刚发布的 Claude Sonnet 4.5，不仅宣称是世界上最强的编程模型，更是将自主编码时间从 GPT-5-Codex 的 7 小时推进到了 30 小时。

这成为智能体能力的一次根本性飞跃。

性能数据全面碾压

在 SWE-bench Verified 测试中，Claude Sonnet 4.5 解决了 82% 的 500 个经人工验证的 GitHub 问题，超过了 GPT-5（74.9%）和 GPT-5 Codex（74.5%）。

这个基准基于实际 GitHub 问题与经过测试和人工确认的解决方案，能够有效衡量模型的实际 bug 修复能力。

更令人震撼的是它的持久力——

在测试中成功构建了约 11,000 行代码的 Slack 风格聊天应用，连续运行超过 30 小时没有中断。这意味着模型在保持计划、状态和高效输出方面实现了质的突破。

根据 Kilian Lieret 的最新评测，Sonnet 4.5 在 SWE-bench 上还创下了 70.6% 的新纪录。虽然每个 token 的价格与 Sonnet 4 相同，但解决问题时需要更多计算步骤，导致整体运行成本有所提高。

Replit CEO Amjad Masad（@amasad）指出：

智能体自主工作的时间从最初的 2 分钟提升到了 6 小时，现在更是达到 30 小时，这标志着从传统软件向数字员工的转变。

在 OSWorld 评测中，Sonnet 4.5 以 61.4% 的得分刷新了计算机使用和智能体领域的最高记录，比前代模型提升了 19.2 个百分点。

Claude Code 全面升级

新版本引入了 Claude Code 的全面升级：终端界面焕然一新，新增 VS Code 插件让 Claude 直接融入你的 IDE。

更重要的是新增的「检查点」功能，支持通过 /rewind 命令撤销不满意的输出，还可以通过 Ctrl+R 快速搜索并编辑提示词。

新增的 /usage 命令方便用户实时查询会话及周度使用额度，提升使用透明度与管理效率。引入的「tab」键设置可以切换默认自动思考模式，确保 Claude Code 在每一步交互中主动进行思考。

值得注意的是，原来的 Claude Code SDK 现已更名为 Claude Agent SDK ，也展示出 A 厂从专注编码智能体拓展到支持构建任何通用智能体的野心转变。

文件处理能力

Claude 现在能用代码分析数据、创建文件并实现可视化，支持从电子表格、文档到 PDF 及幻灯片的多种文件格式的创建与编辑。这些功能已向所有付费用户开放预览。

Chrome 扩展也已经向上月加入等待名单的用户全面开放，我也提前使用了，见前文： Claude Chrome 插件使用体验：强大，但有点慢

根据 Dan Shipper（@danshipper）的测试体验，Sonnet 4.5 比 Opus 更智能、更快速，执行速度提升约 2 倍，运行成本降低约 5 倍。

他的详细评测可见：https://every.to/vibe-check/vibe-check-claude-sonnet-4-5

API 长时任务革命

为了应对长时间运行的任务，Claude API 新增了两项关键能力：

上下文编辑功能能自动清理陈旧的上下文信息，就像垃圾回收机制一样高效。当会话接近 token 限制时自动清理无用数据。

记忆工具（测试版）则允许在上下文窗口之外存储和调用信息，实现跨模块和跨会话数据持续性，支持复杂大型代码库的重构工作。

这些功能让智能体能够处理之前无法完成的长期任务，比如长时间数据拉取、多服务配置以及代码生成与验证的连续执行。

实际应用表现出色

Factory AI 的测试显示，Sonnet 4.5 在文件编辑准确性、环境感知能力和响应速度上都有显著提升。在处理简单快速查询时响应更灵敏，不会过度推理复杂化问题。CEO Matan Grinberg（@matanSF）称这是「编码领域的重要变革」。

Cognition 团队基于 Sonnet 4.5 重构了智能软件工程师 Devin，预览版速度提升超过 2 倍，在内部 Junior Developer 评测中性能提升了 12%。

详细分享见：

https://cognition.ai/blog/devin-sonnet-4-5-lessons-and-challenges

价格保持不变

让人意外的是，即便性能大幅提升，Claude Sonnet 4.5 的定价依然与 Sonnet 4 保持一致——输入每百万 token 3 美元，输出 15 美元。

对于超过约 20 万 token 的更大上下文，价格分级至输入 6 美元/百万 token，输出 22.5 美元/百万 token。

通过提示缓存最高可节省 90%，批处理可节省 50%。相比 Opus 系列（输入 15 美元/百万 token，输出 75 美元/百万 token），Sonnet 系列具有显著成本优势。

定价详情：https://www.anthropic.com/pricing

Claude Sonnet 4.5 现已在 Claude 开发者平台、Amazon Bedrock 和 Google Cloud Vertex AI 全面上线。

五天限时实验：Imagine with Claude

Anthropic 还推出了一个名为「Imagine with Claude」的研究预览——

Claude 能实时生成软件，没有预设功能，没有预写代码，一切都是动态创建的。

这个实验仅向 Max 用户开放 5 天，我也第一时间用它制作了一个 news feed：

体验地址：https://claude.ai/imagine

集成不只是「一行代码」的事

Cognition 团队的 Andrew Gao（@itsandrewgao）分享了将 Sonnet 4.5 集成到实际应用中的经验。

他强调，这绝不是简单的模型字符串替换。

模型展现出了有趣的「元行为」：当它认为自己拥有大量上下文时会更「健谈」，随着上下文消耗会变得更简洁。

它甚至会根据剩余的上下文长度调整并行调用的数量，尽管对上下文容量的估计并不总是准确，这类似于早期大规模语言模型（如 GPT-3）对单词字母识别的不完善表现。

安全性的白盒审计

这次 Anthropic 还首次对前沿大模型进行了白盒审计，运用可解释性技术来「读取模型的思维」。

研究团队包括 Jack Lindsey（@Jack_W_Lindsey）、Sam Bowman（@sleepinyourhat）等人。

研究发现，Sonnet 4.5 在「评估意识」方面达到了 58% ，远高于 Opus 4.1 的 22%。

模型在知道自己被测试时会表现得更谨慎，有害行为率降至约 13% ，显著优于 Opus 4.1（29%）、Sonnet 4（24%），以及其他领先模型如 Gemini 2.5 和 GPT-4o（约 42-43%）和 GPT-5（16%）。

完整的审计结果详见 Claude Sonnet 4.5 系统卡：https://assets.anthropic.com/m/12f214efcc2f457a/original/Claude-Sonnet-4-5-System-Card.pdf

各平台迅速跟进

Cursor、Perplexity、LlamaIndex 等平台已经第一时间集成了 Claude Sonnet 4.5。

Perplexity 为 Pro 和 Max 订阅用户推出了 Claude Sonnet 4.5 及 4.5 Thinking 两款版本。

Figma 也开始分阶段推出集成了 Sonnet 4.5 的设计工具，Dylan Field（@zoink）分享的演示视频展示了其在设计工具中的交互流程：

LlamaIndex 团队宣布即刻支持 Claude Sonnet 4.5，实现 Day 0 兼容。

演示代码及运行笔记本：https://colab.research.google.com/drive/1TeO9O49am3F-2wyLKzqlc0adM124BJZk

真实世界的应用案例

沃顿商学院的 Ethan Mollick 教授（@emollick）分享了一个惊人的案例：Claude Sonnet 4.5 成功基于原始数据和论文内容，完整复现了一篇已发表的经济学研究。

这是要开始上手真正的研究工作了。

详细分析见：https://www.oneusefulthing.org/p/real-ai-agents-and-real-work

他还指出，Sonnet 4.5 在金融和统计领域的任务能力上实现了显著跃升，这一提升区别于主流关注编码任务的趋势。

多个版本的演进对比

Anthropic 首席产品官 Mike Krieger（@mikeyk）分享了一段视频，展示了多个版本的 Claude 智能体尝试克隆 Claude.ai 的过程，直观展现了从两年前到现在的能力飞跃。

Emmanuel Ameisen（@mlpowered）评价：两年前 Claude 的代码生成能力尚处于初级阶段，去年有了较大进步，而今年的 Claude 4.5 已能够自动生成并搭建完整产品。

版权声明：
作者：shadowrocket
链接：https://www.shadowrocket9.top/80.html
来源：Shadowrocket官网
文章版权归作者所有，未经允许请勿转载。

THE END

shadowrocket Shadowrocket下载 shadowrocket官网 Shadowrocket节点小火箭

二维码

重磅OpenAI将推出15万每月的博士级代理我不配

< <上一篇

刚刚Claude正式杀入华尔街

下一篇>>

搜索内容

ClaudeSonnet45发布30小时自主编码刷新行业纪录

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

标签

热门文章

好用的小火箭节点推荐 Shadowrocket 高速节点

ClaudeSonnet45发布30小时自主编码刷新行业纪录

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

标签

热门文章

好用的小火箭节点推荐 Shadowrocket 高速节点