4人团队携最强CodingAgent来袭ClaudeCode和Codex这就不香了

刚刚,一个 4 人团队声称打败了所有 AI 巨头的编程智能体!

4人团队携最强CodingAgent来袭ClaudeCode和Codex这就不香了-2

Factory AI 的 Droid 在 Terminal-Bench 基准测试中拿下 58.75% 的成绩,超越了包括 OpenAI、Anthropic 在内所有竞争对手,成为新的编程智能体之王。

4人团队携最强CodingAgent来袭ClaudeCode和Codex这就不香了-3

更让人惊讶的是, 无论用什么模型,Droid 都能碾压对手 ,这意味着他们找到了某种「 作弊码 」。

神奇的工程师

4人团队携最强CodingAgent来袭ClaudeCode和Codex这就不香了-4

故事要从 Abhay Singhal 说起。

4人团队携最强CodingAgent来袭ClaudeCode和Codex这就不香了-5

Factory 的 CEO Matan Grinberg(@matanSF) 详细讲述了这段经历:

他在 LinkedIn 上给 Abhay 发了条私信,两人约在咖啡馆见面。

聊得很投机, 仅仅两周后 ,Abhay 就放弃了所有其他 offer,成为 Factory 创立至今 唯一录取的应届生 。

4人团队携最强CodingAgent来袭ClaudeCode和Codex这就不香了-6

加入团队后,Abhay 迅速成为核心成员,从研究到产品,甚至乒乓球比赛都少不了他。

关键时刻的「逃离蒙大拿」

今年夏天,用户最大的抱怨一直是:

Droids 是最好的智能体,但为什么只能在网页上用?我想在 IDE 里用它们 。

团队决定让 Factory 变成 和模型完全无关且和界面无关 。

通过 Factory CLI,开发者可以在任何平台使用 Droids,还能选择自己喜欢的模型。

就在准备发布的关键时刻,公司的 B 轮融资突然加速。

为了防止消息泄露,他们必须提前发布产品,配合 NEA、Sequoia、JPM 和 Nvidia 参投的融资公告。

问题是, Abhay 正在蒙大拿州和家人度假 ,这是他几个月来第一次休假。

得知情况紧急,Abhay 二话不说打包行李,在荒郊野外租了辆车, 穿越山区 ,赶上最近的航班飞回旧金山。

他们必须确保 Droid 在任何模型上都能取得压倒性胜利。

Terminal-Bench 的真正考验

Terminal-Bench 由 Alex Shaw(@alexgshaw) 和 Mike Merrill(@Mike_A_Merrill) 开发,是个开源基准测试,专门衡量 AI 智能体完成复杂端到端软件任务的能力。

核心测试集包含 80 个人工验证的 Docker 化任务 ,涵盖:

现代化 Fortran 构建流程

配置 git web 服务器

训练强化学习智能体和文本分类器

解决 Conda 环境依赖冲突

清理代码库中的敏感信息

每个任务都有 时间限制 ,只有当所有测试通过时才算完成,你不能靠无限循环等待。

碾压式胜利

4人团队携最强CodingAgent来袭ClaudeCode和Codex这就不香了-7

Droid 以 58.8% 的成绩位列第一!

Factory 的智能体占据了前五名中的三席:

Opus 4.1(无思考模式):58.8%

GPT-5(中等推理):52.5%

Sonnet 4(无思考模式):50.5%

所有三个单模型配置都以显著优势超越其他单模型智能体。

更重要的是——

Droid 用 Opus 和 Sonnet 击败了 Claude Code,用 GPT-5 击败了 Codex CLI!

用这些前沿 AI 实验室自己的模型打败了实验室自己的智能体。

4人团队携最强CodingAgent来袭ClaudeCode和Codex这就不香了-8

五大制胜法宝

Matan 详细分享了他们的技术细节:

分层提示架构

他们发现新一代模型(特别是 Sonnet 3.7 和 o3)在长对话中会优先考虑最近的上下文,而忽略系统级指令。因此开发了三层提示层次结构:

工具描述:定义工具能力和使用模式的高级规范

系统提示:建立智能体高级目标和约束的行为准则

系统通知:在适当的对话点注入关键的、时间敏感的指导

为每个模型定制架构

不同模型有完全不同的操作习惯。

比如文件编辑,一个提供商的模型喜欢用 FIND_AND_REPLACE 操作,另一个更喜欢 V4A diff 格式。路径处理也各不相同——有些默认使用相对路径,有些需要绝对路径。

团队的解决方案是: 拥抱这种异质性 。

共享核心组件的同时允许特定模型的适配,承认要获得峰值性能需要理解和适应每个模型的固有倾向。

极简工具设计

工具可靠性是端到端任务完成的主要瓶颈。复杂的工具模式会指数级增加错误率。

他们采用了极简主义方法:

严格限制工具库只包含基本操作

简化输入模式以减少歧义

在行为差异需要时创建特定模型的工具脚手架

4人团队携最强CodingAgent来袭ClaudeCode和Codex这就不香了-9

速度优化

许多 Terminal-Bench 任务都有严格的超时限制。团队做了多项优化:

让 LLM 了解工具和会话运行时间,避免重复慢操作

更高效的工具实现(用 ripgrep 替代 grep)

调整默认工具超时——反直觉的是,使用短默认超时通过快速失败提高了平均性能

规划能力

给智能体一个创建和更新简洁计划的工具,大大提高了它在任务执行期间保持组织和正轨的能力。

完成步骤时,工具会划掉最近的步骤并标记下一项正在进行中,在上下文窗口的最新部分插入明确提醒。

实战案例

报告中提到了两个特别有意思的案例。

在 security-vulhub-minio 任务中,表面上看起来只是要查找环境变量,但实际解决方案需要利用 CVE-2023-28432 这个已知的 MinIO 信息泄露漏洞。

其他模型缺乏安全漏洞知识,从未发现或尝试 CVE 利用。而使用 Opus 的 Droid 能可靠地识别并应用该漏洞来提取凭据。

在 cron-broken-network 任务中,无论使用哪个 LLM,Droid 都能快速修复 curl 的直接问题。

但只有使用 Opus 4.1 时,Droid 才能在所有试验中更可靠地修复根本原因——模拟的恶意软件会撤销对 curl 的直接修复。

网友评论

Evi(@geteviapp) 调侃:

那是因为 OpenAI 只有 2 个工程师在做 Codex,Anthropic 根本没人做 Sonnet 编程版吧?

Ruumr(@unusualOA) 则称:

有时候,没什么可失去的小团队会真正写代码,而不是写关于 AI 安全的 PowerPoint。

JEMMAA(@PromptNextAI) 指出小团队的优势:

小团队行动快是因为他们不需要委员会批准每个决定。大实验室有算力但被会议和政治淹没了。

Sergei Zotov(@laplacian_demon) 贴出恶搞图:

GPT-5 无敌了兄弟

4人团队携最强CodingAgent来袭ClaudeCode和Codex这就不香了-10

但也有质疑声音。

kataru(@Kataru864764) 认为:

不确定这比其他工具好在哪里,看起来只是另一个套壳的。

Hassanoxhr(@hassanoxhr79196) 反馈了使用体验:

今天下载试用了,感觉半成品有很多 bug……在 WSL 和 Windows conda 上,终端 CLI 需要大量工作。

网友 Asghar Ali(@asghar_mir25) 则给出了正面评价:

今天开始用 Droid!我平时用 Claude Code、Codex 和 Warp,但 Droid 真的让我印象深刻——它解决了一些棘手的 Hermes 引擎/React Native 错误,比其他工具都好。

立即开始使用

Droid 的安装过程非常简单。

选择使用平台

使用时可以在浏览器、IDE 或终端中选择,这里以终端为例:

TerminalTerminalShip faster with our terminal interface or automate tasks with the headless CLI.

安装 Droid

Mac/Linux 用户:

# 安装 droidcurl -fsSL https://app.factory.ai/cli | sh# 进入你的项目目录cd your-project# 启动开发会话droid

Windows 用户:

# 安装 droidirm https://app.factory.ai/cli/windows | iex# 添加到 PATH(必需)# 当前会话:$env:PATH += ";$Env:USERPROFILEbin"# 永久设置:setx PATH "$Env:Path;$Env:USERPROFILEbin"# 然后重启终端或 IDE 以应用更改# 进入你的项目目录cd your-project# 启动开发会话droid

整合代码仓库

安装完成后,可以关联你的代码仓库,让 Droids 学习你的项目:

Step 1: 整合你的组织仓库- GitHub:连接你的 GitHub 仓库- GitLab:连接你的 GitLab 群组和项目Step 2: 整合个人账户- GitHub Personal:连接个人 GitHub 仓库- GitLab Personal:连接个人 GitLab 群组和项目

高级配置

自定义模型(BYOK)

Factory 支持使用自己的 API 密钥。在 ~/.factory/config.json 中配置:

{  "custom_models": [    {      "model": "claude-sonnet-4-20250514",      "base_url": "https://api.anthropic.com",      "api_key": "<api_key>",      "provider": "anthropic"    },    {      "model": "gpt-4.1",      "base_url": "https://api.openai.com/v1",      "api_key": "<api_key>",      "provider": "openai"    }  ]}

使用 /model 命令即可在 Droid 中切换到自定义模型 。

使用自定义模型完全免费 。

AGENTS.md 文件

AGENTS.md 是一个 Markdown 文件,为 AI 编程智能体提供项目的关键信息。它与 README.md 互补——README 给人类看,AGENTS.md 给 AI 看。

一个典型的 AGENTS.md 包含:

# Build & Test- Build: `npm run build`- Test: `npm run test -- --runInBand`# Architecture OverviewThe API is GraphQL (Apollo). Web uses Next.js with SSR.# Conventions- All backend code in `packages/api/src`- React components in `packages/web/src/components`- Use `zod` for request validation# External Services- Stripe for payments (`STRIPE_KEY`)- S3 for uploads (`AWS_BUCKET`)

智能体会按以下顺序查找 AGENTS.md:

当前工作目录的 ./AGENTS.md

最近的父目录直到仓库根目录

正在编辑的子文件夹中的 AGENTS.md

个人覆盖: ~/.config/AGENTS.md

MCP 服务器管理

Factory CLI 支持 Model Context Protocol(MCP)服务器,扩展智能体能力。使用 /mcp 命令管理:

# 列出所有服务器/mcp list# 添加 Node.js MCP 服务器/mcp add nodejs-server "node /path/to/mcp-server.js"# 添加带环境变量的 Python 服务器/mcp add python-server "python /path/to/server.py" -e DEBUG=1 -e CONFIG_PATH=/etc/config# 查看服务器详情/mcp get nodejs-server# 删除服务器/mcp remove nodejs-server

注意:Factory CLI 目前只支持基于 stdio 的 MCP 服务器。

使用方式

Factory 现在提供多种使用方式:

Factory CLI

可以在任何终端环境中使用 Droid,支持所有主流模型。开发者可以选择自己喜欢的 IDE 和工作流程。

模型选择自由

支持 Claude Opus 4.1、GPT-5、Sonnet 4 等所有前沿模型,甚至可以使用自定义模型。

并行运行

可以同时运行数千个 Droids,从根本上改变软件开发的可能性——分解大型项目、竞速不同解决方案、交叉验证关键更改。

目前 Droid 在所有界面都可用,可以在 app.factory.ai 免费试用一个月。

我也上手 cli 简单测试了一下:

4人团队携最强CodingAgent来袭ClaudeCode和Codex这就不香了-11

4人团队携最强CodingAgent来袭ClaudeCode和Codex这就不香了-12

4人团队携最强CodingAgent来袭ClaudeCode和Codex这就不香了-13

再看支持的命令:

4人团队携最强CodingAgent来袭ClaudeCode和Codex这就不香了-14

和模型:

4人团队携最强CodingAgent来袭ClaudeCode和Codex这就不香了-15

我让它分析了我某个项目的信息:

4人团队携最强CodingAgent来袭ClaudeCode和Codex这就不香了-16

最后,我让 droid 介绍一下自己:

搜索droid 并写个html 页面给出其介绍

4人团队携最强CodingAgent来袭ClaudeCode和Codex这就不香了-17

会用到搜索工具,正确访问了项目主项和文档,并在询问了写文件权限后,最终给出了 html 文件,如下:

4人团队携最强CodingAgent来袭ClaudeCode和Codex这就不香了-18

不够酷炫,但也算该有的都有了。只是这个 Terminal-Bench,怎么说呢,多少有点挑软柿子捏了。

整体而言,虽然还没感受到惊艳,但用下来也算是深得了 Claude Code 精髓,不过我没让它继续干活了。

一是我目前想清楚的活都干完了,二是太晚了我得睡觉了……

版权声明:
作者:shadowrocket
链接:https://www.shadowrocket9.top/81.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>