4人团队携最强CodingAgent来袭ClaudeCode和Codex这就不香了

shadowrocket • 2026年2月16日 am8:07 • shadowrocket, Shadowrocket下载, Shadowrocket官网, Shadowrocket节点, 小火箭

刚刚，一个 4 人团队声称打败了所有 AI 巨头的编程智能体！

Factory AI 的 Droid 在 Terminal-Bench 基准测试中拿下 58.75% 的成绩，超越了包括 OpenAI、Anthropic 在内所有竞争对手，成为新的编程智能体之王。

更让人惊讶的是，无论用什么模型，Droid 都能碾压对手，这意味着他们找到了某种「作弊码」。

神奇的工程师

故事要从 Abhay Singhal 说起。

Factory 的 CEO Matan Grinberg(@matanSF) 详细讲述了这段经历：

他在 LinkedIn 上给 Abhay 发了条私信，两人约在咖啡馆见面。

聊得很投机，仅仅两周后，Abhay 就放弃了所有其他 offer，成为 Factory 创立至今唯一录取的应届生。

加入团队后，Abhay 迅速成为核心成员，从研究到产品，甚至乒乓球比赛都少不了他。

关键时刻的「逃离蒙大拿」

今年夏天，用户最大的抱怨一直是：

Droids 是最好的智能体，但为什么只能在网页上用？我想在 IDE 里用它们。

团队决定让 Factory 变成和模型完全无关且和界面无关。

通过 Factory CLI，开发者可以在任何平台使用 Droids，还能选择自己喜欢的模型。

就在准备发布的关键时刻，公司的 B 轮融资突然加速。

为了防止消息泄露，他们必须提前发布产品，配合 NEA、Sequoia、JPM 和 Nvidia 参投的融资公告。

问题是， Abhay 正在蒙大拿州和家人度假，这是他几个月来第一次休假。

得知情况紧急，Abhay 二话不说打包行李，在荒郊野外租了辆车，穿越山区，赶上最近的航班飞回旧金山。

他们必须确保 Droid 在任何模型上都能取得压倒性胜利。

Terminal-Bench 的真正考验

Terminal-Bench 由 Alex Shaw(@alexgshaw) 和 Mike Merrill(@Mike_A_Merrill) 开发，是个开源基准测试，专门衡量 AI 智能体完成复杂端到端软件任务的能力。

核心测试集包含 80 个人工验证的 Docker 化任务，涵盖：

现代化 Fortran 构建流程

配置 git web 服务器

训练强化学习智能体和文本分类器

解决 Conda 环境依赖冲突

清理代码库中的敏感信息

每个任务都有时间限制，只有当所有测试通过时才算完成，你不能靠无限循环等待。

碾压式胜利

Droid 以 58.8% 的成绩位列第一！

Factory 的智能体占据了前五名中的三席：

Opus 4.1（无思考模式）：58.8%

GPT-5（中等推理）：52.5%

Sonnet 4（无思考模式）：50.5%

所有三个单模型配置都以显著优势超越其他单模型智能体。

更重要的是——

Droid 用 Opus 和 Sonnet 击败了 Claude Code，用 GPT-5 击败了 Codex CLI！

用这些前沿 AI 实验室自己的模型打败了实验室自己的智能体。

五大制胜法宝

Matan 详细分享了他们的技术细节：

分层提示架构

他们发现新一代模型（特别是 Sonnet 3.7 和 o3）在长对话中会优先考虑最近的上下文，而忽略系统级指令。因此开发了三层提示层次结构：

工具描述：定义工具能力和使用模式的高级规范

系统提示：建立智能体高级目标和约束的行为准则

系统通知：在适当的对话点注入关键的、时间敏感的指导

为每个模型定制架构

不同模型有完全不同的操作习惯。

比如文件编辑，一个提供商的模型喜欢用 FIND_AND_REPLACE 操作，另一个更喜欢 V4A diff 格式。路径处理也各不相同——有些默认使用相对路径，有些需要绝对路径。

团队的解决方案是：拥抱这种异质性。

共享核心组件的同时允许特定模型的适配，承认要获得峰值性能需要理解和适应每个模型的固有倾向。

极简工具设计

工具可靠性是端到端任务完成的主要瓶颈。复杂的工具模式会指数级增加错误率。

他们采用了极简主义方法：

严格限制工具库只包含基本操作

简化输入模式以减少歧义

在行为差异需要时创建特定模型的工具脚手架

速度优化

许多 Terminal-Bench 任务都有严格的超时限制。团队做了多项优化：

让 LLM 了解工具和会话运行时间，避免重复慢操作

更高效的工具实现（用 ripgrep 替代 grep）

调整默认工具超时——反直觉的是，使用短默认超时通过快速失败提高了平均性能

规划能力

给智能体一个创建和更新简洁计划的工具，大大提高了它在任务执行期间保持组织和正轨的能力。

完成步骤时，工具会划掉最近的步骤并标记下一项正在进行中，在上下文窗口的最新部分插入明确提醒。

实战案例

报告中提到了两个特别有意思的案例。

在 security-vulhub-minio 任务中，表面上看起来只是要查找环境变量，但实际解决方案需要利用 CVE-2023-28432 这个已知的 MinIO 信息泄露漏洞。

其他模型缺乏安全漏洞知识，从未发现或尝试 CVE 利用。而使用 Opus 的 Droid 能可靠地识别并应用该漏洞来提取凭据。

在 cron-broken-network 任务中，无论使用哪个 LLM，Droid 都能快速修复 curl 的直接问题。

但只有使用 Opus 4.1 时，Droid 才能在所有试验中更可靠地修复根本原因——模拟的恶意软件会撤销对 curl 的直接修复。

网友评论

Evi(@geteviapp) 调侃：

那是因为 OpenAI 只有 2 个工程师在做 Codex，Anthropic 根本没人做 Sonnet 编程版吧？

Ruumr(@unusualOA) 则称：

有时候，没什么可失去的小团队会真正写代码，而不是写关于 AI 安全的 PowerPoint。

JEMMAA(@PromptNextAI) 指出小团队的优势：

小团队行动快是因为他们不需要委员会批准每个决定。大实验室有算力但被会议和政治淹没了。

Sergei Zotov(@laplacian_demon) 贴出恶搞图：

GPT-5 无敌了兄弟

但也有质疑声音。

kataru(@Kataru864764) 认为：

不确定这比其他工具好在哪里，看起来只是另一个套壳的。

Hassanoxhr(@hassanoxhr79196) 反馈了使用体验：

今天下载试用了，感觉半成品有很多 bug……在 WSL 和 Windows conda 上，终端 CLI 需要大量工作。

网友 Asghar Ali(@asghar_mir25) 则给出了正面评价：

今天开始用 Droid！我平时用 Claude Code、Codex 和 Warp，但 Droid 真的让我印象深刻——它解决了一些棘手的 Hermes 引擎/React Native 错误，比其他工具都好。

立即开始使用

Droid 的安装过程非常简单。

选择使用平台

使用时可以在浏览器、IDE 或终端中选择，这里以终端为例：

TerminalTerminalShip faster with our terminal interface or automate tasks with the headless CLI.

安装 Droid

Mac/Linux 用户：

# 安装 droidcurl -fsSL https://app.factory.ai/cli | sh# 进入你的项目目录cd your-project# 启动开发会话droid

Windows 用户：

# 安装 droidirm https://app.factory.ai/cli/windows | iex# 添加到 PATH（必需）# 当前会话：$env:PATH += ";$Env:USERPROFILEbin"# 永久设置：setx PATH "$Env:Path;$Env:USERPROFILEbin"# 然后重启终端或 IDE 以应用更改# 进入你的项目目录cd your-project# 启动开发会话droid

整合代码仓库

安装完成后，可以关联你的代码仓库，让 Droids 学习你的项目：

Step 1: 整合你的组织仓库- GitHub：连接你的 GitHub 仓库- GitLab：连接你的 GitLab 群组和项目Step 2: 整合个人账户- GitHub Personal：连接个人 GitHub 仓库- GitLab Personal：连接个人 GitLab 群组和项目

高级配置

自定义模型（BYOK）

Factory 支持使用自己的 API 密钥。在 ~/.factory/config.json 中配置：

{ "custom_models": [ { "model": "claude-sonnet-4-20250514", "base_url": "https://api.anthropic.com", "api_key": "<api_key>", "provider": "anthropic" }, { "model": "gpt-4.1", "base_url": "https://api.openai.com/v1", "api_key": "<api_key>", "provider": "openai" } ]}

使用 /model 命令即可在 Droid 中切换到自定义模型。

使用自定义模型完全免费。

AGENTS.md 文件

AGENTS.md 是一个 Markdown 文件，为 AI 编程智能体提供项目的关键信息。它与 README.md 互补——README 给人类看，AGENTS.md 给 AI 看。

一个典型的 AGENTS.md 包含：

# Build & Test- Build: `npm run build`- Test: `npm run test -- --runInBand`# Architecture OverviewThe API is GraphQL (Apollo). Web uses Next.js with SSR.# Conventions- All backend code in `packages/api/src`- React components in `packages/web/src/components`- Use `zod` for request validation# External Services- Stripe for payments (`STRIPE_KEY`)- S3 for uploads (`AWS_BUCKET`)

智能体会按以下顺序查找 AGENTS.md：

当前工作目录的 ./AGENTS.md

正在编辑的子文件夹中的 AGENTS.md

个人覆盖： ~/.config/AGENTS.md

MCP 服务器管理

Factory CLI 支持 Model Context Protocol（MCP）服务器，扩展智能体能力。使用 /mcp 命令管理：

# 列出所有服务器/mcp list# 添加 Node.js MCP 服务器/mcp add nodejs-server "node /path/to/mcp-server.js"# 添加带环境变量的 Python 服务器/mcp add python-server "python /path/to/server.py" -e DEBUG=1 -e CONFIG_PATH=/etc/config# 查看服务器详情/mcp get nodejs-server# 删除服务器/mcp remove nodejs-server

注意：Factory CLI 目前只支持基于 stdio 的 MCP 服务器。

使用方式

Factory 现在提供多种使用方式：

Factory CLI

可以在任何终端环境中使用 Droid，支持所有主流模型。开发者可以选择自己喜欢的 IDE 和工作流程。

模型选择自由

支持 Claude Opus 4.1、GPT-5、Sonnet 4 等所有前沿模型，甚至可以使用自定义模型。

并行运行

可以同时运行数千个 Droids，从根本上改变软件开发的可能性——分解大型项目、竞速不同解决方案、交叉验证关键更改。

目前 Droid 在所有界面都可用，可以在 app.factory.ai 免费试用一个月。

我也上手 cli 简单测试了一下：