4人团队携最强CodingAgent来袭ClaudeCode和Codex这就不香了
刚刚,一个 4 人团队声称打败了所有 AI 巨头的编程智能体!
Factory AI 的 Droid 在 Terminal-Bench 基准测试中拿下 58.75% 的成绩,超越了包括 OpenAI、Anthropic 在内所有竞争对手,成为新的编程智能体之王。
更让人惊讶的是, 无论用什么模型,Droid 都能碾压对手 ,这意味着他们找到了某种「 作弊码 」。
神奇的工程师
故事要从 Abhay Singhal 说起。
Factory 的 CEO Matan Grinberg(@matanSF) 详细讲述了这段经历:
他在 LinkedIn 上给 Abhay 发了条私信,两人约在咖啡馆见面。
聊得很投机, 仅仅两周后 ,Abhay 就放弃了所有其他 offer,成为 Factory 创立至今 唯一录取的应届生 。
加入团队后,Abhay 迅速成为核心成员,从研究到产品,甚至乒乓球比赛都少不了他。
关键时刻的「逃离蒙大拿」
今年夏天,用户最大的抱怨一直是:
Droids 是最好的智能体,但为什么只能在网页上用?我想在 IDE 里用它们 。
团队决定让 Factory 变成 和模型完全无关且和界面无关 。
通过 Factory CLI,开发者可以在任何平台使用 Droids,还能选择自己喜欢的模型。
就在准备发布的关键时刻,公司的 B 轮融资突然加速。
为了防止消息泄露,他们必须提前发布产品,配合 NEA、Sequoia、JPM 和 Nvidia 参投的融资公告。
问题是, Abhay 正在蒙大拿州和家人度假 ,这是他几个月来第一次休假。
得知情况紧急,Abhay 二话不说打包行李,在荒郊野外租了辆车, 穿越山区 ,赶上最近的航班飞回旧金山。
他们必须确保 Droid 在任何模型上都能取得压倒性胜利。
Terminal-Bench 的真正考验
Terminal-Bench 由 Alex Shaw(@alexgshaw) 和 Mike Merrill(@Mike_A_Merrill) 开发,是个开源基准测试,专门衡量 AI 智能体完成复杂端到端软件任务的能力。
核心测试集包含 80 个人工验证的 Docker 化任务 ,涵盖:
现代化 Fortran 构建流程
配置 git web 服务器
训练强化学习智能体和文本分类器
解决 Conda 环境依赖冲突
清理代码库中的敏感信息
每个任务都有 时间限制 ,只有当所有测试通过时才算完成,你不能靠无限循环等待。
碾压式胜利
Droid 以 58.8% 的成绩位列第一!
Factory 的智能体占据了前五名中的三席:
Opus 4.1(无思考模式):58.8%
GPT-5(中等推理):52.5%
Sonnet 4(无思考模式):50.5%
所有三个单模型配置都以显著优势超越其他单模型智能体。
更重要的是——
Droid 用 Opus 和 Sonnet 击败了 Claude Code,用 GPT-5 击败了 Codex CLI!
用这些前沿 AI 实验室自己的模型打败了实验室自己的智能体。
五大制胜法宝
Matan 详细分享了他们的技术细节:
分层提示架构
他们发现新一代模型(特别是 Sonnet 3.7 和 o3)在长对话中会优先考虑最近的上下文,而忽略系统级指令。因此开发了三层提示层次结构:
工具描述:定义工具能力和使用模式的高级规范
系统提示:建立智能体高级目标和约束的行为准则
系统通知:在适当的对话点注入关键的、时间敏感的指导
为每个模型定制架构
不同模型有完全不同的操作习惯。
比如文件编辑,一个提供商的模型喜欢用 FIND_AND_REPLACE 操作,另一个更喜欢 V4A diff 格式。路径处理也各不相同——有些默认使用相对路径,有些需要绝对路径。
团队的解决方案是: 拥抱这种异质性 。
共享核心组件的同时允许特定模型的适配,承认要获得峰值性能需要理解和适应每个模型的固有倾向。
极简工具设计
工具可靠性是端到端任务完成的主要瓶颈。复杂的工具模式会指数级增加错误率。
他们采用了极简主义方法:
严格限制工具库只包含基本操作
简化输入模式以减少歧义
在行为差异需要时创建特定模型的工具脚手架
速度优化
许多 Terminal-Bench 任务都有严格的超时限制。团队做了多项优化:
让 LLM 了解工具和会话运行时间,避免重复慢操作
更高效的工具实现(用 ripgrep 替代 grep)
调整默认工具超时——反直觉的是,使用短默认超时通过快速失败提高了平均性能
规划能力
给智能体一个创建和更新简洁计划的工具,大大提高了它在任务执行期间保持组织和正轨的能力。
完成步骤时,工具会划掉最近的步骤并标记下一项正在进行中,在上下文窗口的最新部分插入明确提醒。
实战案例
报告中提到了两个特别有意思的案例。
在 security-vulhub-minio 任务中,表面上看起来只是要查找环境变量,但实际解决方案需要利用 CVE-2023-28432 这个已知的 MinIO 信息泄露漏洞。
其他模型缺乏安全漏洞知识,从未发现或尝试 CVE 利用。而使用 Opus 的 Droid 能可靠地识别并应用该漏洞来提取凭据。
在 cron-broken-network 任务中,无论使用哪个 LLM,Droid 都能快速修复 curl 的直接问题。
但只有使用 Opus 4.1 时,Droid 才能在所有试验中更可靠地修复根本原因——模拟的恶意软件会撤销对 curl 的直接修复。
网友评论
Evi(@geteviapp) 调侃:
那是因为 OpenAI 只有 2 个工程师在做 Codex,Anthropic 根本没人做 Sonnet 编程版吧?
Ruumr(@unusualOA) 则称:
有时候,没什么可失去的小团队会真正写代码,而不是写关于 AI 安全的 PowerPoint。
JEMMAA(@PromptNextAI) 指出小团队的优势:
小团队行动快是因为他们不需要委员会批准每个决定。大实验室有算力但被会议和政治淹没了。
Sergei Zotov(@laplacian_demon) 贴出恶搞图:
GPT-5 无敌了兄弟
但也有质疑声音。
kataru(@Kataru864764) 认为:
不确定这比其他工具好在哪里,看起来只是另一个套壳的。
Hassanoxhr(@hassanoxhr79196) 反馈了使用体验:
今天下载试用了,感觉半成品有很多 bug……在 WSL 和 Windows conda 上,终端 CLI 需要大量工作。
网友 Asghar Ali(@asghar_mir25) 则给出了正面评价:
今天开始用 Droid!我平时用 Claude Code、Codex 和 Warp,但 Droid 真的让我印象深刻——它解决了一些棘手的 Hermes 引擎/React Native 错误,比其他工具都好。
立即开始使用
Droid 的安装过程非常简单。
选择使用平台
使用时可以在浏览器、IDE 或终端中选择,这里以终端为例:
TerminalTerminalShip faster with our terminal interface or automate tasks with the headless CLI.
安装 Droid
Mac/Linux 用户:
# 安装 droidcurl -fsSL https://app.factory.ai/cli | sh# 进入你的项目目录cd your-project# 启动开发会话droid
Windows 用户:
# 安装 droidirm https://app.factory.ai/cli/windows | iex# 添加到 PATH(必需)# 当前会话:$env:PATH += ";$Env:USERPROFILEbin"# 永久设置:setx PATH "$Env:Path;$Env:USERPROFILEbin"# 然后重启终端或 IDE 以应用更改# 进入你的项目目录cd your-project# 启动开发会话droid
整合代码仓库
安装完成后,可以关联你的代码仓库,让 Droids 学习你的项目:
Step 1: 整合你的组织仓库- GitHub:连接你的 GitHub 仓库- GitLab:连接你的 GitLab 群组和项目Step 2: 整合个人账户- GitHub Personal:连接个人 GitHub 仓库- GitLab Personal:连接个人 GitLab 群组和项目
高级配置
自定义模型(BYOK)
Factory 支持使用自己的 API 密钥。在 ~/.factory/config.json 中配置:
{ "custom_models": [ { "model": "claude-sonnet-4-20250514", "base_url": "https://api.anthropic.com", "api_key": "<api_key>", "provider": "anthropic" }, { "model": "gpt-4.1", "base_url": "https://api.openai.com/v1", "api_key": "<api_key>", "provider": "openai" } ]}
使用 /model 命令即可在 Droid 中切换到自定义模型 。
使用自定义模型完全免费 。
AGENTS.md 文件
AGENTS.md 是一个 Markdown 文件,为 AI 编程智能体提供项目的关键信息。它与 README.md 互补——README 给人类看,AGENTS.md 给 AI 看。
一个典型的 AGENTS.md 包含:
# Build & Test- Build: `npm run build`- Test: `npm run test -- --runInBand`# Architecture OverviewThe API is GraphQL (Apollo). Web uses Next.js with SSR.# Conventions- All backend code in `packages/api/src`- React components in `packages/web/src/components`- Use `zod` for request validation# External Services- Stripe for payments (`STRIPE_KEY`)- S3 for uploads (`AWS_BUCKET`)
智能体会按以下顺序查找 AGENTS.md:
当前工作目录的 ./AGENTS.md
最近的父目录直到仓库根目录
正在编辑的子文件夹中的 AGENTS.md
个人覆盖: ~/.config/AGENTS.md
MCP 服务器管理
Factory CLI 支持 Model Context Protocol(MCP)服务器,扩展智能体能力。使用 /mcp 命令管理:
# 列出所有服务器/mcp list# 添加 Node.js MCP 服务器/mcp add nodejs-server "node /path/to/mcp-server.js"# 添加带环境变量的 Python 服务器/mcp add python-server "python /path/to/server.py" -e DEBUG=1 -e CONFIG_PATH=/etc/config# 查看服务器详情/mcp get nodejs-server# 删除服务器/mcp remove nodejs-server
注意:Factory CLI 目前只支持基于 stdio 的 MCP 服务器。
使用方式
Factory 现在提供多种使用方式:
Factory CLI
可以在任何终端环境中使用 Droid,支持所有主流模型。开发者可以选择自己喜欢的 IDE 和工作流程。
模型选择自由
支持 Claude Opus 4.1、GPT-5、Sonnet 4 等所有前沿模型,甚至可以使用自定义模型。
并行运行
可以同时运行数千个 Droids,从根本上改变软件开发的可能性——分解大型项目、竞速不同解决方案、交叉验证关键更改。
目前 Droid 在所有界面都可用,可以在 app.factory.ai 免费试用一个月。
我也上手 cli 简单测试了一下:
再看支持的命令:
和模型:
我让它分析了我某个项目的信息:
最后,我让 droid 介绍一下自己:
搜索droid 并写个html 页面给出其介绍
会用到搜索工具,正确访问了项目主项和文档,并在询问了写文件权限后,最终给出了 html 文件,如下:
不够酷炫,但也算该有的都有了。只是这个 Terminal-Bench,怎么说呢,多少有点挑软柿子捏了。
整体而言,虽然还没感受到惊艳,但用下来也算是深得了 Claude Code 精髓,不过我没让它继续干活了。
一是我目前想清楚的活都干完了,二是太晚了我得睡觉了……
版权声明:
作者:shadowrocket
链接:https://www.shadowrocket9.top/81.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论