吴恩达自动化测试在AI编程时代将变得极其重要

AI 写代码爽归爽,但删库跑路也是真的会发生!

吴恩达自动化测试在AI编程时代将变得极其重要-2

吴恩达最新分享了他们团队使用 AI 编程助手的血泪史:

一个 Agent 竟然执行了 rm *.py 命令,把整个项目的代码全删了!

更离谱的是,当被质问时,这个 AI 还道歉说:「那确实是个极其愚蠢的错误。」

虽然道歉多少让人感觉好了一点,但,代码已经没了啊!

在 AI Fund 和 DeepLearning.AI 最近举办的 Buildathon 活动上,吴恩达分享了他对 Agentic Testing (智能体测试)的最新思考。

他认为,在 AI 辅助编程时代,自动化测试正变得前所未有的重要。

网友 David(@DavidSHolz) 预言:

AI 将重写所有软件库、编程语言和硬件子单元,清除掉人类文明的工程债和技术债。我称之为「大重构」——再见 JavaScript,欢迎回归三进制处理器!

但……

如果 Agent 写的代码不可靠,它们写的测试就真的会可靠吗?

反正我目前是没信心的。

我的 Claude Code 就曾经干过把没通过的测试 case 删除来达到通过的目标(之前的文章有写)。

测试很重要,但代码 review 也同样重要。

就目前而言,我仍然会 review 几乎每一行在生产环境中运行的代码。

吴恩达原文:

自动化软件测试在 AI 辅助编程时代正变得越来越重要。

智能体编程系统加速了开发,但也不可靠。

智能体测试 (让 AI 编写测试并检查你的代码)正在发挥作用。

自动测试你打算在其之上构建的基础设施软件组件特别有帮助,能够带来更稳定的基础设施和更少的下游调试。

软件测试方法论如 测试驱动开发(TDD :一种测试密集型方法,先编写严格的正确性测试,然后通过编写能通过这些测试的代码来推进)是发现 bug 的重要方式。

但编写测试可能需要大量工作(我个人因为这个原因从未采用 TDD)。由于 AI 非常擅长编写测试,智能体测试正受到越来越多的关注。

首先,编程 Agent 确实会出问题!

我的团队大量使用它们,我们见过:

Agent 引入的大量 bug,包括需要人类花费数周才能发现的微妙基础设施 bug

当编程 Agent 为了简化开发而让密码重置变得更容易时,在我们的生产系统中引入了安全漏洞

奖励黑客攻击,编程 Agent 修改测试代码使其更容易通过测试

Agent 在工作目录中运行「rm *.py」,导致删除了项目的所有代码(幸运的是,在 GitHub 上有备份)

在最后一个例子中,当被追问时,Agent 道歉并同意: 那是一个极其愚蠢的错误」。这让我们感觉好了一些,但损害已经造成了!

尽管有这些错误,我仍然喜欢编程 Agent,并看到它们让我们的生产力大幅提升。

为了让它们更可靠,我发现 优先考虑在哪里进行测试很有帮助 。

吴恩达自动化测试在AI编程时代将变得极其重要-3

我很少编写(或指导 Agent 编写)前端代码的大量测试。

如果有 bug,希望它很容易被看到,并且造成的持久损害很小。例如,我发现生成代码的前端 bug,比如网页上信息的显示问题,相对容易发现。当网站的前端看起来不对时,你会立即看到,你可以告诉 Agent 并让它迭代修复。

( 更高级的技术 :使用 MCP 让 Agent 与 Playwright 等软件集成,自动截图,这样它可以自主查看是否有问题并进行调试。)

相比之下, 后端 bug 更难发现 。

我见过微妙的基础设施 bug,例如,只在某些特殊情况下导致数据库记录损坏的 bug,这需要很长时间才能发现。

为你的基础设施代码设置严格的测试可能有助于更早发现这些问题,并为你节省许多小时的艰难调试。

你打算在其之上构建的软件组件中的 bug 会导致难以发现的下游 bug。

此外,深入软件栈中的组件(你在其上构建多个抽象层)的 bug 可能只在几周或几个月后才浮现,远在你忘记构建这个特定组件时在做什么之后,并且真的很难识别和修复。

这就是为什么测试软件栈深处的组件特别重要 。

Meta 的座右铭「 快速移动,保持稳定的基础设施 」(取代了「快速移动,打破常规」)今天仍然适用。

智能体测试可以帮助你确保你有良好的基础设施供你和他人构建!

在 AI Fund 和 DeepLearning.AI 最近的 Buildathon 活动中,我们举行了一场与智能体编程专家的小组讨论(Michele Catasta,Replit 总裁;Chao Peng,Trae 首席研究科学家;Paxton Maeder-York,Anthropic 风险投资合作伙伴;由 AI Fund 的 Eli Chen 主持),演讲者分享了最佳实践。

吴恩达自动化测试在AI编程时代将变得极其重要-4

测试是讨论的主题之一。

那次小组讨论是我在 Buildathon 的亮点之一,你可以在 YouTube 上观看视频。

版权声明:
作者:shadowrocket
链接:https://www.shadowrocket9.top/86.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>