跳过正文

Harness Engineering:AI Agent时代的执行层革命 (一)Harness编年史

目录

黑暗纪元:提示词就是全部
#

要搞懂 Harness Engineering 为什么在 2026 年 2 月突然冒出来,得退回 2022 年。

那时候,跟 AI 协作只有一种姿势:打开聊天框,敲字,复制,粘贴。ChatGPT 让人惊呼「这东西真能写代码」,但这终究是一次性买卖。你问,它答,你粘,完事。

于是有了第一门手艺:提示词工程(Prompt Engineering)。

它的逻辑很直接:AI 吐出来的东西不对,那是你没说明白。一时间,「提示词专家」满天飞,研究怎么用不同的句式、结构、示例来哄 GPT-3 或 GPT-4。Few-shot、Chain-of-Thought、角色扮演……招式越来越多,到 2023 年,这套拳法已经相当严密。

但提示词工程有个硬伤:它只管这一锤子。你捏了个完美的提示,拿到了完美的输出。清空上下文,下一局,一切归零。没记忆,没积累,不成系统。

这道坎在 2023 到 2024 年,Agent 概念火了之后,彻底藏不住了。Agent 不是一问一答,它是个跑在循环里的系统——读文件、写代码、调接口、跑测试,自己转。这时候,死磕单句提示词就显得滑稽了。因为一个跑几十步的 Agent,前面偏一毫米,后面就飞到九霄云外去了。

这就逼出了第二套玩法:上下文工程(Context Engineering)。

中场:上下文工程的崛起
#

2025 年,AI 编程工具不再是玩具。Cursor、Copilot、Claude Code 真正嵌进了工程师的日常。大家开始把代码库的钥匙交给 Agent,让它们在真实代码里跑。

问题变了。不再是「怎么把话说明白」,而是「我该给它看什么」。项目里几百个文件,Agent 的脑容量(上下文窗口)就那么大。塞哪些文件、哪段文档、什么历史记录,它才能做对判断?

上下文工程就是干这个的。它盯着模型推理时的输入窗口。RAG、智能检索、Token 压缩……这套栈在 2025 年迅速熟透。

但它只解决了「让 Agent 看到对的信息」,却对另一个更深的坑束手无策:

Agent 看到了对的信息,但还是做了蠢决定。更要命的是,它下次还会照样犯蠢。

这才是 2026 年初那场爆发的真正底色。

引爆点:两篇文章掀了桌子
#

2026 年 2 月 5 日,Mitchell Hashimoto 在博客发了篇《My AI Adoption Journey》。

这哥们是谁?HashiCorp 联创,Terraform 作者。后来自己写了个终端模拟器 Ghostty,代码漂亮得让圈里老手叹气。他说话,工程师会听。

文章写他怎么从 AI 怀疑论者变成重度依赖者。前面四步平平无奇,但第五步,他写了这么一段:

「我现在把这个叫 ‘harness engineering’。它的逻辑是:每次你发现 Agent 犯错,你就花时间搞个方案,让它永远没机会再犯同样的错。」

这话之所以重,是因为它掀了桌子。在提示词和上下文的世界里,Agent 一出错,工程师的本能是「换个 Prompt 试试」。Mitchell 把这事反过来看:Agent 出错,是你欠了工程债,不是 Prompt 没写好。你要做的,是建个机制把这类错误物理超度。

这就是「Harness」这个比喻最毒的地方。Harness,马具。马(模型)很聪明,但没缰绳、辔头、马鞍这套物理约束,你根本驾驭不了。工程师的新角色变了,不当赶马人,去当马具设计师。

巧的是,6 天后,OpenAI 发了篇官方博客:《Harness engineering: leveraging Codex in an agent-first world》。

文章讲了个内部实验:三个工程师,带个 Codex Agent,五个月搞出了一百万行代码的产品。人类一行没写。算下来,每人每天合 3.5 个 PR。

数字很唬人,但更狠的是复盘:整个工程里,最难的根本不是让 AI 写代码,而是给 AI 搭那个让它能靠谱干活的脚手架——工具、约束、文档结构、反馈回路、架构规范。

OpenAI 把这套东西也叫 “harness”。

一周之内,独立开发者和最头部的 AI 公司撞了同一个词。这把火,就这么点着了。

框架:Martin Fowler 定调
#

Hashimoto 点火,OpenAI 背书,Martin Fowler 则是那个把火吹成燎原之势的人。

作为《重构》作者、软件工程界的祖师爷,他网站上的文章是拿来反复嚼的。4 月 2 日,他的团队发了篇深度长文《Harness engineering for coding agent users》,给 Harness Engineering 钉了个架子。

他们切了两个维度:

第一个维度:方向。

  • 引导(Guides):防患未然。在 Agent 动手前就把规矩立好,拉高首刀命中率。比如 AGENTS.md、架构约定。
  • 传感器(Sensors):事后纠偏。Agent 干完活,看一眼结果,让它自己改。比如自动化测试、Linter、CI 流水线。

第二个维度:执行类型。

  • 计算型(Computational):死磕确定的事。CPU 跑,毫秒级,绝对靠谱。测试、类型检查、结构分析。
  • 推理型(Inferential):让大模型来。慢、贵、有点玄学,但能干需要语义判断的活。比如 AI Code Review。

这架子一搭,“Harness Engineering” 落地了。你不再是瞎喊「给 Agent 加约束」,你会明确地说:「这传感器该用计算型还是推理型?这引导放 CI 前还是后?」

Fowler 还抛了个词:「可驾驭性(Harnessability)」。代码库有多适合套马具?强类型、边界清、测试全,就好套。全是隐式耦合、没测试的屎山,你连缰绳都不知道往哪栓。

扩散:「这不就是我一直在干的事吗?」
#

不到俩月,这词火透了。最有意思的是,大家不是在学新东西,而是终于知道自己每天在干嘛了

Reddit 和 Twitter 上满屏的:「对对对,就是这个词。」

接着就是硬核数据。LangChain 3 月份发文,模型没换,光改了自家 Agent 的 Harness,Terminal Bench 2.0 跑分硬生生从 52.8% 拔到 66.5%,杀进 Top 5。

同一个模型,换套马具,提了 13 个点,顶得上模型迭代两代。这数字成了最硬的广告。

Cursor 专门开了个坑招 “Software Engineer, Agent Harness”。Stripe 讲他们内部 Agent 系统的文章,句句不离 Harness 的逻辑。清华和斯坦福的论文也在论证这事。

大家反应过来了:模型越来越像,拉开身位的其实是基建。谁在埋头打磨马具,谁就能吃掉那些死盯着 Benchmark 数字的人的午餐。

Fowler 甚至预言:Harness 会成为未来项目的标配。就像现在建个项目必有 Dockerfile 和 CI 配置一样。

结语:共识有了,基建还在路上
#

到 2026 年 4 月,这事就一个状态:概念立住了,手感还在找,工具链一团糟。

GitHub 上有了 awesome 列表,初创公司开始冒头。但硬骨头还在:

Agent 写的测试不靠谱,怎么保证它真写对了?代码在变,马具怎么不生锈?连个量化 Harness 覆盖率的指标都没有。

这很像 2008 年的敏捷开发。大伙都知道瀑布流该死,Scrum 是对的,但到底怎么落地,吵成一锅粥。后来花了五年,标准实践和工具链才真正跑通。

Harness Engineering 大概也要蹚这五年。这不是唱衰,而是说现在只是赢了认知战。真正的基建战才刚开打,谁先摸透这套哲学,谁手上就多把好牌。

这里还没有任何文章可以列出。