Harness Engineering：AI Agent时代的执行层革命 (一)Harness编年史

黑暗纪元：提示词就是全部
#

要搞懂 Harness Engineering 为什么在 2026 年 2 月突然冒出来，得退回 2022 年。

那时候，跟 AI 协作只有一种姿势：打开聊天框，敲字，复制，粘贴。ChatGPT 让人惊呼「这东西真能写代码」，但这终究是一次性买卖。你问，它答，你粘，完事。

于是有了第一门手艺：提示词工程（Prompt Engineering）。

它的逻辑很直接：AI 吐出来的东西不对，那是你没说明白。一时间，「提示词专家」满天飞，研究怎么用不同的句式、结构、示例来哄 GPT-3 或 GPT-4。Few-shot、Chain-of-Thought、角色扮演……招式越来越多，到 2023 年，这套拳法已经相当严密。

但提示词工程有个硬伤：它只管这一锤子。你捏了个完美的提示，拿到了完美的输出。清空上下文，下一局，一切归零。没记忆，没积累，不成系统。

这道坎在 2023 到 2024 年，Agent 概念火了之后，彻底藏不住了。Agent 不是一问一答，它是个跑在循环里的系统——读文件、写代码、调接口、跑测试，自己转。这时候，死磕单句提示词就显得滑稽了。因为一个跑几十步的 Agent，前面偏一毫米，后面就飞到九霄云外去了。

这就逼出了第二套玩法：上下文工程（Context Engineering）。

中场：上下文工程的崛起
#

2025 年，AI 编程工具不再是玩具。Cursor、Copilot、Claude Code 真正嵌进了工程师的日常。大家开始把代码库的钥匙交给 Agent，让它们在真实代码里跑。

问题变了。不再是「怎么把话说明白」，而是「我该给它看什么」。项目里几百个文件，Agent 的脑容量（上下文窗口）就那么大。塞哪些文件、哪段文档、什么历史记录，它才能做对判断？

上下文工程就是干这个的。它盯着模型推理时的输入窗口。RAG、智能检索、Token 压缩……这套栈在 2025 年迅速熟透。

但它只解决了「让 Agent 看到对的信息」，却对另一个更深的坑束手无策：

Agent 看到了对的信息，但还是做了蠢决定。更要命的是，它下次还会照样犯蠢。

这才是 2026 年初那场爆发的真正底色。

引爆点：两篇文章掀了桌子
#

2026 年 2 月 5 日，Mitchell Hashimoto 在博客发了篇《My AI Adoption Journey》。

这哥们是谁？HashiCorp 联创，Terraform 作者。后来自己写了个终端模拟器 Ghostty，代码漂亮得让圈里老手叹气。他说话，工程师会听。

文章写他怎么从 AI 怀疑论者变成重度依赖者。前面四步平平无奇，但第五步，他写了这么一段：

「我现在把这个叫 ‘harness engineering’。它的逻辑是：每次你发现 Agent 犯错，你就花时间搞个方案，让它永远没机会再犯同样的错。」

这话之所以重，是因为它掀了桌子。在提示词和上下文的世界里，Agent 一出错，工程师的本能是「换个 Prompt 试试」。Mitchell 把这事反过来看：Agent 出错，是你欠了工程债，不是 Prompt 没写好。你要做的，是建个机制把这类错误物理超度。

这就是「Harness」这个比喻最毒的地方。Harness，马具。马（模型）很聪明，但没缰绳、辔头、马鞍这套物理约束，你根本驾驭不了。工程师的新角色变了，不当赶马人，去当马具设计师。

巧的是，6 天后，OpenAI 发了篇官方博客：《Harness engineering: leveraging Codex in an agent-first world》。

文章讲了个内部实验：三个工程师，带个 Codex Agent，五个月搞出了一百万行代码的产品。人类一行没写。算下来，每人每天合 3.5 个 PR。

数字很唬人，但更狠的是复盘：整个工程里，最难的根本不是让 AI 写代码，而是给 AI 搭那个让它能靠谱干活的脚手架——工具、约束、文档结构、反馈回路、架构规范。

OpenAI 把这套东西也叫 “harness”。

一周之内，独立开发者和最头部的 AI 公司撞了同一个词。这把火，就这么点着了。

框架：Martin Fowler 定调
#

Hashimoto 点火，OpenAI 背书，Martin Fowler 则是那个把火吹成燎原之势的人。

作为《重构》作者、软件工程界的祖师爷，他网站上的文章是拿来反复嚼的。4 月 2 日，他的团队发了篇深度长文《Harness engineering for coding agent users》，给 Harness Engineering 钉了个架子。

他们切了两个维度：

第一个维度：方向。

引导（Guides）：防患未然。在 Agent 动手前就把规矩立好，拉高首刀命中率。比如 AGENTS.md、架构约定。
传感器（Sensors）：事后纠偏。Agent 干完活，看一眼结果，让它自己改。比如自动化测试、Linter、CI 流水线。

第二个维度：执行类型。

计算型（Computational）：死磕确定的事。CPU 跑，毫秒级，绝对靠谱。测试、类型检查、结构分析。
推理型（Inferential）：让大模型来。慢、贵、有点玄学，但能干需要语义判断的活。比如 AI Code Review。

这架子一搭，“Harness Engineering” 落地了。你不再是瞎喊「给 Agent 加约束」，你会明确地说：「这传感器该用计算型还是推理型？这引导放 CI 前还是后？」

Fowler 还抛了个词：「可驾驭性（Harnessability）」。代码库有多适合套马具？强类型、边界清、测试全，就好套。全是隐式耦合、没测试的屎山，你连缰绳都不知道往哪栓。

扩散：「这不就是我一直在干的事吗？」
#

不到俩月，这词火透了。最有意思的是，大家不是在学新东西，而是终于知道自己每天在干嘛了。

Reddit 和 Twitter 上满屏的：「对对对，就是这个词。」

接着就是硬核数据。LangChain 3 月份发文，模型没换，光改了自家 Agent 的 Harness，Terminal Bench 2.0 跑分硬生生从 52.8% 拔到 66.5%，杀进 Top 5。

同一个模型，换套马具，提了 13 个点，顶得上模型迭代两代。这数字成了最硬的广告。

Cursor 专门开了个坑招 “Software Engineer, Agent Harness”。Stripe 讲他们内部 Agent 系统的文章，句句不离 Harness 的逻辑。清华和斯坦福的论文也在论证这事。

大家反应过来了：模型越来越像，拉开身位的其实是基建。谁在埋头打磨马具，谁就能吃掉那些死盯着 Benchmark 数字的人的午餐。

Fowler 甚至预言：Harness 会成为未来项目的标配。就像现在建个项目必有 Dockerfile 和 CI 配置一样。

结语：共识有了，基建还在路上
#

到 2026 年 4 月，这事就一个状态：概念立住了，手感还在找，工具链一团糟。

GitHub 上有了 awesome 列表，初创公司开始冒头。但硬骨头还在：

Agent 写的测试不靠谱，怎么保证它真写对了？代码在变，马具怎么不生锈？连个量化 Harness 覆盖率的指标都没有。

这很像 2008 年的敏捷开发。大伙都知道瀑布流该死，Scrum 是对的，但到底怎么落地，吵成一锅粥。后来花了五年，标准实践和工具链才真正跑通。

Harness Engineering 大概也要蹚这五年。这不是唱衰，而是说现在只是赢了认知战。真正的基建战才刚开打，谁先摸透这套哲学，谁手上就多把好牌。

这里还没有任何文章可以列出。

黑暗纪元：提示词就是全部#

中场：上下文工程的崛起#

引爆点：两篇文章掀了桌子#

框架：Martin Fowler 定调#

扩散：「这不就是我一直在干的事吗？」#