跳过正文

自主智能体将如何彻底改变法律行业

导读

在探讨“AI 会如何颠覆人类组织”这个话题上,如果说红杉资本的《服务即新软件》和 Block 的《从层级到智能》提出了宏观的商业理论,那么著名法律 AI 初创公司 Harvey 的创始人 Gabe Pereyra 的这篇长文,则提供了一个极具说服力的第一手实战样本。

他从给退休的计算机博士父母安利 AI 编程工具的震撼体验讲起,深刻地指出了当前 AI 发展的一个关键分水岭:杠杆不再局限于让单个人跑得更快,而是开始向上跃迁,从个人层面转移到了组织层面。 智能体(Agents)开始接管传统中层管理者的“协调”工作,形成公司级的“世界模型”。

而当这种变革席卷到极其依赖“金字塔层级”和“人肉吞吐量”的法律行业时,律师的价值将从“输出量”彻底转向“主观判断”。


自主智能体将如何改变法律行业 作者:Gabe Pereyra(Harvey 创始人) 发布时间:2026年4月5日

上个周末,我给我父母成功“安利”了智能体(agent-pilled)。他们两位都已经退休,在空闲时间里,我爸会玩纸牌游戏,而我妈则为一个开源科学计算库做贡献。几个月来我一直跟他们说,他们需要通过 Cursor 或 Cline 试试新的编程模型。这个周末,我终于坐下来向他们展示了该怎么用。我妈问了一个简单的问题:这些系统能不能帮她提高她所参与的那个代码库的测试覆盖率?

我告诉她,它可以接管你的代码库,把它和类似的科学计算库做对比,找出你测试覆盖的盲区,推断出一个更成熟的项目应该具备哪些测试,写出一份计划,实现这些测试,运行项目,调试失败的用例,并不断迭代直到它成功运行。她笑了,因为这听起来太荒谬了。然后我们试了一下。五分钟后,它带着一份对同类代码库的详细调研和一份具体的实现计划回来了;十五分钟后,它已经写好了测试,构建了项目,运行了测试套件,发现了现有测试中的 bug,并不断迭代,直到所有代码在 C++、MATLAB 和 Julia 上全部通过。

接着,我爸问它能不能实现延迟校正(deferred corrections)和 VARPRO 算法——这些算法是他研究生涯中曾参与开创的——并添加同样水平的测试覆盖率。我们也试了,而且它也成功了。模型找到了这些算法,实现了它们,测试了它们,并将它们整合进了该代码库的约定规范中。我妈说,第一个任务如果让她自己来做,至少需要一个月的时间。我的父母双双被震惊了。

尽管我父母有着深厚的学术背景,他们还是完全被智能体杀了个措手不及。他们两人都拥有计算机科学博士学位。我妈在苹果公司工作了 30 年,曾领导一个大型团队开发自动纠错(autocorrect)功能,这是语言模型最早的十亿用户级应用之一。我爸曾是斯坦福大学教授,研究过许多科学计算方法,这些方法后来演变成了今天的神经网络。他们住在硅谷。他们有两个儿子在 Harvey 工作。我一直在不停地谈论这项技术。他们每天都在使用 ChatGPT。然而,他们依然对如今编程智能体已经强大到了何种地步感到完全的猝不及防。如果你不是一个全职使用这些模型的工程师,你很难体会到智能体到底有多强大。

为我父母辩护一句,他们都已经退休了。但更重要的一点是,世界上大多数人马上就会产生和他们一样的反应。 当我们向早期的律师事务所和企业内部法务客户展示智能体现在能做些什么时——例如自动完成尽职调查、或者以极具意义的自主性处理合同谈判,我不断地看到这种反应。他们的回应通常是某种形式的难以置信。上一次“认知落差”让人感觉如此之大,还是从 GPT-3 到 GPT-4 的跨越。那时,令人惊讶的是模型已经变得足够好,足以改变“一个人”能做的事情。而这一次,其后果是“组织”本身开始发生改变。

在过去的几年里,基本的模式很清晰:一个模型坐在工程师旁边,让那个工程师变得更快。人类留在循环的中心,决定接下来做什么,并在每一步引导系统。现在,这个循环正在改变。你可以给一个智能体一个目标、正确的上下文、正确的工具和正确的约束,它就能检查代码库、制定计划、编写代码、运行测试、调试失败、从错误中恢复,并持续独立工作几个小时。杠杆(Leverage)不再局限于让单个人跑得更快。它正开始向上跃迁,从个人层面转移到了组织层面。

从历史上看,信息必须在人与人之间传递,因此管理者们需要汇总上下文、路由决策、追踪阻碍因素,并保持团队的一致性。自主智能体正在开始直接承担起一部分这种“协调”功能。它们不仅仅是执行任务。它们监控系统、在团队之间传递上下文、触发工作并促成决策。这就是为什么这场变革比单纯的生产力提升要大得多。它改变了组织运行所依赖的协调层。

工程领域是这种现象变得无可否认的第一个地方,因为软件本来就生活在一个机器可读的循环中。指令是数字化的,工具是数字化的,环境是数字化的,而输出可以被其他机器测试。AI 实验室也完全有理由首先让模型在代码方面变得强大,因为下一代系统正是通过代码构建出来的。这就是为什么工程学正成为第一个围绕智能体进行重组的职能,也是为什么你已经能在诸如 Ramp 的内部系统和 Stripe 的相关工具中看到这种模式。工程领域是杠杆的未来最先显现的地方,因为这里的工作已经结构化到了智能体可以直接介入的程度。

在 Harvey,我们现在正在经历这场转型。我们构建了一个名为 Spectre(以 Dota 2 角色命名)的内部智能体系统,它正在开始自主处理越来越多的工程工作,并且越来越多地开始处理非工程工作。它所做的大部分事情不再是由人类的提示(prompt)触发的。它是通过系统监控公司状态,并基于系统故障、bug 报告、客户反馈和 Slack 消息做出决策来触发的。在实践中,Spectre 就是一个“公司世界模型”的开端:这是一幅描绘 Harvey 内部正在发生什么、以及接下来需要发生什么的实时图景。 我们的工程师现在是如此的高产,以至于他们变得更难协调了。瓶颈正在从“代码实现”转移向“审查、优先级排序、协调和运营设计”。这就是组织内部新杠杆的样子:产生的工作量已经超出了旧有协调结构所能吸收的极限。

“在实践中,Spectre 就是一个公司世界模型的开端:这是一幅描绘 Harvey 内部正在发生什么、以及接下来需要发生什么的实时图景。”

在工程领域发生的事情,很快就会在每个地方发生。随着雇佣无限 AI 员工的能力成为现实,公司将不再受限于“吞吐量(throughput)”。并且,随着单个员工独立前进的速度达到渐近线(极限),机构将需要重新学习如何共同走得更远。这就需要我们从根本上重新思考:什么工作是重要的,如何审查工作,如何信任工作,如何围绕工作培训人员,如何为工作定价,以及在“智能过剩”但“主观判断成为瓶颈”的情况下,如何重新设计组织。

在这些条件下,有意义的杠杆不再是一个组织能生产多少东西。相反,杠杆存在于人员、团队和机构能够在人类与智能体之间协调多少上下文。 即使对于一家 AI 原生公司来说,这也是很难的。

“杠杆不再是一个组织能生产多少东西;杠杆存在于人员、团队和机构能够在人类与智能体之间协调多少上下文。”

随着智能体能力的快速演进,仅仅针对今天的能力做计划可能会让人感觉是徒劳且很快就会过时的。然而,从我们的视角来看,我们能看到 AI 将如何对法律行业产生清晰而持久的影响——无论是作为智能体的消费者,还是作为跨组织实施智能体的关键利益相关者。

与其他行业一样,法律智能体将开始挑战律师事务所中的结构性惯例。律所是高度层级化的,它们利用初级律师(associates)和合伙人(partners)之间的汇报链,将有限的法律专业知识资源引导到极其复杂的事务中。这种层级结构中更初级的部分专注于吞吐量——整理海量数据或执行大量死记硬背的任务。随着这些任务越来越被委托给智能体,情况将发生改变。每一个律师现在被珍视的将是他们的主观判断(judgment),而不是他们的输出量(output); 这要求律所重新思考人员配置、学徒制度、定价模式、业务领域结构,以及他们与客户合作的方式。

我们预计这些趋势将出现在“案件(matter)”层面。每一个案件及其相关的文档、消息、研究、工作流和其他数据,都可以类比为一个独立的“世界模型”,AI 智能体团队可以在其中运作以改变法律实践。这种转变并没有取代律师,但它确实改变了案件的协调方式,主观判断的应用方式,以及律所和内部法务团队寻找杠杆的地方。更多的吞吐量从根本上意味着更多的主观判断决策,并且不仅需要高技能的律师,更深切地需要“高信任度”的律师。

对于企业内部的法务团队来说,智能体的激增不仅要求他们在直接的工作中引领转型,还要充当跨组织有效实施 AI 的管理者。自然地,在人类-智能体协同组织中生产力的提高,会导致政策问题、知识产权和产品审查、以及(潜在的)事故的增加。法务团队将需要找到杠杆,以有效地处理这种庞大的工作量。

“对于企业内部的法务团队来说,智能体的激增不仅要求他们在直接的工作中引领转型,还要充当跨组织有效实施 AI 的管理者。”

但除此之外,法务部门将越来越多地被要求管理公司其他部门如何使用智能体。工程部门将定义智能体的能力,而法务部门将管理这些能力如何被安全地部署,问责制落在哪一方,风险如何管理,哪些风险是可容忍的,以及如何在整个公司内赢得信任。通过划定组织依赖智能体的底线,内部法务团队将从根本上定义新杠杆方程式的边界。

“当吞吐量不再是一个有意义的约束时,核心问题就不再是人们应该做什么,而是我们如何围绕智能进行组织并对结果进行治理。”

法律将是受智能体彻底改变最深的行业之一,但它也将是决定这项技术是否能造福社会的极其重要的行业之一。当吞吐量不再是一个有意义的约束时,核心问题就不再是人们应该做什么,而是我们如何围绕智能进行组织并对结果进行治理。这些问题既是技术问题,同样也是法律问题。作为早期且不可或缺的采用者,律师事务所和内部法务团队将定义什么是“值得信赖的采用”:问责制在哪里,哪些风险是可以接受的,需要什么样的治理,以及在一个真正的机构内部依赖自主系统到底意味着什么。


原文链接: https://x.com/gabepereyra/status/2039735237165404292

这里还没有任何文章可以列出。