刚刚,Anthropic 发布了一项新研究:在真实世界中测量 AI Agent 的自主程度。
![]()
他们用隐私保护工具分析了 Claude Code 和公共 API 上数百万次人机交互数据,想搞清楚:人们到底给了 Agent 多少自主权?随着经验增长会怎样变化?Agent 被部署在哪些领域?这些操作有多大风险?
目前,Agent 已经被部署在从邮件分类到网络安全研究等各类场景中。理解这个光谱对安全部署至关重要,然而我们对人们实际如何使用 Agent 的了解,少得惊人。
研究有几个关键发现:
Claude Code 的自主工作时间在快速增长。
大部分 Claude Code 单次操作时间很短,中位数约 45 秒。但最长的操作揭示了自主权的发展方向:三个月内,99.9 百分位的单次操作时长几乎翻倍,从不到 25 分钟增长到超过 45 分钟。而且这种增长跨越了多个模型版本,呈平滑上升趋势,说明它并非纯粹由模型能力提升驱动。
![]()
经验越多,自动批准越多,但打断也越多。
新用户会逐个审批每个操作。到积累 750 个会话时,超过 40% 的会话已经完全开启自动批准。
![]()
但打断率也在同步上升。新用户在 5% 的操作中打断 Claude Code,经验丰富的用户则是 9%。这说明用户从「逐步审批」转向了「放手委托,必要时打断」的监督模式。
![]()
Claude Code 主动暂停提问的频率,高于人类打断它的频率。
在复杂任务上,Claude Code 暂停请求确认的频率是人类打断它的两倍以上。训练模型识别自身不确定性,是一个重要但被低估的安全属性。
![]()
大部分 API Agent 操作风险较低。
73% 的工具调用有人类在环路中,只有 0.8% 是不可逆的。但在前沿领域,已经出现 Agent 操作安全系统、金融交易和生产部署的情况(其中一些可能是评测)。
![]()
软件工程占了约 50% 的 Agent 工具调用,但其他行业的使用也在涌现。随着风险和自主权的边界扩展,部署后监控变得不可或缺。Anthropic 鼓励其他模型开发者扩展这项研究。
![]()
这项工作的一个核心教训是:自主权是由模型、用户和产品共同构建的,无法仅靠部署前评估来完整刻画。
全文
AI Agent 已经来了,而且正被部署在各种差异巨大的场景中,从邮件分类到网络间谍活动。理解这个光谱对安全部署 AI 至关重要,但我们对人们在真实世界中如何使用 Agent 的了解,少得出奇。
我们使用隐私保护工具,分析了 Claude Code 和公共 API 上数百万次人机交互数据,来回答这些问题:人们给 Agent 多少自主权?这种自主权如何随经验变化?Agent 在哪些领域运作?Agent 采取的行动有风险吗?
我们发现:
- Claude Code 的自主工作时间越来越长。
在运行时间最长的会话中,Claude Code 停下来之前的工作时长在三个月内几乎翻倍,从不到 25 分钟增长到超过 45 分钟。这种增长跨越模型版本呈平滑上升,说明并非纯粹由能力提升所致,现有模型能够承担的自主权超过它们在实践中所行使的。
- 经验丰富的 Claude Code 用户更频繁地自动批准,但也更频繁地打断。
随着用户积累经验,他们倾向于停止逐个审查操作,转而让 Claude 自主运行,只在需要时介入。新用户中大约 20% 的会话使用完全自动批准;随着经验增长,这一比例上升到 40% 以上。
- Claude Code 暂停请求澄清的频率高于人类打断它的频率。
除了人类发起的停止,Agent 发起的停止也是已部署系统中重要的监督形式。在最复杂的任务上,Claude Code 暂停请求澄清的频率是人类打断它的两倍以上。
- Agent 被用于高风险领域,但尚未大规模使用。
公共 API 上大多数 Agent 操作是低风险且可逆的。软件工程占了近 50% 的 Agent 活动,但我们也观察到医疗、金融和网络安全领域的新兴使用。
下面我们将更详细地介绍我们的方法和发现,最后给出对模型开发者、产品开发者和政策制定者的建议。我们的核心结论是:有效监督 Agent 需要新形式的部署后监控基础设施,以及新的人机交互范式,来帮助人类和 AI 共同管理自主权和风险。
我们将这项研究视为迈向实证理解人们如何部署和使用 Agent 的一小步但重要的一步。随着 Agent 被更广泛地采用,我们将继续迭代方法并传达我们的发现。
在野外研究 Agent
Agent 很难进行实证研究。第一,关于什么「是」Agent 没有统一的定义。第二,Agent 正在快速演变。去年,许多最复杂的 Agent,包括 Claude Code,还是单一对话线程,而今天已经有了能自主运行数小时的多 Agent 系统。第三,模型提供商对客户 Agent 架构的可见性有限。例如,我们没有可靠的方法将独立的 API 请求关联成一个 Agent 活动「会话」(我们在文末更详细地讨论了这一挑战)。
面对这些挑战,我们如何实证研究 Agent?
首先,在本研究中我们采用了一个有概念基础且可操作的定义:Agent 是配备了工具的 AI 系统,这些工具允许它采取行动,比如运行代码、调用外部 API、向其他 Agent 发送消息。¹ 研究 Agent 使用的工具能告诉我们很多关于它们在世界中做什么的信息。
接下来,我们开发了一套指标,利用来自公共 API 和 Claude Code(我们自己的编码 Agent)的数据。这两个数据源在广度和深度之间提供了一种权衡:
公共 API 让我们能够广泛了解跨数千个客户的 Agent 部署情况。我们不试图推断客户的 Agent 架构,而是在单个工具调用层面进行分析。² 这种简化假设让我们能够对真实世界的 Agent 做出有据、一致的观察,即使这些 Agent 被部署的场景差异很大。这种方法的局限在于我们必须孤立分析各个动作,无法重建单个动作如何随时间组合成更长的行为序列。
Claude Code 提供了相反的权衡。因为 Claude Code 是我们自己的产品,我们可以跨会话关联请求,理解从头到尾的完整 Agent 工作流。这使得 Claude Code 特别适合研究自主权,例如 Agent 在没有人类干预的情况下运行多久、什么触发了中断、以及用户如何在积累经验的过程中维持对 Claude 的监督。但因为 Claude Code 只是一个产品,它无法提供与 API 流量相同的 Agent 使用多样性洞察。
通过使用我们的隐私保护基础设施同时利用两个数据源,我们能够回答任何单一来源无法独立解答的问题。
Claude Code 的自主工作时间越来越长
Agent 在没有人类参与的情况下实际运行多久?在 Claude Code 中,我们可以直接测量:追踪从 Claude 开始工作到它停下来(无论是因为完成任务、提出问题还是被用户打断)之间经过的时间,以逐次为基础。³
单次操作时长是自主权的一个不完美代理。⁴ 例如,更强大的模型可能更快完成同样的工作,子 Agent 允许更多工作同时进行,这些都会推动时长缩短。⁵ 同时,用户可能随着时间推移尝试更有雄心的任务,这会推动时长增加。此外,Claude Code 的用户基础正在快速增长,因此也在变化。我们无法孤立测量这些变化;我们测量的是这种相互作用的净结果,包括用户让 Claude 独立工作多久、他们布置的任务难度,以及产品本身的效率(每天都在改进)。
大部分 Claude Code 操作时间很短。中位数约 45 秒,过去几个月这个数字只有轻微波动(在 40 到 55 秒之间)。事实上,第 99 百分位以下的几乎每个百分位都相对稳定。⁶ 对于一个快速增长的产品来说,这种稳定性是我们预期的:当新用户开始使用 Claude Code 时,他们相对缺乏经验,而且,正如我们在下一节展示的,不太可能给予 Claude 完全的自由度。
更有启示性的信号在尾部。 最长的操作时间告诉我们最多关于 Claude Code 最雄心勃勃的使用方式,并指向自主权的发展方向。从 2025 年 10 月到 2026 年 1 月,99.9 百分位的单次操作时长几乎翻倍,从不到 25 分钟增长到超过 45 分钟(图 1)。
![]()
图 1. 交互式 Claude Code 会话中 99.9 百分位单次操作时长(Claude 每次工作多久),7 天滚动平均。99.9 百分位从 9 月底的不到 25 分钟稳步增长到 1 月初的超过 45 分钟。该分析反映了所有交互式 Claude Code 使用情况。
值得注意的是,这种增长跨越模型版本呈平滑上升。如果自主权纯粹是模型能力的函数,我们预期会在每次新版本发布时看到急剧跳跃。这一趋势的相对平稳反而暗示了多个潜在因素在起作用,包括高级用户随时间建立信任、将 Claude 应用于越来越有雄心的任务,以及产品本身的改进。
1 月中旬以来,极端操作时长有所回落。我们推测了几个原因。第一,Claude Code 用户基础在 1 月到 2 月中旬之间翻了一番,更大更多样化的会话群体可能重塑了分布。第二,用户从假期回来后,他们带给 Claude Code 的项目可能从兴趣项目转向了更严格限定的工作任务。最可能的情况是这些因素和我们尚未识别的其他因素共同作用。
我们还考察了 Anthropic 内部的 Claude Code 使用情况,以了解独立性和有效性如何共同演变。从 8 月到 12 月,Claude Code 在内部用户最具挑战性的任务上的成功率翻了一番,同时每个会话的平均人类干预次数从 5.4 降到了 3.3。⁷ 用户给予 Claude 更多自主权,至少在内部,在需要更少干预的同时取得了更好的结果。
两项测量都指向一个显著的部署过剩,即模型能够处理的自主权超过了它们在实践中行使的自主权。
将这些发现与外部能力评估进行对比很有用。最广泛引用的能力评估之一是 METR 的「衡量 AI 完成长时间任务的能力」,它估计 Claude Opus 4.5 能以 50% 的成功率完成一个人类需要近 5 小时的任务。相比之下,Claude Code 中 99.9 百分位的单次操作时长约为 42 分钟,中位数则短得多。然而,这两个指标不能直接比较。METR 评估捕捉的是模型在没有人类交互、没有现实后果的理想环境中的能力。我们的测量捕捉的是实际发生的情况,Claude 会暂停请求反馈,用户会打断。⁸ METR 的五小时数字衡量的是任务难度,即一个人需要多长时间,而非模型实际运行的时间。
无论是能力评估还是我们的测量,单独来看都无法给出 Agent 自主权的完整画面,但它们共同表明:在实践中赋予模型的自由度,落后于它们能够处理的水平。
经验丰富的用户自动批准更多,但打断也更多
人类如何随着时间推移调整与 Agent 的协作方式?我们发现,随着使用经验的积累,人们给予 Claude Code 更多自主权(图 2)。新用户(<50 个会话)大约 20% 的时间使用完全自动批准;到 750 个会话时,这一比例上升到超过 40%。
这种转变是渐进的,表明信任在稳步积累。同样重要的是,Claude Code 的默认设置要求用户手动批准每个操作,所以这种转变的一部分可能反映了用户在熟悉 Claude 的能力后,配置产品以匹配他们对更大独立性的偏好。
![]()
图 2. 按账户使用时间划分的自动批准率。经验丰富的用户越来越多地让 Claude 在没有任何手动批准的情况下运行。数据反映了 2025 年 9 月 19 日之后注册用户的所有交互式 Claude Code 使用情况。曲线和置信区间边界经 LOWESS 平滑处理(带宽 0.15)。横轴为对数刻度。
批准操作只是监督 Claude Code 的一种方式。用户还可以在 Claude 工作时打断它以提供反馈。我们发现,打断率随经验增长而上升。新用户(大约 10 个会话)在 5% 的操作中打断 Claude,而更有经验的用户在约 9% 的操作中打断它(图 3)。
![]()
图 3. 按账户使用时间划分的逐次打断率。经验丰富的用户打断 Claude 更频繁,而不是更少。数据反映了 2025 年 9 月 19 日之后注册用户的所有交互式 Claude Code 使用情况。阴影区域显示 95% Wilson 得分置信区间。曲线和置信区间边界经 LOWESS 平滑处理(带宽 0.15)。横轴为对数刻度。
打断和自动批准同时随经验增长。 这种看似矛盾反映了用户监督策略的转变。新用户更可能在每个操作执行前进行批准,因此很少需要在执行中打断 Claude。经验丰富的用户更可能让 Claude 自主工作,只在出问题或需要重定向时介入。更高的打断率也可能反映了主动监控,这些用户对何时需要干预有更敏锐的直觉。我们预期逐次打断率最终会趋于稳定,事实上在最有经验的用户中曲线可能已经在趋平(尽管高会话数处不断扩大的置信区间使这一点难以确认)。⁹
我们在公共 API 上也看到了类似的模式:在最低复杂度任务(如编辑一行代码)上,87% 的工具调用有某种形式的人类参与,而在高复杂度任务(如自主发现零日漏洞或编写编译器)上,这一比例仅为 67%。¹⁰ 这看起来可能违反直觉,但有两个可能的解释。第一,随着步骤数增长,逐步批准在结构上变得更不可行,因此在复杂任务上监督每个操作更困难。第二,我们的 Claude Code 数据表明经验丰富的用户倾向于给予工具更多独立性,而复杂任务可能不成比例地来自有经验的用户。虽然我们无法直接测量公共 API 上的用户使用时长,但总体模式与我们在 Claude Code 中观察到的一致。
综合来看,这些发现表明经验丰富的用户并不一定是在放弃监督。打断率随经验增长的事实,加上自动批准也在增长,表明存在某种形式的主动监控。这强化了我们之前提出的观点:有效的监督不需要批准每个操作,而是处于能在关键时刻介入的位置。
Claude Code 暂停请求澄清的频率高于人类打断
当然,人类并不是塑造自主权在实践中如何展开的唯一角色。Claude 也是一个主动参与者,当它不确定如何继续时会停下来请求澄清。我们发现,随着任务复杂度增加,Claude Code 请求澄清的频率上升,而且比人类选择打断它的频率更高(图 4)。
![]()
图 4. Claude 的澄清请求和人类的打断,按目标复杂度分类。随着任务变得更复杂,Claude 更可能请求澄清,人类更可能打断。Claude 发起的停止增长速度快于人类发起的停止。所有类别的 95% 置信区间 < 0.9%,n = 50 万个交互式 Claude Code 会话。
在最复杂的任务上,Claude Code 请求澄清的频率是最低复杂度任务的两倍以上,表明 Claude 对自身不确定性有一定的校准能力。但不宜过度解读这一发现:Claude 可能并没有在正确的时机停下来,它可能会问不必要的问题,其行为也可能受到 Plan Mode 等产品功能的影响。无论如何,随着任务变难,Claude 越来越多地通过停下来咨询人类来主动限制自己的自主权,而不是要求人类来介入。¹¹
表 1 展示了 Claude Code 停止工作和人类打断 Claude 的常见原因。
Claude 为什么主动停下? 人类为什么打断 Claude?向用户展示多个备选方案供选择(35%)提供缺失的技术上下文或纠正(32%)收集诊断信息或测试结果(21%)Claude 太慢、卡住或过度操作(17%)澄清模糊或不完整的请求(13%)已获得足够帮助,可以自行继续(7%)请求缺失的凭证、令牌或访问权限(12%)想自己进行下一步(如手动测试、部署、提交等)(7%)在采取行动前获取批准或确认(11%)在任务中途更改需求(5%)
表 1. Claude 主动停止和人类打断 Claude 的常见原因,由 Claude 判定,基于 50 万次人类打断和 50 万次交互式 Claude Code 会话中的已完成操作样本。部分类别经过轻微编辑以提高清晰度。¹²
这些发现表明,Agent 发起的停止是已部署系统中一种重要的监督形式。训练模型识别并响应自身不确定性,是一种重要的安全属性,能补充权限系统和人类监督等外部保障措施。在 Anthropic,我们训练 Claude 在面对模糊任务时主动提出澄清问题,我们也鼓励其他模型开发者这样做。
Agent 被用于高风险领域,但尚未大规模使用
人们用 Agent 做什么?这些部署有多大风险?这些 Agent 有多自主?风险和自主权之间是否存在权衡?
为了回答这些问题,我们使用 Claude 来估算公共 API 上每个工具调用的相对风险和自主程度,评分范围为 1 到 10。简单来说,风险得分 1 表示即使出错也没有后果的操作,风险得分 10 涵盖可能造成重大伤害的操作。自主权用同样的尺度评分,低自主权意味着 Agent 似乎在遵循人类的明确指示,高自主权意味着它在独立运作。¹³ 然后我们将相似的操作归为集群,计算每个集群的平均风险和自主权得分。
表 2 提供了风险和自主权极端值处的集群示例。
较高平均风险 较高平均自主权将 API 密钥窃取后门伪装成合法开发功能实施(风险:6.0,自主权:8.0)将权限提升和凭证盗窃伪装成合法开发的红队测试(自主权:8.3,风险:3.3)在实验室环境中搬运金属钠和活性化学品容器(风险:4.8,自主权:2.9)在心跳检查期间执行自动化系统健康和运行状态监控(自主权:8.0,风险:1.1)检索并展示请求用户的患者病历(风险:4.4,自主权:3.2)自主执行加密货币交易以盈利(自主权:7.7,风险:2.2)响应火灾紧急情况并提供消防安全信息(风险:3.6,自主权:5.2)自动向参会者发送会议提醒及收集到的信息(自主权:7.6,风险:1.7)将 bug 修复和补丁部署到生产 Web 应用(风险:3.6,自主权:4.8)监控邮件并向运维人员预警紧急商业消息(自主权:7.5,风险:1.7)
表 2. 具有高平均风险或高平均自主权的集群。基于公共 API 上 998,481 个随机工具调用的样本。
鉴于我们对这些 Agent 的可见性有限,这些操作有可能是模拟的(例如,我们无法确定 Claude 下达的金融交易是否真正被执行,而且我们相信许多「数据窃取」是评测)。虽然这些高风险操作在总体流量中所占比例很小,但单次错误的后果仍然可能很严重。
我们发现,80% 的工具调用来自似乎至少有一种保障措施的 Agent(如受限权限或人类审批要求),73% 看起来有某种形式的人类在环路中,只有 0.8% 的操作看起来是不可逆的(如向客户发送邮件)。¹⁴
为了可视化所有集群的风险和自主权联合分布,我们将每个集群按两个维度的平均得分绘制在图上。图 5 中每个点对应一个相关操作集群,按其平均风险和自主权定位。
![]()
图 5. 按任务集群划分的 Claude 估算平均风险和自主权。右上象限,即高自主权、高风险,虽然稀疏但并非空白。数据反映通过公共 API 进行的工具调用。这些是 Claude 在单个工具调用层面生成的分类,在可能的情况下与内部数据进行了验证。完整方法描述见附录。不满足最低聚合要求的集群(因独立工具调用或客户数不足)被排除。基于公共 API 上 998,481 个工具调用的样本。
公共 API 上绝大多数操作是低风险的。 但虽然大多数 Agent 部署相对温和,我们也看到了一些处于风险和自主权前沿的新兴用例。¹⁵ 最高风险的集群,我们再次预期其中许多是评测,往往涉及敏感的安全相关操作、金融交易和医疗信息。虽然风险集中在低端,但自主权变化范围更大。在低端(自主权得分 3-4),我们看到 Agent 为人类完成小型、边界明确的任务,如预订餐厅或对代码做小修改。在高端(自主权得分 6 以上),我们看到 Agent 向数据科学竞赛提交机器学习模型或分类处理客服请求。
我们还预计,处于风险和自主权极端的 Agent 将越来越常见。如今,Agent 集中在单一行业:软件工程占了公共 API 上近 50% 的工具调用(图 6)。除了编码,我们还看到商业智能、客户服务、销售、金融和电子商务等领域有一些较小的应用,但没有任何一个超过几个百分点的流量。随着 Agent 扩展到这些领域,其中许多比修复 bug 风险更高,我们预计风险和自主权的前沿将会扩展。
![]()
图 6. 按领域划分的工具调用分布。软件工程占了近 50% 的工具调用。数据反映通过公共 API 进行的工具调用。所有类别的 95% 置信区间 < 0.5%,n = 998,481。
这些模式表明我们正处于 Agent 采用的早期阶段。软件工程师是第一批大规模构建和使用 Agent 工具的人,图 6 显示其他行业也开始尝试 Agent。我们的方法允许我们监控这些模式如何随时间演变。值得注意的是,我们可以监控使用是否倾向于向更自主、更高风险的任务发展。
虽然我们的总体数据令人宽慰,大多数 Agent 操作是低风险且可逆的,人类通常在环路中,但这些平均值可能掩盖前沿的部署。软件工程中的采用集中度,加上新领域日益增长的实验,表明风险和自主权的前沿将会扩展。我们在文末的建议中讨论了这对模型开发者、产品开发者和政策制定者的意义。
局限性
这项研究只是一个开始。我们只提供了 Agent 活动的部分视角,我们希望坦诚地说明我们的数据能和不能告诉我们什么:
我们只能分析来自单一模型提供商(Anthropic)的流量。基于其他模型构建的 Agent 可能显示不同的采用模式、风险特征和交互动态。
我们的两个数据源提供互补但不完整的视角。公共 API 流量给我们跨数千个部署的广度,但我们只能孤立分析单个工具调用,而非完整的 Agent 会话。Claude Code 给我们完整的会话,但仅限于一个绝大部分用于软件工程的产品。我们许多最强的发现植根于 Claude Code 数据,可能无法推广到其他领域或产品。
我们的分类是由 Claude 生成的。我们为每个维度提供了退出类别(如「不可推断」「其他」),并在可能的情况下与内部数据进行了验证(详见附录),但由于隐私约束我们无法手动检查底层数据。某些保障措施或监督机制也可能存在于我们可观察范围之外。
这项分析反映了一个特定的时间窗口(2025 年末到 2026 年初)。Agent 格局正在快速变化,随着能力增长和采用演变,模式可能会转变。我们计划随时间扩展这项分析。
我们的公共 API 样本是在单个工具调用层面抽取的,这意味着涉及许多连续工具调用的部署(如包含反复文件编辑的软件工程工作流)相比那些用更少操作完成目标的部署被过度代表。这种抽样方法反映了 Agent 活动的体量,但不一定反映 Agent 部署或用途的分布。
我们研究了 Claude 在公共 API 上使用的工具及这些操作的上下文,但我们对客户基于公共 API 构建的更广泛系统的可见性有限。一个在 API 层面看起来自主运行的 Agent,可能在下游有我们无法观察到的人类审查。特别是,我们的风险、自主权和人类参与分类反映了 Claude 从单个工具调用的上下文中能推断出的内容,不能区分生产环境中的操作和评测或红队演练中的操作。几个最高风险集群似乎是安全评估,这凸显了我们对每个操作周围更广泛上下文的可见性限制。
我们正处于 Agent 采用的早期阶段,但自主权正在增加,更高风险的部署也在涌现,尤其是随着 Cowork 等产品让 Agent 更易获取。以下我们为模型开发者、产品开发者和政策制定者提供建议。鉴于我们才刚刚开始衡量野外的 Agent 行为,我们避免做出强硬的规定,而是突出未来研究的方向。
模型和产品开发者应投资于部署后监控。 部署后监控对于理解 Agent 实际如何被使用是必不可少的。部署前评估测试的是 Agent 在受控环境中的能力,但我们的许多发现无法通过部署前测试观察到。除了理解模型的能力,我们还必须理解人们在实践中如何与 Agent 交互。我们在这里报告的数据之所以存在,是因为我们选择构建了收集它的基础设施。但还有更多工作要做。我们没有可靠的方法将独立的公共 API 请求关联成连贯的 Agent 会话,这限制了我们在第一方产品如 Claude Code 之外能了解的 Agent 行为。以隐私保护的方式开发这些方法是跨行业研究与合作的重要领域。
模型开发者应考虑训练模型识别自身的不确定性。 训练模型识别自身不确定性并主动向人类反映问题,是一种重要的安全属性,补充了人类审批流程和访问限制等外部保障。我们训练 Claude 这样做(我们的分析显示 Claude Code 提问的频率高于人类打断它的频率),我们也鼓励其他模型开发者这样做。
产品开发者应为用户监督而设计。 有效监督 Agent 需要的不仅仅是将人类放在审批链中。我们发现,随着用户积累 Agent 使用经验,他们倾向于从逐个批准操作转向监控 Agent 行为并在需要时介入。例如在 Claude Code 中,经验丰富的用户自动批准更多,但也打断更多。我们在公共 API 上看到了相关模式,随着目标复杂度增加,人类参与似乎有所减少。产品开发者应投资于工具,让用户对 Agent 正在做什么有可信赖的可见性,以及简单的干预机制来在出问题时重定向 Agent。这是我们持续为 Claude Code 投资的方向(例如通过实时引导和 OpenTelemetry),我们也鼓励其他产品开发者这样做。
现在还不到强制规定特定交互模式的时候。 在一个我们确实有信心给出指导的领域:什么不应该被强制规定。我们的发现表明,经验丰富的用户从逐个批准 Agent 操作转向了监控并在需要时介入。规定特定交互模式的监督要求,例如要求人类批准每个操作,将产生摩擦而不一定产生安全收益。随着 Agent 和 Agent 测量科学的成熟,重点应放在人类是否处于能有效监控和介入的位置,而不是要求特定形式的参与。
这项研究的一个核心教训是,Agent 在实践中行使的自主权是由模型、用户和产品共同构建的。Claude 通过在不确定时暂停提问来限制自己的独立性。用户在与模型的协作中建立信任,并相应调整监督策略。我们在任何部署中观察到的都是这三种力量的合力,这就是为什么它不能仅通过部署前评估来完整刻画。理解 Agent 的实际行为需要在真实世界中进行测量,而这样做的基础设施仍处于萌芽阶段。
作者: Miles McCain, Thomas Millar, Saffron Huang, Jake Eaton, Kunal Handa, Michael Stern, Alex Tamkin, Matt Kearney, Esin Durmus, Judy Shen, Jerry Hong, Brian Calvert, Jun Shern Chan, Francesco Mosconi, David Saunders, Tyler Neylon, Gabriel Nicholas, Sarah Pollack, Jack Clark, Deep Ganguli.
注释:
我们的定义与 Russell and Norvig (1995) 兼容,他们将 Agent 定义为「任何可以被视为通过传感器感知环境并通过效应器作用于环境的东西」。我们的定义也与 Simon Willison 的兼容,他写道 Agent 是一个「在循环中运行工具以实现目标」的系统。
因为我们将 Agent 定义为使用工具的 AI 系统,所以我们可以将单个工具调用作为 Agent 行为的构建块来分析。
这些结果反映了 Claude 在编程相关任务上的表现,不一定能推广到其他领域。
在本文中,我们将「自主权」非正式地用于指 Agent 独立于人类指导和监督运作的程度。完整的操作化和测量方式详见附录。
同一模型在不同部署方式下可以以不同速度生成输出。例如我们最近发布了 Opus 4.6 的 Fast Mode,生成速度是常规 Opus 的 2.5 倍。
其他百分位的操作时长详见附录。
具体而言,我们使用 Claude 将每个内部 Claude Code 会话分为四个复杂度等级,并判断任务是否成功。这里报告的是最高难度等级任务的成功率。
METR 的五小时数字是任务难度的衡量(一个人需要多长时间),而我们的测量反映的是实际经过时间,受模型速度和用户计算环境等因素影响。
这些模式来自交互式 Claude Code 会话,绝大部分反映软件工程。软件特别适合监督式监管,因为输出可以测试、易于比较,并且在发布前可以审查。在验证 Agent 输出需要与生产输出相同专业知识的领域,这种转变可能更慢或呈现不同形式。
复杂度和人类参与度都是通过让 Claude 在完整上下文(包括系统提示和对话历史)中分析每个工具调用来估计的。完整分类提示详见附录。
从某种意义上说,停下来问用户问题本身就是一种 Agency。我们用「限制自身自主权」来表示 Claude 在本可继续独立运作时选择向人类寻求指导。
这些集群是通过让 Claude 分析每次打断或暂停及其周围会话上下文,然后将相关原因归组生成的。我们手动合并了一些密切相关的集群并编辑了名称以提高清晰度。
我们将这些分数视为比较指标而非精确测量。我们不为每个级别定义严格标准,而是依赖 Claude 对每个工具调用周围上下文的整体判断。完整提示详见附录。
关于我们如何验证这些数字和精确定义的更多信息,见附录。特别是,我们发现 Claude 经常高估人类参与度,因此我们预计 80% 是具有直接人类监督的工具调用数量的上限。
我们的系统也自动排除了不满足最低聚合要求的集群,这意味着只有少量客户在使用 Claude 执行的任务不会出现在这项分析中。
软件工程的采用曲线是否会在其他领域重复是一个开放问题。软件相对容易测试和审查,你可以运行代码看它是否有效,这使得信任 Agent 并发现其错误更容易。在法律、医学或金融等领域,验证 Agent 的输出可能需要大量努力,这可能会减缓信任的建立。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.