一张AI图表为何让硅谷彻夜难眠|张力|ai图表|painter

一张AI图表为何让硅谷彻夜难眠

分享至

「Claude Opus 4.6能完成人类需要近12小时才能做完的任务。」这句话背后藏着一套评估AI的隐秘方法论——而它的设计者正在重新定义「智能」的测量方式。

这是Bloomberg播客Odd Lots最新一期的话题。主持人对话了METR（模型评估与威胁研究组织）的总裁Chris Painter和技术成员Joel Becker，拆解了一张近期在AI圈病毒式传播的图表。这张图的纵轴不是参数规模，不是训练算力，而是一个更刺眼的指标：AI自主完成复杂任务所需的人类监督时间。

从「能对话」到「能干活」：评估范式的迁移

METR的核心工作，是测试AI模型在多大程度上能进行自主的复杂任务执行。这与传统基准测试截然不同——后者往往关注模型在考试题上的表现，比如MMLU（大规模多任务语言理解）或HumanEval（代码生成测试）。

Joel Becker解释，METR的评估设计源于一个具体担忧：AI可能某天进入递归自我改进的循环，将人类排除在外。如果这一风险成立，那么关键问题就不是「模型懂多少」，而是「模型能在无人看管的情况下走多远」。

这种思路直接影响了评估架构。METR不会给模型一道有标准答案的题目，而是抛出一个开放式目标——比如「搭建一个网站」「分析一份财报」「完成一次网络安全渗透测试」——然后记录人类需要介入多少次、每次介入需要多长时间，才能让任务最终完成。

纵轴的「人类监督时间」因此成为一个压缩了多重信息的指标：它同时反映模型的规划能力、错误恢复能力、工具使用能力，以及在边界情况下的决策稳定性。

那张 viral 图表是怎么画出来的

Chris Painter详细描述了METR的测试流程。他们会为每个任务设定一个「人类参考时间」——即一位熟练的程序员或分析师独立完成该任务所需时长。然后让AI在受控环境中尝试同一任务，记录其实际表现。

图表的横轴是时间推移，纵轴是「AI能自主覆盖的人类工作时间占比」。近期的数据点显示，Claude Opus 4.6在某些任务上已经达到近12小时的人类等效时长。这意味着：给定一个需要资深专业人士工作半天的任务，该模型可以在零人工干预的情况下跑完。

Joel Becker补充了一个关键细节：METR的测试环境是「半开放」的。模型可以访问互联网、可以调用工具、可以读写文件，但不能随意修改自身代码或访问测试系统之外的资源。这种设计试图模拟真实工作场景，同时划定安全边界。

评估的难点在于任务选择的代表性。METR内部有一个任务库，涵盖软件工程、数据分析、网络安全、机器学习研究等领域。每个任务都经过人工验证——确保人类确实能在参考时间内完成，且完成标准明确可判定。

评估即权力：谁在定义「有用」的AI

这场对话的深层张力在于：评估框架本身就是价值判断。METR选择「自主任务执行」作为核心指标，源于其对AI安全风险的特定理解。但这不是唯一可能的视角。

Chris Painter承认，METR的方法有明确的适用范围。它擅长测量「目标导向的、可分解的、有明确完成标准的」任务，但对创造性工作、社交互动、长期战略规划等场景覆盖有限。一个能写12小时代码的AI，未必能进行12小时的商业谈判或产品设计。

更微妙的是「人类监督」的定义。METR记录的是「人类被迫介入的时间」，而非「人类主动选择介入的时间」。后者可能更接近真实部署场景——人类不是因为AI卡住而介入，而是因为需要把关关键决策。这两种情境下的「自主性」含义截然不同。

Joel Becker提到，METR正在探索更细粒度的测量方式。比如区分「认知型监督」（人类需要思考如何指导AI）和「机械型监督」（人类只是点击确认或填写表单）。这种拆解对产品设计有直接启示：降低机械型监督相对容易，压缩认知型监督则需要根本性的能力跃迁。

从实验室到会议室：评估如何塑造产业

METR的工作正在产生超出学术圈的影响。Chris Painter透露，多家AI实验室已将METR的评估结果纳入内部路线图，部分投资机构也开始引用这些指标进行估值判断。

这种影响力源于一个市场真空：当各家公司用不同的内部基准宣称「最强模型」时，第三方评估提供了有限的比较基础。METR的图表之所以 viral，正是因为它用单一可视化压缩了复杂的横向对比。

但Joel Becker警告了过度简化的风险。那张12小时的数据点，背后是特定任务集合、特定环境配置、特定判定标准下的结果。换一个任务包，曲线可能完全不同。将单一数字泛化为「AI能力」的整体度量，是评估者最担心的误读。

这种张力在技术扩散中反复出现。评估工具一旦公开，就会被快速商品化——模型开发者针对性地优化以提升分数，而分数与实际效用的关联则逐渐衰减。METR的应对策略是持续更新任务库，并部分保持未公开，以维持评估的预测效度。

Chris Painter还提到了一个未被充分讨论的后果：评估框架正在反向塑造研究优先级。当「长时自主任务执行」成为显学，资源会向相关技术路线倾斜，而其他可能同样重要的能力维度——如可解释性、价值对齐、社会推理——则相对被忽视。评估即选择，选择即排除。

当12小时变成120小时：我们准备好衡量了吗

播客末尾，主持人问了一个直白的问题：如果曲线延续，当AI能自主完成需要数周人类工作的任务时，METR的评估方法还适用吗？

Joel Becker的回答坦诚而有限：他们正在实验更长的任务周期，但面临实际的 logistical 挑战——如何维持数周的受控环境、如何定义跨阶段的完成标准、如何处理人类参考时间的可靠性。这些不是技术细节，而是方法论的根本张力。

Chris Painter补充了一个更宏观的观察：评估能力的进化速度，可能正在落后于被评估对象的进化速度。当AI的能力边界以月为单位移动时，建立稳健、可复现、有预测力的评估框架需要以年为单位的工作。这种不对称是AI治理的核心困境之一。

那张 viral 图表的真正价值，或许不在于它显示了什么，而在于它暴露了我们对「智能」测量的无知程度。12小时是一个数字，但数字背后的任务设计、环境假设、判定标准、采样偏差——这些才是决定其含义的隐藏变量。

如果下一张 viral 图表显示AI能独立完成需要一个月人类工作的项目，我们是否有信心说「我们测对了」——还是说，我们只是在用更复杂的指标，重复同样的过度简化？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.