「Claude Opus 4.6能完成人类需要近12小时才能做完的任务。」这句话背后藏着一套评估AI的隐秘方法论——而它的设计者正在重新定义「智能」的测量方式。
这是Bloomberg播客Odd Lots最新一期的话题。主持人对话了METR(模型评估与威胁研究组织)的总裁Chris Painter和技术成员Joel Becker,拆解了一张近期在AI圈病毒式传播的图表。这张图的纵轴不是参数规模,不是训练算力,而是一个更刺眼的指标:AI自主完成复杂任务所需的人类监督时间。
![]()
从「能对话」到「能干活」:评估范式的迁移
METR的核心工作,是测试AI模型在多大程度上能进行自主的复杂任务执行。这与传统基准测试截然不同——后者往往关注模型在考试题上的表现,比如MMLU(大规模多任务语言理解)或HumanEval(代码生成测试)。
Joel Becker解释,METR的评估设计源于一个具体担忧:AI可能某天进入递归自我改进的循环,将人类排除在外。如果这一风险成立,那么关键问题就不是「模型懂多少」,而是「模型能在无人看管的情况下走多远」。
这种思路直接影响了评估架构。METR不会给模型一道有标准答案的题目,而是抛出一个开放式目标——比如「搭建一个网站」「分析一份财报」「完成一次网络安全渗透测试」——然后记录人类需要介入多少次、每次介入需要多长时间,才能让任务最终完成。
纵轴的「人类监督时间」因此成为一个压缩了多重信息的指标:它同时反映模型的规划能力、错误恢复能力、工具使用能力,以及在边界情况下的决策稳定性。
那张 viral 图表是怎么画出来的
Chris Painter详细描述了METR的测试流程。他们会为每个任务设定一个「人类参考时间」——即一位熟练的程序员或分析师独立完成该任务所需时长。然后让AI在受控环境中尝试同一任务,记录其实际表现。
图表的横轴是时间推移,纵轴是「AI能自主覆盖的人类工作时间占比」。近期的数据点显示,Claude Opus 4.6在某些任务上已经达到近12小时的人类等效时长。这意味着:给定一个需要资深专业人士工作半天的任务,该模型可以在零人工干预的情况下跑完。
Joel Becker补充了一个关键细节:METR的测试环境是「半开放」的。模型可以访问互联网、可以调用工具、可以读写文件,但不能随意修改自身代码或访问测试系统之外的资源。这种设计试图模拟真实工作场景,同时划定安全边界。
评估的难点在于任务选择的代表性。METR内部有一个任务库,涵盖软件工程、数据分析、网络安全、机器学习研究等领域。每个任务都经过人工验证——确保人类确实能在参考时间内完成,且完成标准明确可判定。
评估即权力:谁在定义「有用」的AI
这场对话的深层张力在于:评估框架本身就是价值判断。METR选择「自主任务执行」作为核心指标,源于其对AI安全风险的特定理解。但这不是唯一可能的视角。
Chris Painter承认,METR的方法有明确的适用范围。它擅长测量「目标导向的、可分解的、有明确完成标准的」任务,但对创造性工作、社交互动、长期战略规划等场景覆盖有限。一个能写12小时代码的AI,未必能进行12小时的商业谈判或产品设计。
更微妙的是「人类监督」的定义。METR记录的是「人类被迫介入的时间」,而非「人类主动选择介入的时间」。后者可能更接近真实部署场景——人类不是因为AI卡住而介入,而是因为需要把关关键决策。这两种情境下的「自主性」含义截然不同。
Joel Becker提到,METR正在探索更细粒度的测量方式。比如区分「认知型监督」(人类需要思考如何指导AI)和「机械型监督」(人类只是点击确认或填写表单)。这种拆解对产品设计有直接启示:降低机械型监督相对容易,压缩认知型监督则需要根本性的能力跃迁。
从实验室到会议室:评估如何塑造产业
METR的工作正在产生超出学术圈的影响。Chris Painter透露,多家AI实验室已将METR的评估结果纳入内部路线图,部分投资机构也开始引用这些指标进行估值判断。
这种影响力源于一个市场真空:当各家公司用不同的内部基准宣称「最强模型」时,第三方评估提供了有限的比较基础。METR的图表之所以 viral,正是因为它用单一可视化压缩了复杂的横向对比。
但Joel Becker警告了过度简化的风险。那张12小时的数据点,背后是特定任务集合、特定环境配置、特定判定标准下的结果。换一个任务包,曲线可能完全不同。将单一数字泛化为「AI能力」的整体度量,是评估者最担心的误读。
这种张力在技术扩散中反复出现。评估工具一旦公开,就会被快速商品化——模型开发者针对性地优化以提升分数,而分数与实际效用的关联则逐渐衰减。METR的应对策略是持续更新任务库,并部分保持未公开,以维持评估的预测效度。
Chris Painter还提到了一个未被充分讨论的后果:评估框架正在反向塑造研究优先级。当「长时自主任务执行」成为显学,资源会向相关技术路线倾斜,而其他可能同样重要的能力维度——如可解释性、价值对齐、社会推理——则相对被忽视。评估即选择,选择即排除。
当12小时变成120小时:我们准备好衡量了吗
播客末尾,主持人问了一个直白的问题:如果曲线延续,当AI能自主完成需要数周人类工作的任务时,METR的评估方法还适用吗?
Joel Becker的回答坦诚而有限:他们正在实验更长的任务周期,但面临实际的 logistical 挑战——如何维持数周的受控环境、如何定义跨阶段的完成标准、如何处理人类参考时间的可靠性。这些不是技术细节,而是方法论的根本张力。
Chris Painter补充了一个更宏观的观察:评估能力的进化速度,可能正在落后于被评估对象的进化速度。当AI的能力边界以月为单位移动时,建立稳健、可复现、有预测力的评估框架需要以年为单位的工作。这种不对称是AI治理的核心困境之一。
那张 viral 图表的真正价值,或许不在于它显示了什么,而在于它暴露了我们对「智能」测量的无知程度。12小时是一个数字,但数字背后的任务设计、环境假设、判定标准、采样偏差——这些才是决定其含义的隐藏变量。
如果下一张 viral 图表显示AI能独立完成需要一个月人类工作的项目,我们是否有信心说「我们测对了」——还是说,我们只是在用更复杂的指标,重复同样的过度简化?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.