网易首页 > 网易号 > 正文 申请入驻

一张AI图表为何让硅谷彻夜难眠

0
分享至

「Claude Opus 4.6能完成人类需要近12小时才能做完的任务。」这句话背后藏着一套评估AI的隐秘方法论——而它的设计者正在重新定义「智能」的测量方式。

这是Bloomberg播客Odd Lots最新一期的话题。主持人对话了METR(模型评估与威胁研究组织)的总裁Chris Painter和技术成员Joel Becker,拆解了一张近期在AI圈病毒式传播的图表。这张图的纵轴不是参数规模,不是训练算力,而是一个更刺眼的指标:AI自主完成复杂任务所需的人类监督时间。


从「能对话」到「能干活」:评估范式的迁移

METR的核心工作,是测试AI模型在多大程度上能进行自主的复杂任务执行。这与传统基准测试截然不同——后者往往关注模型在考试题上的表现,比如MMLU(大规模多任务语言理解)或HumanEval(代码生成测试)。

Joel Becker解释,METR的评估设计源于一个具体担忧:AI可能某天进入递归自我改进的循环,将人类排除在外。如果这一风险成立,那么关键问题就不是「模型懂多少」,而是「模型能在无人看管的情况下走多远」。

这种思路直接影响了评估架构。METR不会给模型一道有标准答案的题目,而是抛出一个开放式目标——比如「搭建一个网站」「分析一份财报」「完成一次网络安全渗透测试」——然后记录人类需要介入多少次、每次介入需要多长时间,才能让任务最终完成。

纵轴的「人类监督时间」因此成为一个压缩了多重信息的指标:它同时反映模型的规划能力、错误恢复能力、工具使用能力,以及在边界情况下的决策稳定性。

那张 viral 图表是怎么画出来的

Chris Painter详细描述了METR的测试流程。他们会为每个任务设定一个「人类参考时间」——即一位熟练的程序员或分析师独立完成该任务所需时长。然后让AI在受控环境中尝试同一任务,记录其实际表现。

图表的横轴是时间推移,纵轴是「AI能自主覆盖的人类工作时间占比」。近期的数据点显示,Claude Opus 4.6在某些任务上已经达到近12小时的人类等效时长。这意味着:给定一个需要资深专业人士工作半天的任务,该模型可以在零人工干预的情况下跑完。

Joel Becker补充了一个关键细节:METR的测试环境是「半开放」的。模型可以访问互联网、可以调用工具、可以读写文件,但不能随意修改自身代码或访问测试系统之外的资源。这种设计试图模拟真实工作场景,同时划定安全边界。

评估的难点在于任务选择的代表性。METR内部有一个任务库,涵盖软件工程、数据分析、网络安全、机器学习研究等领域。每个任务都经过人工验证——确保人类确实能在参考时间内完成,且完成标准明确可判定。

评估即权力:谁在定义「有用」的AI

这场对话的深层张力在于:评估框架本身就是价值判断。METR选择「自主任务执行」作为核心指标,源于其对AI安全风险的特定理解。但这不是唯一可能的视角。

Chris Painter承认,METR的方法有明确的适用范围。它擅长测量「目标导向的、可分解的、有明确完成标准的」任务,但对创造性工作、社交互动、长期战略规划等场景覆盖有限。一个能写12小时代码的AI,未必能进行12小时的商业谈判或产品设计。

更微妙的是「人类监督」的定义。METR记录的是「人类被迫介入的时间」,而非「人类主动选择介入的时间」。后者可能更接近真实部署场景——人类不是因为AI卡住而介入,而是因为需要把关关键决策。这两种情境下的「自主性」含义截然不同。

Joel Becker提到,METR正在探索更细粒度的测量方式。比如区分「认知型监督」(人类需要思考如何指导AI)和「机械型监督」(人类只是点击确认或填写表单)。这种拆解对产品设计有直接启示:降低机械型监督相对容易,压缩认知型监督则需要根本性的能力跃迁。

从实验室到会议室:评估如何塑造产业

METR的工作正在产生超出学术圈的影响。Chris Painter透露,多家AI实验室已将METR的评估结果纳入内部路线图,部分投资机构也开始引用这些指标进行估值判断。

这种影响力源于一个市场真空:当各家公司用不同的内部基准宣称「最强模型」时,第三方评估提供了有限的比较基础。METR的图表之所以 viral,正是因为它用单一可视化压缩了复杂的横向对比。

但Joel Becker警告了过度简化的风险。那张12小时的数据点,背后是特定任务集合、特定环境配置、特定判定标准下的结果。换一个任务包,曲线可能完全不同。将单一数字泛化为「AI能力」的整体度量,是评估者最担心的误读。

这种张力在技术扩散中反复出现。评估工具一旦公开,就会被快速商品化——模型开发者针对性地优化以提升分数,而分数与实际效用的关联则逐渐衰减。METR的应对策略是持续更新任务库,并部分保持未公开,以维持评估的预测效度。

Chris Painter还提到了一个未被充分讨论的后果:评估框架正在反向塑造研究优先级。当「长时自主任务执行」成为显学,资源会向相关技术路线倾斜,而其他可能同样重要的能力维度——如可解释性、价值对齐、社会推理——则相对被忽视。评估即选择,选择即排除。

当12小时变成120小时:我们准备好衡量了吗

播客末尾,主持人问了一个直白的问题:如果曲线延续,当AI能自主完成需要数周人类工作的任务时,METR的评估方法还适用吗?

Joel Becker的回答坦诚而有限:他们正在实验更长的任务周期,但面临实际的 logistical 挑战——如何维持数周的受控环境、如何定义跨阶段的完成标准、如何处理人类参考时间的可靠性。这些不是技术细节,而是方法论的根本张力。

Chris Painter补充了一个更宏观的观察:评估能力的进化速度,可能正在落后于被评估对象的进化速度。当AI的能力边界以月为单位移动时,建立稳健、可复现、有预测力的评估框架需要以年为单位的工作。这种不对称是AI治理的核心困境之一。

那张 viral 图表的真正价值,或许不在于它显示了什么,而在于它暴露了我们对「智能」测量的无知程度。12小时是一个数字,但数字背后的任务设计、环境假设、判定标准、采样偏差——这些才是决定其含义的隐藏变量。

如果下一张 viral 图表显示AI能独立完成需要一个月人类工作的项目,我们是否有信心说「我们测对了」——还是说,我们只是在用更复杂的指标,重复同样的过度简化?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国家发改委:禁止外资收购Manus项目

国家发改委:禁止外资收购Manus项目

封面新闻
2026-04-27 21:48:07
于和伟:虽然我有绯闻,但余生都不会辜负18岁就跟了我的宋林静

于和伟:虽然我有绯闻,但余生都不会辜负18岁就跟了我的宋林静

大眼妹妹
2026-04-27 13:56:56
背叛中国、又出卖美国!臭名昭著的华裔双面间谍高瞻,下场如何?

背叛中国、又出卖美国!臭名昭著的华裔双面间谍高瞻,下场如何?

老谢谈史
2026-04-26 21:41:19
陈赓抓到杀害刘志丹的凶手后要毙,刘伯承:慢,设宴!结局如何?

陈赓抓到杀害刘志丹的凶手后要毙,刘伯承:慢,设宴!结局如何?

元哥说历史
2026-04-20 22:00:03
英媒:中国是最大赢家,导弹超伊朗上百倍,美国重新认识中国实力

英媒:中国是最大赢家,导弹超伊朗上百倍,美国重新认识中国实力

云舟史策
2026-04-27 07:38:22
属牛的注意:5月这两个地方别去,守住福气和钱财

属牛的注意:5月这两个地方别去,守住福气和钱财

匹夫来搞笑
2026-04-27 18:22:01
如今回归上海申花的他,已顺利入选国足名单,未婚妻身份不一般

如今回归上海申花的他,已顺利入选国足名单,未婚妻身份不一般

科学发掘
2026-04-27 11:00:37
美若天仙景甜:蕙质兰心,国色天香。艳绝众生,绝代芳华!

美若天仙景甜:蕙质兰心,国色天香。艳绝众生,绝代芳华!

十为先生
2026-04-27 17:48:56
女子孕期收到丈夫不雅照,他竟出轨20多人!挨了500多针才生下的“珍贵儿”,离婚后被婆家抢走藏匿3个多月……

女子孕期收到丈夫不雅照,他竟出轨20多人!挨了500多针才生下的“珍贵儿”,离婚后被婆家抢走藏匿3个多月……

新民周刊
2026-04-27 13:35:02
紫光股份、中科曙光、浪潮信息、中兴通讯,最新年报含金量谁高?

紫光股份、中科曙光、浪潮信息、中兴通讯,最新年报含金量谁高?

长风价值掘金
2026-04-27 15:48:46
郑丽文成功了!国民党3位元老出山,朱立伦的反扑计划宣告失败

郑丽文成功了!国民党3位元老出山,朱立伦的反扑计划宣告失败

米果说识
2026-04-21 16:58:00
整车成本比Model 3更低!专访小马智行CFO王皓俊:算清单车的账,扩张就简单

整车成本比Model 3更低!专访小马智行CFO王皓俊:算清单车的账,扩张就简单

时代周报
2026-04-26 13:53:07
全红婵最新消息,瘦了一大圈!全红婵武汉复出参赛,为不实消息

全红婵最新消息,瘦了一大圈!全红婵武汉复出参赛,为不实消息

开成运动会
2026-04-26 22:32:59
交通部正式官宣!私家车顺路带人合法上路,保险理赔规则全新调整

交通部正式官宣!私家车顺路带人合法上路,保险理赔规则全新调整

芳姐侃社会
2026-04-25 17:07:08
数据分析:火箭战胜湖人1-3,是状态回暖还是湖人送的人情世故

数据分析:火箭战胜湖人1-3,是状态回暖还是湖人送的人情世故

铁甲西奇
2026-04-27 21:51:31
上海迪士尼24岁男子劝阻34岁男子吸烟,反被殴打,上海警方:吸烟游客向劝阻者道歉和赔偿,双方已签订《调解协议书》

上海迪士尼24岁男子劝阻34岁男子吸烟,反被殴打,上海警方:吸烟游客向劝阻者道歉和赔偿,双方已签订《调解协议书》

都市快报橙柿互动
2026-04-27 19:45:57
故事:聂磊称霸青岛十几年,最后因惹上一个女人,踢到铁板就此灭亡

故事:聂磊称霸青岛十几年,最后因惹上一个女人,踢到铁板就此灭亡

红豆讲堂
2024-12-17 10:54:23
美预测:台海一旦开打,9国将展开混战,中俄朝将对阵6国联军

美预测:台海一旦开打,9国将展开混战,中俄朝将对阵6国联军

史智文道
2026-04-24 09:38:52
美专家曾言:美军一旦向北京、上海扔下核弹,中国并不会对等报复

美专家曾言:美军一旦向北京、上海扔下核弹,中国并不会对等报复

混沌录
2026-04-27 20:03:09
萨林杰亲自辟谣!称要与球队冲击总冠军,广东球迷可以放心了

萨林杰亲自辟谣!称要与球队冲击总冠军,广东球迷可以放心了

弄月公子
2026-04-27 21:38:01
2026-04-27 22:16:49
我是一个养虾人
我是一个养虾人
有态度网友ytd
1763文章数 12关注度
往期回顾 全部

科技要闻

DeepSeek V4上线三天,第一批实测出来了

头条要闻

水库放水21人被困下游河滩 有人让家人踩肩头爬树避险

头条要闻

水库放水21人被困下游河滩 有人让家人踩肩头爬树避险

体育要闻

最抽象的天才,正在改变瓜迪奥拉

娱乐要闻

黄杨钿甜为“耳环风波”出镜道歉:谣言已澄清

财经要闻

Meta 140亿收购Manus遭中国发改委否决

汽车要闻

不那么小众也可以 smart的路会越走越宽

态度原创

时尚
本地
亲子
公开课
军事航空

盛放之日·春启颐和:满园春色“想开了”

本地新闻

云游中国|逛世界风筝都 留学生探秘中国传统文化

亲子要闻

教孩子防侵犯误区:对熟悉的坏人孩子不会害怕和恐惧!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗外长折返伊斯兰堡内情披露

无障碍浏览 进入关怀版