网易首页 > 网易号 > 正文 申请入驻

AI进化时间表已现!LLM每7个月能力翻倍,2030年职场不复存在?

0
分享至


新智元报道

编辑:海狸

【新智元导读】LLM正以前所未有的速度进化:METR发现,它们的智能每7个月就翻一番。到了2030年,一个模型可能只需几小时,就能搞定人类工程师几个月的工作。别眨眼,你的岗位或许已在倒计时中。

随着大模型能力一路狂飙,各路测评基准也遍地开花。

从经典的MMLU、HellaSwag,到多模态方向的MMMU、MathVista,再到AGI风格的Arena对决、Agent任务、Tool-use测试。

如何科学地衡量LLM在长时、复杂、真实世界任务中的能力,至关重要。

今年3月,METR发布重磅研究《MeasuringAIAbility to Complete Long Tasks》,首次提出令人眼前一亮的新指标:

50%任务完成时间视野(50%-task-completion time horizon)

——也就是:AI能以50%成功率完成的任务,人类通常需要花多久?


论文链接:https://arxiv.org/pdf/2503.14499

据此,METR展开了一系列研究,包括任务复杂度设定、人类基准时间测量、多模型对比实验到层层统计回归建模。

最终,团队精准量化了AI智力演进速度,并抛出惊人预测:

按照目前增长速度,5年之后,大模型可能就能在一天内自动完成原本需要人类数月才能完成的复杂任务。

别眨眼,LLM每7个月实力翻倍!

METR团队选出每一时间段的最强模型,建立了一个精确的「大事年表」,进一步定量分析模型能力随时间的增长情况。


结果显示出清晰的指数增长趋势:在过去的六年中,模型能力每7个月翻一番

图中的阴影区域表示通过在任务家族、任务以及任务尝试之间进行分层自助法(hierarchical bootstrap),计算得出95%的置信区间

不过,这个指数增长趋势非常陡峭,所以于对误差有很高的容忍度。

即便绝对测量误差达到10倍,能力到来的时间也仅会改变大约2年左右。

因此,团队对不同能力何时出现的预测基本不会出错。

模型vs人类:用「人类耗时」测量大模型智力

METR这项研究的核心就是他们提出的这项指标:「任务完成时间视野」(task-completion time horizon)。

这个指标相当于给分别完成任务的人和AI加了个映射:

想象一组各不相同的任务,人类完成这些任务分别需要不同的时间。

把这些任务交给AI模型去做,然后找出AI能以50%成功率完成的那一档任务(但不考虑AI用的时间)。

然后对应去看人类完成这一档任务通常需要多长时间。

这个人类所需的时间,就是该模型的50%-task-completion time horizon,也即「任务完成时间视野」。


为了证明这个基准的有效性,METR团队做了翔实的统计分析。

结果显示,人类基线完成某项任务所需时间,与各模型在该任务上的平均成功率之间存在负相关关系

简而言之,人做起来越慢,模型做起来越容易失败。

并且,用指数模型拟合这个负相关趋势效果很好

用模型成功率对人类完成时间的对数做回归分析,算出的R²约为0.83,相关系数为0.91,这比不同模型之间平均成功率的相关系数还高。


因此,「以人类时间衡量任务难度」,这个指标非常合理。

模型越新,任务越难:能力进化有迹可循

证明了这个指标的有效性,接下来还要看看各个模型在这个指标上的表现。

团队进一步检验了不同模型能完成的任务所对应的人类耗时。

结果相当符合直觉:

2023年之前的模型(如GPT-2和GPT-3)只能完成那些只需写几句话的简单任务。

而对于人类耗时超过1分钟的任务,它们则迅速败下阵来。


相比之下,最新的前沿模型(如Claude 3.5 Sonnet和o1)则可以完成一些人类要花数小时的任务,甚至在十几小时的超长程任务上还能保持一定的成功率。


效率碾压人类:2030年警告已拉响

按照「7个月翻一番」的这个速度下去,METR团队得到了一个惊人结论:

到2030年,最先进的LLM有望以50%的可靠性,完成一个每周工作40小时的人类工程师花一个月才能完成的任务。

更令人毛骨悚然的是, LLM的速度可能远超人类——也许只需几天,甚至几小时。

到2030年,LLM可能已经能轻松创办一家公司、写出一部像样的小说,或是大幅改进已有的大模型。

AI研究员Zach Stein-Perlman在博客中写道,拥有此类能力的LLM的问世将带来巨大的影响,无论是潜在好处还是潜在风险」。


Kinniment承认,LLM能力翻倍的速度让人害怕,仿佛科幻片灾难前奏。

但她也表示,在现实中也可能有很多因素影响和减缓这种进展。AI再聪明,仍然可能受到硬件、机器人技术等瓶颈的掣肘。

参考资料:

https://spectrum.ieee.org/large-language-model-performance


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
太子集团强烈否认涉诈指控!

太子集团强烈否认涉诈指控!

荆楚寰宇文枢
2025-11-11 22:13:26
疯传!大批媒体曝:吴亦凡监狱中绝食死亡?

疯传!大批媒体曝:吴亦凡监狱中绝食死亡?

澳洲红领巾
2025-11-11 11:25:36
香港这事搞大了!

香港这事搞大了!

谈芯说科技
2025-11-09 13:56:24
仅10分钟13中13轰28分!2.26米张子宇连续三战100% 女版鲨鱼太强

仅10分钟13中13轰28分!2.26米张子宇连续三战100% 女版鲨鱼太强

颜小白的篮球梦
2025-11-11 18:16:24
录音事件升级!警方通报秦雯袭警事件,又有录音曝光,有人要凉了

录音事件升级!警方通报秦雯袭警事件,又有录音曝光,有人要凉了

叨唠
2025-11-11 21:53:58
新华视评:一些镇政府在大门口设门卫,群众进出审查严格!直面群众的镇政府,为何要设“门禁”呢?

新华视评:一些镇政府在大门口设门卫,群众进出审查严格!直面群众的镇政府,为何要设“门禁”呢?

新京报政事儿
2025-11-10 22:28:06
古二打脸警方通报,直接曝出新录音,捞人者的背景和名字均已公开

古二打脸警方通报,直接曝出新录音,捞人者的背景和名字均已公开

芊手若
2025-11-11 17:56:30
三角恋?陷害曾医生和副院长的人遭曝光?是一个叫汤淑珍的女人

三角恋?陷害曾医生和副院长的人遭曝光?是一个叫汤淑珍的女人

汉史趣闻
2025-11-11 19:40:24
曾某远没原配漂亮!对比照曝光,祖某也并不爱她,坐姿说明一切

曾某远没原配漂亮!对比照曝光,祖某也并不爱她,坐姿说明一切

子芫伴你成长
2025-11-09 22:05:23
江苏小米SU7突然起火,烧了二三十分钟,火势很大,原因疑曝光

江苏小米SU7突然起火,烧了二三十分钟,火势很大,原因疑曝光

180视角
2025-11-11 16:44:09
阿坝州双江口红旗桥引桥为何垮塌?官方:已成立专项工作组,原因尚需进一步核查

阿坝州双江口红旗桥引桥为何垮塌?官方:已成立专项工作组,原因尚需进一步核查

澎湃新闻
2025-11-11 19:34:26
毒株变了,传染性更强!专家提醒:这类冬季高发病马上要冲高

毒株变了,传染性更强!专家提醒:这类冬季高发病马上要冲高

新民晚报
2025-11-11 15:35:48
优酷的会员数跌破一亿,不是因为没剧,而是没人愿意为平庸买单了

优酷的会员数跌破一亿,不是因为没剧,而是没人愿意为平庸买单了

现代春秋
2025-11-10 15:40:04
留给赖清德时间不多了!大陆巷战演习,繁体字一出,台媒舆论大变

留给赖清德时间不多了!大陆巷战演习,繁体字一出,台媒舆论大变

时时有聊
2025-11-11 20:55:04
张雪峰新女友身份疑曝光,两人同看演唱会举止亲密,女方才貌双全

张雪峰新女友身份疑曝光,两人同看演唱会举止亲密,女方才貌双全

古希腊掌管松饼的神
2025-11-11 13:49:47
乌克兰全黑了!核打击前最后警告,俄军发射13枚“全球禁止”导弹

乌克兰全黑了!核打击前最后警告,俄军发射13枚“全球禁止”导弹

史纪文谭
2025-11-11 14:16:47
“玄龙”升空、歼-20发射空空导弹 空军重磅视频信息量大!

“玄龙”升空、歼-20发射空空导弹 空军重磅视频信息量大!

环球网资讯
2025-11-11 17:55:15
上海正在面临大规模人口迁移!

上海正在面临大规模人口迁移!

深度报
2025-11-11 21:39:10
官方:亚马尔退出国家队,西班牙足协对其自行接受治疗不满

官方:亚马尔退出国家队,西班牙足协对其自行接受治疗不满

懂球帝
2025-11-11 18:01:10
美福特号航母进入加勒比海

美福特号航母进入加勒比海

界面新闻
2025-11-11 22:44:34
2025-11-12 02:23:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13845文章数 66242关注度
往期回顾 全部

科技要闻

苹果新品惨败,产线拆光、二代搁浅!

头条要闻

携6.1万枚比特币出逃英国 富婆奢靡生活披露

头条要闻

携6.1万枚比特币出逃英国 富婆奢靡生活披露

体育要闻

一个14岁的小男孩,决定了谁能晋级世界杯

娱乐要闻

古二曝秦雯多次炫耀袭警经历

财经要闻

南昌三瑞智能IPO:委外代工模式存疑

汽车要闻

盈利"大考",汽车智能化企业的中场战事

态度原创

亲子
手机
数码
健康
艺术

亲子要闻

没人生娃了?上海一产科医生称:从一晚上8个剖腹产到现在1个没有

手机要闻

小米10000mAh电池量产落地,REDMI中端机率先搭载,你期待吗?

数码要闻

机械师Mini GTR迷你主机上新:锐龙AI 9 HX 370配置,性能释放70W

超声探头会加重受伤情况吗?

艺术要闻

美得令人窒息!印度美女照片震撼上线!

无障碍浏览 进入关怀版