网易首页 > 网易号 > 正文 申请入驻

AI进化时间表已现!LLM每7个月能力翻倍,2030年职场不复存在?

0
分享至


新智元报道

编辑:海狸

【新智元导读】LLM正以前所未有的速度进化:METR发现,它们的智能每7个月就翻一番。到了2030年,一个模型可能只需几小时,就能搞定人类工程师几个月的工作。别眨眼,你的岗位或许已在倒计时中。

随着大模型能力一路狂飙,各路测评基准也遍地开花。

从经典的MMLU、HellaSwag,到多模态方向的MMMU、MathVista,再到AGI风格的Arena对决、Agent任务、Tool-use测试。

如何科学地衡量LLM在长时、复杂、真实世界任务中的能力,至关重要。

今年3月,METR发布重磅研究《MeasuringAIAbility to Complete Long Tasks》,首次提出令人眼前一亮的新指标:

50%任务完成时间视野(50%-task-completion time horizon)

——也就是:AI能以50%成功率完成的任务,人类通常需要花多久?


论文链接:https://arxiv.org/pdf/2503.14499

据此,METR展开了一系列研究,包括任务复杂度设定、人类基准时间测量、多模型对比实验到层层统计回归建模。

最终,团队精准量化了AI智力演进速度,并抛出惊人预测:

按照目前增长速度,5年之后,大模型可能就能在一天内自动完成原本需要人类数月才能完成的复杂任务。

别眨眼,LLM每7个月实力翻倍!

METR团队选出每一时间段的最强模型,建立了一个精确的「大事年表」,进一步定量分析模型能力随时间的增长情况。


结果显示出清晰的指数增长趋势:在过去的六年中,模型能力每7个月翻一番

图中的阴影区域表示通过在任务家族、任务以及任务尝试之间进行分层自助法(hierarchical bootstrap),计算得出95%的置信区间

不过,这个指数增长趋势非常陡峭,所以于对误差有很高的容忍度。

即便绝对测量误差达到10倍,能力到来的时间也仅会改变大约2年左右。

因此,团队对不同能力何时出现的预测基本不会出错。

模型vs人类:用「人类耗时」测量大模型智力

METR这项研究的核心就是他们提出的这项指标:「任务完成时间视野」(task-completion time horizon)。

这个指标相当于给分别完成任务的人和AI加了个映射:

想象一组各不相同的任务,人类完成这些任务分别需要不同的时间。

把这些任务交给AI模型去做,然后找出AI能以50%成功率完成的那一档任务(但不考虑AI用的时间)。

然后对应去看人类完成这一档任务通常需要多长时间。

这个人类所需的时间,就是该模型的50%-task-completion time horizon,也即「任务完成时间视野」。


为了证明这个基准的有效性,METR团队做了翔实的统计分析。

结果显示,人类基线完成某项任务所需时间,与各模型在该任务上的平均成功率之间存在负相关关系

简而言之,人做起来越慢,模型做起来越容易失败。

并且,用指数模型拟合这个负相关趋势效果很好

用模型成功率对人类完成时间的对数做回归分析,算出的R²约为0.83,相关系数为0.91,这比不同模型之间平均成功率的相关系数还高。


因此,「以人类时间衡量任务难度」,这个指标非常合理。

模型越新,任务越难:能力进化有迹可循

证明了这个指标的有效性,接下来还要看看各个模型在这个指标上的表现。

团队进一步检验了不同模型能完成的任务所对应的人类耗时。

结果相当符合直觉:

2023年之前的模型(如GPT-2和GPT-3)只能完成那些只需写几句话的简单任务。

而对于人类耗时超过1分钟的任务,它们则迅速败下阵来。


相比之下,最新的前沿模型(如Claude 3.5 Sonnet和o1)则可以完成一些人类要花数小时的任务,甚至在十几小时的超长程任务上还能保持一定的成功率。


效率碾压人类:2030年警告已拉响

按照「7个月翻一番」的这个速度下去,METR团队得到了一个惊人结论:

到2030年,最先进的LLM有望以50%的可靠性,完成一个每周工作40小时的人类工程师花一个月才能完成的任务。

更令人毛骨悚然的是, LLM的速度可能远超人类——也许只需几天,甚至几小时。

到2030年,LLM可能已经能轻松创办一家公司、写出一部像样的小说,或是大幅改进已有的大模型。

AI研究员Zach Stein-Perlman在博客中写道,拥有此类能力的LLM的问世将带来巨大的影响,无论是潜在好处还是潜在风险」。


Kinniment承认,LLM能力翻倍的速度让人害怕,仿佛科幻片灾难前奏。

但她也表示,在现实中也可能有很多因素影响和减缓这种进展。AI再聪明,仍然可能受到硬件、机器人技术等瓶颈的掣肘。

参考资料:

https://spectrum.ieee.org/large-language-model-performance


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
央国企开始下狠手了:从内退到息岗,铁饭碗全面破碎!

央国企开始下狠手了:从内退到息岗,铁饭碗全面破碎!

黯泉
2026-01-03 22:50:30
2025销量出炉:大众再夺第一,GL8稳住销冠,铂智3X强势崛起

2025销量出炉:大众再夺第一,GL8稳住销冠,铂智3X强势崛起

功夫AUTO
2026-01-04 11:33:22
29岁渐冻症女孩“重生”,吃了蔡磊团队研发药物2年,“这个药用在我身上有用,病情没再发展”

29岁渐冻症女孩“重生”,吃了蔡磊团队研发药物2年,“这个药用在我身上有用,病情没再发展”

观威海
2026-01-02 10:14:04
多国将与台“断交”?美媒爆料;大陆军演有惊喜,台俩高官或下台

多国将与台“断交”?美媒爆料;大陆军演有惊喜,台俩高官或下台

月光作笺a
2026-01-05 04:08:37
强援报到,火箭双向合同签下冠军后卫,他曾让马刺卡斯尔让出球权

强援报到,火箭双向合同签下冠军后卫,他曾让马刺卡斯尔让出球权

拾叁懂球
2026-01-04 20:36:50
A股:刚刚,国务院发布,释放一信号,周一将迎来新的变盘

A股:刚刚,国务院发布,释放一信号,周一将迎来新的变盘

云鹏叙事
2026-01-04 22:00:39
世上没有后悔药!这次公开向儿子道歉的成龙,给为人父母提了醒

世上没有后悔药!这次公开向儿子道歉的成龙,给为人父母提了醒

兴史兴谈
2026-01-04 01:54:20
宝马突然大范围调价,最高降30万,宝马中国回应→

宝马突然大范围调价,最高降30万,宝马中国回应→

第一财经资讯
2026-01-02 21:33:23
1-1!曼城遭切尔西补时绝平!3分变1分!恩佐绝平功不可没!

1-1!曼城遭切尔西补时绝平!3分变1分!恩佐绝平功不可没!

阿错田间生活
2026-01-05 04:00:35
真正的东方美人出现了,审美终于回归了

真正的东方美人出现了,审美终于回归了

奇葩游戏酱
2026-01-03 14:42:39
鹿晗醉酒跟司晓迪躺一起,更多同款证据被扒,网友喊话关晓彤倒油

鹿晗醉酒跟司晓迪躺一起,更多同款证据被扒,网友喊话关晓彤倒油

萌神木木
2026-01-03 10:37:59
打头阵!今年首位欧洲国家领导人访华,为何是他?

打头阵!今年首位欧洲国家领导人访华,为何是他?

上观新闻
2026-01-04 14:30:14
快住手!经常捅这个器官的人,癌细胞可能悄悄繁殖

快住手!经常捅这个器官的人,癌细胞可能悄悄繁殖

奇妙的本草
2026-01-02 12:00:45
我闺蜜去东方卫视跨年现场见着肖战了,回来就跟我撂下一句大实话

我闺蜜去东方卫视跨年现场见着肖战了,回来就跟我撂下一句大实话

小光侃娱乐
2026-01-04 22:20:03
又让张召忠说中了?东拼西凑550亿建的2艘航母,如今彻底成为累赘

又让张召忠说中了?东拼西凑550亿建的2艘航母,如今彻底成为累赘

泠泠说史
2025-12-24 17:42:56
维尔茨:不满意今天的结果;当时就确定自己的进球越位在先

维尔茨:不满意今天的结果;当时就确定自己的进球越位在先

懂球帝
2026-01-05 01:55:41
震惊!浙江月均收入16500元小伙相亲,被失业女嫌收入低,引热议

震惊!浙江月均收入16500元小伙相亲,被失业女嫌收入低,引热议

火山詩话
2026-01-04 08:58:04
比亚迪发力了!2026年上强度,续航1006km纯电轿车来了

比亚迪发力了!2026年上强度,续航1006km纯电轿车来了

Nice好车
2026-01-04 15:22:52
从追捧到嫌弃,欧美文化为何在国内集体崩盘?

从追捧到嫌弃,欧美文化为何在国内集体崩盘?

谈芯说科技
2026-01-02 22:56:12
大连滨海公园附近海面上漂着一个人,救援队员零下11℃下水营救

大连滨海公园附近海面上漂着一个人,救援队员零下11℃下水营救

半岛晨报
2026-01-04 19:17:20
2026-01-05 06:19:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14254文章数 66427关注度
往期回顾 全部

科技要闻

雷军:骂小米汽车有流量,但别故意抹黑

头条要闻

拘押马杜罗的拘留中心"环境令人作呕" 内部画面披露

头条要闻

拘押马杜罗的拘留中心"环境令人作呕" 内部画面披露

体育要闻

女子世界第一,9年前在咖啡店洗碗

娱乐要闻

《小城大事》上星央八 热血筑梦正当时

财经要闻

李迅雷:扩内需必须把重心从"投"转向"消"

汽车要闻

最高续航310km 岚图泰山8或将上半年发布

态度原创

艺术
数码
游戏
公开课
军事航空

艺术要闻

太美了,看一眼美进心窝!

数码要闻

快科技2025年度评奖:智能穿戴篇

曝PS掌机要来了?博主传外媒大佬表示26年有消息

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美军突袭抓获马杜罗 三个细节值得关注

无障碍浏览 进入关怀版