网易首页 > 网易号 > 正文 申请入驻

AI进化时间表已现!LLM每7个月能力翻倍,2030年职场不复存在?

0
分享至


新智元报道

编辑:海狸

【新智元导读】LLM正以前所未有的速度进化:METR发现,它们的智能每7个月就翻一番。到了2030年,一个模型可能只需几小时,就能搞定人类工程师几个月的工作。别眨眼,你的岗位或许已在倒计时中。

随着大模型能力一路狂飙,各路测评基准也遍地开花。

从经典的MMLU、HellaSwag,到多模态方向的MMMU、MathVista,再到AGI风格的Arena对决、Agent任务、Tool-use测试。

如何科学地衡量LLM在长时、复杂、真实世界任务中的能力,至关重要。

今年3月,METR发布重磅研究《MeasuringAIAbility to Complete Long Tasks》,首次提出令人眼前一亮的新指标:

50%任务完成时间视野(50%-task-completion time horizon)

——也就是:AI能以50%成功率完成的任务,人类通常需要花多久?


论文链接:https://arxiv.org/pdf/2503.14499

据此,METR展开了一系列研究,包括任务复杂度设定、人类基准时间测量、多模型对比实验到层层统计回归建模。

最终,团队精准量化了AI智力演进速度,并抛出惊人预测:

按照目前增长速度,5年之后,大模型可能就能在一天内自动完成原本需要人类数月才能完成的复杂任务。

别眨眼,LLM每7个月实力翻倍!

METR团队选出每一时间段的最强模型,建立了一个精确的「大事年表」,进一步定量分析模型能力随时间的增长情况。


结果显示出清晰的指数增长趋势:在过去的六年中,模型能力每7个月翻一番

图中的阴影区域表示通过在任务家族、任务以及任务尝试之间进行分层自助法(hierarchical bootstrap),计算得出95%的置信区间

不过,这个指数增长趋势非常陡峭,所以于对误差有很高的容忍度。

即便绝对测量误差达到10倍,能力到来的时间也仅会改变大约2年左右。

因此,团队对不同能力何时出现的预测基本不会出错。

模型vs人类:用「人类耗时」测量大模型智力

METR这项研究的核心就是他们提出的这项指标:「任务完成时间视野」(task-completion time horizon)。

这个指标相当于给分别完成任务的人和AI加了个映射:

想象一组各不相同的任务,人类完成这些任务分别需要不同的时间。

把这些任务交给AI模型去做,然后找出AI能以50%成功率完成的那一档任务(但不考虑AI用的时间)。

然后对应去看人类完成这一档任务通常需要多长时间。

这个人类所需的时间,就是该模型的50%-task-completion time horizon,也即「任务完成时间视野」。


为了证明这个基准的有效性,METR团队做了翔实的统计分析。

结果显示,人类基线完成某项任务所需时间,与各模型在该任务上的平均成功率之间存在负相关关系

简而言之,人做起来越慢,模型做起来越容易失败。

并且,用指数模型拟合这个负相关趋势效果很好

用模型成功率对人类完成时间的对数做回归分析,算出的R²约为0.83,相关系数为0.91,这比不同模型之间平均成功率的相关系数还高。


因此,「以人类时间衡量任务难度」,这个指标非常合理。

模型越新,任务越难:能力进化有迹可循

证明了这个指标的有效性,接下来还要看看各个模型在这个指标上的表现。

团队进一步检验了不同模型能完成的任务所对应的人类耗时。

结果相当符合直觉:

2023年之前的模型(如GPT-2和GPT-3)只能完成那些只需写几句话的简单任务。

而对于人类耗时超过1分钟的任务,它们则迅速败下阵来。


相比之下,最新的前沿模型(如Claude 3.5 Sonnet和o1)则可以完成一些人类要花数小时的任务,甚至在十几小时的超长程任务上还能保持一定的成功率。


效率碾压人类:2030年警告已拉响

按照「7个月翻一番」的这个速度下去,METR团队得到了一个惊人结论:

到2030年,最先进的LLM有望以50%的可靠性,完成一个每周工作40小时的人类工程师花一个月才能完成的任务。

更令人毛骨悚然的是, LLM的速度可能远超人类——也许只需几天,甚至几小时。

到2030年,LLM可能已经能轻松创办一家公司、写出一部像样的小说,或是大幅改进已有的大模型。

AI研究员Zach Stein-Perlman在博客中写道,拥有此类能力的LLM的问世将带来巨大的影响,无论是潜在好处还是潜在风险」。


Kinniment承认,LLM能力翻倍的速度让人害怕,仿佛科幻片灾难前奏。

但她也表示,在现实中也可能有很多因素影响和减缓这种进展。AI再聪明,仍然可能受到硬件、机器人技术等瓶颈的掣肘。

参考资料:

https://spectrum.ieee.org/large-language-model-performance


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
周四收评:今天A股涨到4030了,做好准备,明天可能这样走

周四收评:今天A股涨到4030了,做好准备,明天可能这样走

一只番茄鱼
2025-11-13 15:02:47
关于深圳市未经批准使用“金融控股”“金融集团”等字样及名称中含有“金控”字样经营主体名单的公示

关于深圳市未经批准使用“金融控股”“金融集团”等字样及名称中含有“金控”字样经营主体名单的公示

新浪财经
2025-11-13 09:12:54
董洁控诉潘粤明家暴十年后,他携三部新剧杀回巅峰

董洁控诉潘粤明家暴十年后,他携三部新剧杀回巅峰

顶世文化
2025-11-13 15:24:49
果然不出大陆所料:美国对郑丽文正式发邀请,大陆两句话震动岛内

果然不出大陆所料:美国对郑丽文正式发邀请,大陆两句话震动岛内

南宗历史
2025-11-13 16:49:10
九亿姐和功夫巨星玩三人行!

九亿姐和功夫巨星玩三人行!

八卦疯叔
2025-11-13 11:32:42
台当局通知全岛,必须全力救沈伯洋,话音刚落,解放军攻击11登场

台当局通知全岛,必须全力救沈伯洋,话音刚落,解放军攻击11登场

云鹏叙事
2025-11-13 11:57:07
白银大涨,创历史新高

白银大涨,创历史新高

证券时报e公司
2025-11-13 17:15:19
厦门又一培训机构跑路,一百多位家长退费难

厦门又一培训机构跑路,一百多位家长退费难

Yes厦门
2025-11-12 16:51:24
全新本田CR-V曝光外观大变,内配竖向大屏,搭载2.0L混合动力系统

全新本田CR-V曝光外观大变,内配竖向大屏,搭载2.0L混合动力系统

生活魔术专家
2025-11-11 10:39:03
章泽天出席活动讲话时肢体动作不断,引发网友吐槽:讲话水平一般

章泽天出席活动讲话时肢体动作不断,引发网友吐槽:讲话水平一般

鑫鑫说说
2025-11-13 08:57:36
郑丽文被美国约谈,赖清德暗中做手脚,还是特朗普终于坐不住了

郑丽文被美国约谈,赖清德暗中做手脚,还是特朗普终于坐不住了

史纪文谭
2025-11-13 17:17:51
朱芳雨神操作,17岁1米92潜力锋卫摇摆重返广东男篮,首战16+4+7

朱芳雨神操作,17岁1米92潜力锋卫摇摆重返广东男篮,首战16+4+7

中国篮坛快讯
2025-11-13 16:11:27
美军严重误判:五角大楼认为不管怎么轰炸中国,解放军都不敢还手

美军严重误判:五角大楼认为不管怎么轰炸中国,解放军都不敢还手

乐趣纪史
2025-11-13 12:27:38
吴艳妮穿紧身三角裤太窄被批“露骨”,到底碍了谁的眼?

吴艳妮穿紧身三角裤太窄被批“露骨”,到底碍了谁的眼?

傲娇的马甲线
2025-09-17 18:06:44
花生再次被关注!调查发现:糖尿病常吃花生,不过半年或有4好处

花生再次被关注!调查发现:糖尿病常吃花生,不过半年或有4好处

艾米手工作品
2025-11-11 13:27:27
顶多只能用一个月:前线乌军最缺皮卡,最受欢迎品牌都是日系

顶多只能用一个月:前线乌军最缺皮卡,最受欢迎品牌都是日系

鹰眼Defence
2025-11-13 17:07:40
杨鼎新,遗憾不敌朴廷桓九段,止步三星杯世界围棋大师赛8强!

杨鼎新,遗憾不敌朴廷桓九段,止步三星杯世界围棋大师赛8强!

L76号
2025-11-13 15:52:16
上海这家花鸟市场,即将关闭!陪伴了上海人20年,好消息是……

上海这家花鸟市场,即将关闭!陪伴了上海人20年,好消息是……

上观新闻
2025-11-13 15:48:04
被剪刀差剪掉的一生:1.8亿农村老人为何只能靠百元养老金度日?

被剪刀差剪掉的一生:1.8亿农村老人为何只能靠百元养老金度日?

霹雳炮
2025-11-02 20:52:08
狗咬人引发命案律师透露新进展:狗主人的妹夫重伤,属于正当防卫

狗咬人引发命案律师透露新进展:狗主人的妹夫重伤,属于正当防卫

汉史趣闻
2025-11-13 15:26:25
2025-11-13 18:04:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13857文章数 66246关注度
往期回顾 全部

科技要闻

深夜重磅!GPT-5.1发布,奥特曼大谈情商

头条要闻

狗咬人被摔死狗主人上门理论被反杀 被告人家属发声

头条要闻

狗咬人被摔死狗主人上门理论被反杀 被告人家属发声

体育要闻

保罗,看看你对马刺干的好事!

娱乐要闻

王鹤棣孟子义真要搭?

财经要闻

源峰25亿赌局!汉堡王中国"卖身"求生

汽车要闻

具备高阶辅助驾驶功能 欧拉5预售价10.98万起

态度原创

亲子
教育
数码
时尚
公开课

亲子要闻

This 28-day-old baby raises his tiny hand like a l...

教育要闻

银川科技学院就业深造怎么样?高就业率+百余所海外名校,稳了!

数码要闻

1 块 SSD + 1 块 HDD:OWC 推出雷电 5 存储扩展坞 StudioStack

今年最好看的4件大衣!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版