网易首页 > 网易号 > 正文 申请入驻

麻省理工:到2029年,AI足以胜任大部分基于文本的任务

0
分享至

麻省理工学院最新研究显示,AI对劳动力市场的自动化替代并非突如其来的“巨浪”,而是广泛且持续的“涨潮”,预计到2029年,大多数基于文本的工作任务AI成功率将达到80%至95%。


研究背景:AI如何改变工作?

2026年3月,麻省理工学院FutureTech团队发布工作论文《巨浪还是潮汐:来自数千名工人对劳动力市场任务评估的AI自动化初步发现》(论文编号:arXiv:2604.01363v1),作者包括Matthias Mertens、Neil Thompson等人,研究资金来自Open Philanthropy及一家科技公司。

这项研究试图回答一个对投资者和政策制定者都至关重要的问题:AI能力的提升,究竟会以“巨浪”形式(Crashing Waves)——突然、集中地颠覆某类工作——还是以“潮汐”形式(Rising Tides)——广泛、渐进地抬升整体自动化水平?

两种模式对劳动力市场的冲击截然不同。“巨浪”意味着某些职业在短期内从几乎不受影响到几乎被完全替代,工人几乎没有时间适应;“潮汐”则意味着变化更可预期,但覆盖面更广,最终影响同样深远。


图1 “巨浪” VS “潮汐”

研究方法:17000份真实工人评估

研究团队从O*NET数据库的18786项任务中,筛选出具备至少10%时间节省潜力的11768项文本类任务,最终纳入调查的任务达11536项,生成69216个任务实例。

评估流程严格:每个任务实例由41款大型语言模型(LLM)生成回答,再由具备相关工作经验的真实从业者打分,评分采用1至9分制——7分及以上代表“无需编辑即可最低限度使用”,9分代表“优于普通人类工人水平”。研究最终纳入超过17000份有效评估,约34.6%的原始数据因质量问题被剔除。

任务时长覆盖从约10分钟到数天不等,大多数任务耗时在20分钟至10小时之间。

研究团队强调,这是初步结果,数据收集仍在进行中,当前样本在工资水平和学历要求上略低于目标分布,白领职业略有过度代表。


图3 任务时长分布直方图(Task Duration Histogram)

核心发现一:是“潮汐”,不是“巨浪”

研究的核心发现是:AI成功率与任务时长之间的关系曲线出奇地平缓。

具体而言,任务时长每增加10倍,AI成功率(≥7分门槛)的对数几率仅下降0.31。在60%的样本均值成功率下,这意味着预测接受率仅下降约7.6个百分点。这条曲线远比此前METR等机构基于基准测试得出的陡峭曲线平缓得多。

论文写道:“在LLM能够处理的大量具有代表性的、贴近实际的劳动力市场任务中,任务成功率与任务持续时间之间的下降趋势平均而言出奇地平缓——也就是说,更像是水涨船高,而不是海浪拍岸。”

这一模式在不同规模的模型、不同发布时间的模型中均成立。在大多数职业类别(如管理类、社区与社会服务类)中,同样遵循“潮汐”规律。

不过,不同职业类别之间存在显著差异。成功率最高的是“安装、维护与修理”类(72.5%)和“建筑与采掘”类(71.0%),最低的是“法律”类(46.8%)。斜率最陡的是“个人护理与服务”类(β=-0.93),意味着该领域任务时长对AI成功率影响最大。


图4 任务实例自动化程度与所需完成时间(Task Instance Automation by Required Task Completion Time)

核心发现二:进步速度超出预期,任务处理耗时每3.8个月“翻倍”

“潮汐”并不意味着缓慢。研究数据显示,AI能力正在以相当快的速度全面提升。

研究写道:“在2024年第二季度至2025年第三季度期间,前沿模型在3至4小时任务上的成功率从50%提升至1周任务,在1分钟任务上的成功率从70%提升至1小时任务。”

  • 前沿模型在50%成功率门槛下可完成的任务时长,从3至4小时跃升至1周

  • 70%成功率门槛下,可完成任务时长从1分钟跃升至1小时

如果将AI达到特定成功率(例如50%)所能处理的“人类任务耗时”作为衡量标准,这一指标的“翻倍时间”仅为3.8个月。这一速度处于现有研究估算的较快端——METR此前报告的倍增时间为2至6个月,Kwa等人报告为4至7个月。

从失败率角度看,在耗时5分钟至24小时的任务中,失败率(1减去成功率)的减半时间为2.4至3.2年,对应每年成功率提升约8至11个百分点

这种全面且快速的提升验证了“水涨船高”的逻辑:新一代模型的发布,带来了成功率曲线的整体平行上移。



图6 任务时长与成功率门槛随时间变化(Task Duration and Success Rate Thresholds over Time)

核心发现三:大模型与新模型,进步路径不同

研究还区分了两种能力提升路径,这对理解AI投资逻辑有直接意义。

模型规模(大vs小):参数量超过1000亿的大模型相比小模型,在短时任务上优势明显,但在长时任务上优势收窄——曲线呈"向外旋转"形态(β=-0.36 vs -0.26)。

模型新旧(新vs旧):2025年后发布的新模型相比旧模型,在各类任务时长上的提升幅度大致相同——曲线呈近乎平行上移。

这意味着,时间维度的迭代(更新的模型)比规模维度的扩张(更大的模型)更能均匀地提升AI在长时复杂任务上的表现。对于关注AI基础设施投资回报的投资者而言,这一发现值得关注。

2029年预测:渐进,但不可低估

基于当前趋势外推,研究团队给出了明确的时间节点预测:

预计到2029年,大多数任务的AI成功率将达到80%至95%,并达到最低合格质量水平。我们调查中的大多数任务耗时数小时,这意味着到2029年成功率将接近90%。

然而,研究同时指出,要达到“近乎完美”的成功率(接近100%),还需要数年以上的时间。这为工人调整提供了一定窗口期,尤其是在容错率低的任务领域。

研究团队明确提示,上述预测建立在AI进步速度维持近两年趋势的假设之上,应视为上限情景。潜在的放缓因素包括:算力扩展成本上升、硬件进步放缓、算法创新减速,以及物理极限对芯片性能的约束。


图7 AI成功率随时间预测(Predicted AI Success Rates Over Time)

对劳动力市场的影响:任务自动化≠工人被替代

研究团队特别强调,AI在任务层面的高成功率,不能直接等同于相应比例的工作岗位被自动化

原因有三:

  1. 数据偏差:当前样本可能过度代表易于调查的职业,而这些职业也可能更易于自动化,导致整体估算偏高

  2. “最后一公里”成本:现实中将AI整合进工作流程存在信息获取、系统集成、合规等额外成本,部分任务在经济上并不划算

  3. 任务与职业的区别:单个任务被自动化,不必然导致整个职业的就业减少。正如Autor与Thompson(2025)的研究所示,任务自动化对工资和就业的影响取决于该任务在整个职业任务束中的地位,结果可能是工资上升或下降,就业增加或减少

论文写道:“目前尚不清楚经济将如何应对,但很难想象AI的持续进步与当前经济现状的稳定相协调。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
你永远想不到医院的八卦能有多炸裂?一件提神醒脑,两件直接撂倒

你永远想不到医院的八卦能有多炸裂?一件提神醒脑,两件直接撂倒

另子维爱读史
2026-01-22 18:21:09
今年首个超强台风来了?大暴雨暴雪确定:11-12日新一轮春雨再现

今年首个超强台风来了?大暴雨暴雪确定:11-12日新一轮春雨再现

环球科学猫
2026-04-09 13:14:52
为了郑丽文专机能够顺利落地,解放军果断亮出底牌,痛击台独要害

为了郑丽文专机能够顺利落地,解放军果断亮出底牌,痛击台独要害

健身狂人
2026-04-08 08:51:15
亨利:库巴西不该吃红牌,球并没有在小西蒙尼完全控制范围内

亨利:库巴西不该吃红牌,球并没有在小西蒙尼完全控制范围内

懂球帝
2026-04-09 07:24:06
52岁漂亮大妈相亲,聊到特殊问题却立马脸红,大叔:你不说我也懂

52岁漂亮大妈相亲,聊到特殊问题却立马脸红,大叔:你不说我也懂

谈史论天地
2026-04-08 19:05:03
2-0!亚马尔被冻结,小蜘蛛世界波,马竞终结魔咒,巴萨命悬一线

2-0!亚马尔被冻结,小蜘蛛世界波,马竞终结魔咒,巴萨命悬一线

我的护球最独特
2026-04-09 05:01:50
宣布停火前,伊朗总统和瓦希迪发生分歧,佩泽希齐扬发出警告

宣布停火前,伊朗总统和瓦希迪发生分歧,佩泽希齐扬发出警告

谛听骨语本尊
2026-04-09 14:35:16
日军遗留宝藏被发现,日本得知后要求归还,被拒后竟派人前来盗掘

日军遗留宝藏被发现,日本得知后要求归还,被拒后竟派人前来盗掘

浩舞默画
2026-04-08 09:24:18
输球后皇马顿悟!高层夏窗敲定关键交易,起价1.2亿欧,核心来了

输球后皇马顿悟!高层夏窗敲定关键交易,起价1.2亿欧,核心来了

祥谈体育
2026-04-09 12:30:22
乌克兰攻击俄最大的沃罗涅日化工厂!跨境攻击首次超过俄军

乌克兰攻击俄最大的沃罗涅日化工厂!跨境攻击首次超过俄军

项鹏飞
2026-04-07 19:12:08
“中国紫檀女王”陈丽华逝世,曾是中国女首富,47岁时倒追“唐僧”迟重瑞,晚年每天生活费10元

“中国紫檀女王”陈丽华逝世,曾是中国女首富,47岁时倒追“唐僧”迟重瑞,晚年每天生活费10元

极目新闻
2026-04-07 12:39:33
华为余承东朋友圈发文:多次批评团队设计,问题出在审美上

华为余承东朋友圈发文:多次批评团队设计,问题出在审美上

PChome电脑之家
2026-04-08 18:38:44
美伊冲突,已经出现了3个赢家,10个输家,都是谁?

美伊冲突,已经出现了3个赢家,10个输家,都是谁?

七号说三国
2026-03-25 21:11:29
发现一个不争的事实:一个女人越是不爱打扮、不爱说话、不爱凑热闹,往往这3个方面越是让人佩服

发现一个不争的事实:一个女人越是不爱打扮、不爱说话、不爱凑热闹,往往这3个方面越是让人佩服

LULU生活家
2026-04-09 15:09:50
突发!霍尔木兹海峡,再次关闭!伊朗:“谈判基础”已被破坏

突发!霍尔木兹海峡,再次关闭!伊朗:“谈判基础”已被破坏

数据宝
2026-04-09 07:43:45
要动手了?中国在家门口划下40天禁航区,释放什么信号?

要动手了?中国在家门口划下40天禁航区,释放什么信号?

像诗一样的姑娘
2026-04-07 12:20:24
郑丽文抵达上海受高规格接待!蒋万安发声:反对统一,要对等尊严

郑丽文抵达上海受高规格接待!蒋万安发声:反对统一,要对等尊严

超喜欢我的狗子
2026-04-09 06:15:15
历史老师跌入“无人区”:某高中20人教研组,近一半无学生可教

历史老师跌入“无人区”:某高中20人教研组,近一半无学生可教

听心堂
2026-03-31 15:52:04
被骗千万传闻真相大白仅1天,郭艾伦又出大动作,牵连周深太意外

被骗千万传闻真相大白仅1天,郭艾伦又出大动作,牵连周深太意外

暖心萌阿菇凉
2026-04-09 03:47:21
王励勤下定决心,4大老将可逐步放弃,重点培养新生代为时不晚

王励勤下定决心,4大老将可逐步放弃,重点培养新生代为时不晚

感恩每一刻
2026-04-08 04:43:36
2026-04-09 15:40:49
华尔街见闻官方 incentive-icons
华尔街见闻官方
中国领先的金融商业信息提供商
144278文章数 2653178关注度
往期回顾 全部

科技要闻

Meta凌晨首发闭源大模型 扎克伯格又行了?

头条要闻

白宫发言人:特朗普直接把伊朗停战条款扔进了垃圾桶

头条要闻

白宫发言人:特朗普直接把伊朗停战条款扔进了垃圾桶

体育要闻

8万人面前心脏骤停 现在他还站在球场上

娱乐要闻

金莎官宣结婚 与老公孙丞潇相差18岁

财经要闻

谈判基础已被破坏!霍尔木兹海峡关闭

汽车要闻

合资3.0革命性重构,文飞与神行者背水一战

态度原创

时尚
健康
教育
艺术
军事航空

ED网红病,正在掏空年轻女性

干细胞抗衰4大误区,90%的人都中招

教育要闻

一大早,南京一班主任连发三条信息:因天气原因体育中考延期

艺术要闻

庞茂琨 2026油画写生新作

军事要闻

黎真主党发射火箭弹 回应以违反停火协议

无障碍浏览 进入关怀版